· 16 мин чтения

Dell PERC H730/H740: настройка RAID, Hot Spare и rebuild на практике

Меня зовут Семёнов Евгений Сергеевич, я директор АйТи Фреш и за 15 лет обслуживания корпоративных инфраструктур я прошёл, наверное, через все поколения контроллеров Dell PERC — от H310 на R610 до H755N на R750. В этой статье собрал практические выкладки по самым массовым в нашем парке моделям H730 и H740: как настраивать массивы через BIOS и OMSA, как ловить сбои до того, как они станут аварией, и поделюсь кейсом одной логистической компании, где мы за месяц поменяли два диска и не потеряли ни одного байта данных.

Почему именно PERC H730 и H740: что у нас в парке

В сервисном парке АйТи Фреш сейчас 87 серверов Dell PowerEdge у клиентов, и из них 62 — это поколения 13G и 14G (R630, R730, R640, R740). На 13G по умолчанию ставится PERC H730 / H730P, на 14G — H740P. Остальные модели — H330 на бюджетных сборках, H840 на шасси с внешними полками MD1400/MD1420 и H750 на новых R650.

Принципиальная разница между H730 и H740, которую важно понимать инженеру:

Если у вас H730 без BBU и тормозит запись в базе 1С — первое, что я делаю на аудите, проверяю режим контроллера. В половине случаев оказывается, что батарея просто не активирована, либо она физически отсутствует, и админ годами работал в Write Through, не понимая причины тормозов.

Кейс: два отказа дисков за месяц на серверах логистической компании

В январе 2026 года к нам обратилась логистическая компания из Подольска. Клиент сам по себе классический: 38 рабочих мест, 1С УТ 11.5 на 14 пользователей одновременно, WMS-система собственной разработки, два сервера Dell R630 с PERC H730 и SAS 10K 1.2 TB по 6 дисков в каждом. За январь у них вылетело два диска подряд на одном из серверов — и второй вылетел ровно в момент, когда rebuild от первого был на 73 %. RAID 5, два отказа — арифметически массив должен был развалиться.

Не развалился. Спасло то, что предыдущий админ настроил Hot Spare, и второй вылетевший диск уже физически не участвовал в массиве, а ребилдился на горячий резерв. Когда меня позвали разобраться, я обнаружил классическую ситуацию: серверы 2017 года, диски наработали по 67–72 тысячи часов, SMART-показатели у трёх оставшихся дисков уже мигали жёлтым (Reallocated Sector Count > 50, Pending Sector Count > 5).

Что мы сделали за две недели:

  1. Заказали 12 новых SAS-дисков Toshiba 1.2 TB 10K с гарантией Dell (партнёрский канал, 12 дисков обошлись в 326 000 руб.).
  2. На обоих серверах поэтапно мигрировали с RAID 5 на RAID 6 + Hot Spare. RAID 5 на 6 дисках по 2026 году — это лотерея, ниже объясню почему.
  3. Развернули OMSA с веб-интерфейсом и настроили SNMP-трапы в Zabbix.
  4. Подключили почтовые алёрты на iDRAC9 и в Telegram через скрипт-прокладку.
  5. Прописали еженедельную проверку SMART через racadm в crontab нашего мониторинга.

С тех пор на этих серверах было ещё два отказа дисков — оба отработаны Hot Spare без участия инженера и без простоя 1С. Клиент платит абонентку, мы спим спокойно.

Какой уровень RAID выбирать в 2026 году

Когда я слышу «RAID 5 на шести SATA-дисках по 4 TB», у меня дёргается глаз. Объясняю математику простым языком: вероятность невосстановимой ошибки чтения (URE) у Enterprise SAS — 10^15, у SATA — 10^14. При rebuild массива контроллер читает все оставшиеся диски подряд. На массиве 6 × 4 TB SATA это 20 TB чтений, и вероятность поймать URE стремится к 80–90 %. То есть один диск отказал, начался rebuild, на чтении бэдблок — массив развалился.

Моя текущая шпаргалка по выбору RAID для PERC H730/H740:

СценарийТип дисковРекомендуюПочему
Сервер 1С 10–30 пользователейSAS SSD 800 GB–1.92 TBRAID 10 из 4–6 дисковСлучайная запись в 3 раза быстрее RAID 5/6
Файловый сервер до 5 TB полезногоSAS 10K 1.2–2.4 TBRAID 6 + Hot SpareЗащита от двух отказов, разумная плотность
Бэкапы, архивы, NASNL-SAS 7.2K 4–18 TBRAID 6 или RAID 60RAID 5 на больших дисках — лотерея
Гипервизор Proxmox/ESXiNVMe 1.92–3.84 TBRAID 1 + ZFS на VMNVMe умеет 100k+ IOPS, не трогаем
База Postgres высоконагруженнаяNVMe 1.92 TB+RAID 10 на H740PЗапись WAL требует низкой латентности

RAID 5 в 2026 году я ставлю только на маленьких массивах из быстрых SAS SSD (3–4 диска по 800 GB) либо на тестовых стендах. На production с дисками больше 1 TB — только RAID 6, и обязательно с Hot Spare.

Настройка RAID через BIOS контроллера (Ctrl+R)

Самый базовый способ — через утилиту PERC BIOS Configuration. Она работает без операционной системы, нужна для первичной разметки нового сервера. Последовательность действий, которую я отрабатываю на каждом новом сервере:

  1. При загрузке сервера в момент инициализации PERC появляется приглашение Press <Ctrl><R> to Run Configuration Utility. Жмём.
  2. Открывается синий интерфейс. Сверху — список контроллеров (обычно один). Снизу — диски и существующие виртуальные диски (VD).
  3. Если в системе уже была конфигурация (например, поставили б/у диски от другого сервера) — увидите Foreign Configuration. Идём в Foreign View, либо импортируем (если данные нужны), либо очищаем через Clear Foreign Config.
  4. F2 на строке контроллера — выбираем Create New VD.
  5. Выбираем уровень RAID (Tab переключает поля).
  6. Пробелом отмечаем диски, которые войдут в массив. У PERC есть приятная фича: по правой колонке видно, какие диски с какого бэкплейна — следите, чтобы для RAID 10 пары не были на одном бэкплейне.
  7. Stripe Element Size — оставляем 64 KB для общих задач, 256 KB для видеомонтажа и баз с большими блоками, 16 KB для OLTP с мелкими транзакциями.
  8. Read Policy — Adaptive Read Ahead (контроллер сам решает, когда читать упреждающе).
  9. Write Policy — Write Back при наличии исправной батареи. Если её нет — только Write Through, иначе при пропадании питания потеряете данные из кэша.
  10. Disk Cache Policy — Default. Включать Disk Cache можно только на дисках с защитой от потери питания (PLP) и при наличии BBU контроллера.
  11. Initialize — выбираем Fast Init, если массив новый и пустой. Full Init нужен только если перепроверяете б/у диски.

После Ctrl+R перезагружаемся и видим в установщике ОС готовый виртуальный диск нужного размера. На этом примитивная настройка закончена, дальше всё через OMSA или racadm.

Управление RAID через Dell OpenManage Server Administrator

OMSA — это веб-интерфейс для управления железом сервера из ОС. Я ставлю его на каждый Dell-сервер, который беру в обслуживание, потому что без него каждое движение требует перезагрузки в Ctrl+R, а это десятки минут простоя 1С.

Установка OMSA на Windows Server 2019/2022:

# Скачиваем OM-SrvAdmin-Dell-Web-Windows-11.x.x.x.exe с support.dell.com
# Запускаем мастер, выбираем Typical Install
# По умолчанию веб-интерфейс на https://servername:1311

Установка OMSA на Linux (RHEL 8, Rocky 9, Ubuntu Server 22.04):

# Подключаем репозиторий Dell
curl -O https://linux.dell.com/repo/hardware/dsu/bootstrap.cgi
sudo bash bootstrap.cgi
sudo dnf install srvadmin-all
sudo systemctl enable --now dsm_om_connsvc
# Проверка
omreport storage controller

Что я регулярно делаю через OMSA:

Управление через racadm и iDRAC из командной строки

Для автоматизации и скриптов из мониторинга я использую racadm — утилиту командной строки от Dell. Она ставится одним пакетом и работает как удалённо к iDRAC по сети, так и локально через USB-канал к карте управления.

Установка racadm на администраторскую машину Linux:

sudo dnf install srvadmin-idracadm8
# Удалённый запрос статуса
racadm -r 10.0.0.50 -u root -p calvin storage get pdisks
racadm -r 10.0.0.50 -u root -p calvin storage get vdisks
racadm -r 10.0.0.50 -u root -p calvin getsel

Самые ценные команды, которые я держу в шпаргалке:

# Статус всех дисков
racadm storage get pdisks -o

# Создать виртуальный диск (RAID 6 из 6 дисков)
racadm storage createvd:RAID.Integrated.1-1 -rl r6 \
    -pdkey:Disk.Bay.0:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
    Disk.Bay.1:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
    Disk.Bay.2:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
    Disk.Bay.3:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
    Disk.Bay.4:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
    Disk.Bay.5:Enclosure.Internal.0-1:RAID.Integrated.1-1

# Назначить Hot Spare
racadm storage hotspare:Disk.Bay.6:Enclosure.Internal.0-1:RAID.Integrated.1-1 \
    -assign yes -type ghs

# Применить изменения сразу, без перезагрузки
racadm jobqueue create RAID.Integrated.1-1 --realtime

# Очистить System Event Log
racadm clrsel

Hot Spare: правильное использование

Hot Spare — это диск, который физически стоит в шасси и не используется, но автоматически подхватывается контроллером в случае отказа любого диска в массиве. Бывает двух типов:

Моё правило: на каждом сервере с RAID 5/6 минимум 1 Hot Spare. На критичных боевых серверах — 2 Hot Spare. Стоимость одного диска SAS 10K 1.2 TB сейчас 24–28 тыс. руб., и это смешно дёшево по сравнению с простоем 1С на полдня. На серверах в логистической компании из кейса я поставил по 1 GHS на каждый — и именно он спас данные при двойном отказе.

Важный нюанс: у Hot Spare должен быть размер не меньше, чем у самого большого диска в массиве, и желательно того же типа интерфейса (SAS к SAS, SATA к SATA, SSD к SSD). Если поставите SATA-диск как Hot Spare к SAS-массиву, контроллер не возьмёт его в случае отказа.

Rebuild: как контроллер восстанавливает массив

Когда диск выходит из строя, контроллер автоматически начинает rebuild на Hot Spare (или на новый диск, который вы воткнули в освободившуюся ячейку). Процесс полностью прозрачен для ОС, но производительность массива на время rebuild падает на 30–50 %.

Параметр Rebuild Rate в OMSA или racadm регулирует баланс между скоростью восстановления и нагрузкой на работающий массив:

# Текущий Rebuild Rate
racadm get storage.controller.RAID.Integrated.1-1.RebuildRate

# Поднять до 50 % (по умолчанию 30 %)
racadm set storage.controller.RAID.Integrated.1-1.RebuildRate 50
racadm jobqueue create RAID.Integrated.1-1 --realtime

Поднимать выше 50 % имеет смысл только в нерабочее время или на серверах, где простой не критичен. На боевых серверах с 1С я держу 30 % — пользователи замечают тормоза, но работать можно.

Реальные времена rebuild, которые я фиксировал на наших серверах:

КонфигурацияRebuild RateВремя
RAID 5, 6 × SAS 1.2 TB 10K30 %11 ч 40 мин
RAID 6, 8 × NL-SAS 4 TB 7.2K30 %26 ч 50 мин
RAID 10, 4 × SAS SSD 1.92 TB30 %2 ч 20 мин
RAID 10, 4 × SAS SSD 1.92 TB70 %1 ч 10 мин
RAID 1, 2 × NVMe 1.92 TB на H740P30 %38 мин

Мониторинг RAID и проактивная замена дисков

Главное правило, которое я внушаю всем своим инженерам: не дожидайтесь, пока диск умрёт. Меняйте превентивно по SMART-показателям, по событиям Predictive Failure из iDRAC и по росту счётчиков ошибок в OMSA.

В нашем мониторинге Zabbix настроены три уровня алёртов на каждый сервер Dell:

Сборка SNMP-трапов идёт через стандартный template Dell-iDRAC9 в Zabbix, плюс мы парсим вывод omreport storage pdisk controller=0 раз в 6 часов и кидаем в Prometheus. Полная картина по парку из 87 серверов — на одном дашборде.

Типичные грабли, на которые наступают админы

За 15 лет насмотрелся на ошибки, которые потом стоят клиентам бессонных ночей. Топ-7:

  1. RAID 5 из 6+ дисков по 4 TB и больше. При rebuild почти гарантированный URE на одном из оставшихся дисков → массив насмерть. Только RAID 6 или RAID 60.
  2. Write Back без BBU. При пропадании электричества потеряете последние 1–8 GB записей. На 1С это значит порванную базу.
  3. Нет Hot Spare. «Куплю диск, когда что-то случится» — классика, заканчивающаяся выходными в офисе клиента.
  4. Игнор предупреждений Predictive Failure. Контроллер за неделю-две до отказа сообщает «диск умрёт». Если игнорить — получите Failed в самый неподходящий момент.
  5. Микс дисков разных серий. Контроллер примет диск, но скорость массива упадёт до самого медленного. Особенно болезненно с SSD разных моделей.
  6. Не обновляют firmware PERC. Dell регулярно правит баги, в том числе криптические зависания. Обновлять минимум раз в год через Lifecycle Controller.
  7. Считают RAID заменой бэкапа. Шифровальщик зашифрует все диски массива одновременно. RAID не спасёт.

Что мы делаем при приёмке нового Dell на обслуживание

Когда клиент передаёт нам сервер Dell в обслуживание, я проходжу по чек-листу из 18 пунктов. Вот первые 8, которые касаются именно RAID-подсистемы:

  1. Снимаю инвентарь дисков через omreport storage pdisk и сохраняю в документацию.
  2. Проверяю наличие и статус Battery Backup Unit.
  3. Проверяю Cache Policy на всех VD — должен быть WB при наличии BBU.
  4. Проверяю наличие Hot Spare — добавляю, если нет.
  5. Проверяю SMART всех дисков, ставлю в очередь на замену те, у которых Reallocated > 50.
  6. Обновляю firmware PERC, iDRAC, BIOS через Lifecycle Controller.
  7. Настраиваю отправку SNMP-трапов в наш Zabbix.
  8. Запускаю Consistency Check, чтобы убедиться, что массив консистентен.

Эти 8 шагов занимают 2–3 часа и стоят клиенту 0 рублей — это часть стандартной приёмки. Зато потом мы знаем парк наизусть и не получаем в 3 часа ночи звонок «у нас RAID развалился».

Нужна аудит и настройка RAID на ваших серверах Dell?

Я лично выезжаю на аудит к каждому новому клиенту в Москве и в радиусе 50 км от МКАД. Проверяю состояние всех контроллеров PERC, дисков, BBU, мониторинга. Письменный отчёт с рекомендациями за 2–3 рабочих дня. Без обязательств.

Телефон: +7 903 729-62-41
Telegram: @ITfresh_Boss
Семёнов Евгений Сергеевич, директор АйТи Фреш

FAQ — частые вопросы по PERC H730/H740

Какие уровни RAID поддерживают Dell PERC H730 и H740?
Оба контроллера поддерживают RAID 0, 1, 5, 6, 10, 50 и 60. На H740 быстрее работа с NVMe SSD за счёт более производительного процессора и 8 GB кэша против 1–2 GB у H730.
Можно ли настроить RAID без перезагрузки сервера?
Да, через OpenManage Server Administrator (OMSA) или racadm с iDRAC. Создание массива на горячую — стандартная функция начиная с PERC H700 и выше.
Что делать, если диск помечен как Foreign?
Это значит, что диск содержит конфигурацию RAID от другого контроллера. В Ctrl+R выберите Foreign View и либо импортируйте конфигурацию, либо очистите её через Clear Foreign Config.
Сколько времени занимает rebuild массива?
На SAS 10K 1.2 TB rebuild RAID 5 из 6 дисков занимает 8–14 часов. На SSD SAS 1.92 TB — 2–4 часа. На NVMe — 30–90 минут.
Нужно ли резервное копирование, если есть RAID 6?
Обязательно. RAID защищает только от отказа дисков, но не от удаления файлов, шифровальщиков, ошибок 1С и аппаратных сбоев материнской платы.

Подпишитесь на рассылку ITfresh

Раз в неделю — практические гайды для руководителя IT и сисадмина: безопасность, 1С, миграции, резервные копии, лайфхаки из реальных проектов.

Реквизиты оператора персональных данных

ООО «АЙТИ-ФРЕШ», ИНН 7719418495, КПП 771901001. Юридический адрес: 105523, г. Москва, Щёлковское шоссе, д. 92, корп. 7. Контакт: info@itfresh.ru, +7 903 729-62-41. Оператор обрабатывает e-mail подписчика в целях рассылки информационных и рекламных материалов до момента отзыва согласия.