Dell PERC H730/H740: настройка RAID, Hot Spare и rebuild на практике
Меня зовут Семёнов Евгений Сергеевич, я директор АйТи Фреш и за 15 лет обслуживания корпоративных инфраструктур я прошёл, наверное, через все поколения контроллеров Dell PERC — от H310 на R610 до H755N на R750. В этой статье собрал практические выкладки по самым массовым в нашем парке моделям H730 и H740: как настраивать массивы через BIOS и OMSA, как ловить сбои до того, как они станут аварией, и поделюсь кейсом одной логистической компании, где мы за месяц поменяли два диска и не потеряли ни одного байта данных.
Почему именно PERC H730 и H740: что у нас в парке
В сервисном парке АйТи Фреш сейчас 87 серверов Dell PowerEdge у клиентов, и из них 62 — это поколения 13G и 14G (R630, R730, R640, R740). На 13G по умолчанию ставится PERC H730 / H730P, на 14G — H740P. Остальные модели — H330 на бюджетных сборках, H840 на шасси с внешними полками MD1400/MD1420 и H750 на новых R650.
Принципиальная разница между H730 и H740, которую важно понимать инженеру:
- Кэш: H730 — 1 GB DDR3, H730P — 2 GB DDR3, H740P — 8 GB DDR4. На больших массивах разница в производительности случайной записи в 3–4 раза.
- Поддержка NVMe: H740P официально работает с NVMe SSD через PCIe Switch на бэкплейне, H730 — нет.
- Скорость интерфейса: H730 — SAS 12 Gbit, H740 — тоже SAS 12 Gbit, но с лучшей обработкой команд за счёт более мощного CPU LSI SAS3508 против SAS3108.
- Battery Backup Unit: на H730P и H740P батарея позволяет включить Write Back без риска потери данных при пропадании питания. На H730 базовом её часто не ставят, и приходится работать в Write Through, что роняет производительность 1С на 40–60 %.
Если у вас H730 без BBU и тормозит запись в базе 1С — первое, что я делаю на аудите, проверяю режим контроллера. В половине случаев оказывается, что батарея просто не активирована, либо она физически отсутствует, и админ годами работал в Write Through, не понимая причины тормозов.
Кейс: два отказа дисков за месяц на серверах логистической компании
В январе 2026 года к нам обратилась логистическая компания из Подольска. Клиент сам по себе классический: 38 рабочих мест, 1С УТ 11.5 на 14 пользователей одновременно, WMS-система собственной разработки, два сервера Dell R630 с PERC H730 и SAS 10K 1.2 TB по 6 дисков в каждом. За январь у них вылетело два диска подряд на одном из серверов — и второй вылетел ровно в момент, когда rebuild от первого был на 73 %. RAID 5, два отказа — арифметически массив должен был развалиться.
Не развалился. Спасло то, что предыдущий админ настроил Hot Spare, и второй вылетевший диск уже физически не участвовал в массиве, а ребилдился на горячий резерв. Когда меня позвали разобраться, я обнаружил классическую ситуацию: серверы 2017 года, диски наработали по 67–72 тысячи часов, SMART-показатели у трёх оставшихся дисков уже мигали жёлтым (Reallocated Sector Count > 50, Pending Sector Count > 5).
Что мы сделали за две недели:
- Заказали 12 новых SAS-дисков Toshiba 1.2 TB 10K с гарантией Dell (партнёрский канал, 12 дисков обошлись в 326 000 руб.).
- На обоих серверах поэтапно мигрировали с RAID 5 на RAID 6 + Hot Spare. RAID 5 на 6 дисках по 2026 году — это лотерея, ниже объясню почему.
- Развернули OMSA с веб-интерфейсом и настроили SNMP-трапы в Zabbix.
- Подключили почтовые алёрты на iDRAC9 и в Telegram через скрипт-прокладку.
- Прописали еженедельную проверку SMART через racadm в crontab нашего мониторинга.
С тех пор на этих серверах было ещё два отказа дисков — оба отработаны Hot Spare без участия инженера и без простоя 1С. Клиент платит абонентку, мы спим спокойно.
Какой уровень RAID выбирать в 2026 году
Когда я слышу «RAID 5 на шести SATA-дисках по 4 TB», у меня дёргается глаз. Объясняю математику простым языком: вероятность невосстановимой ошибки чтения (URE) у Enterprise SAS — 10^15, у SATA — 10^14. При rebuild массива контроллер читает все оставшиеся диски подряд. На массиве 6 × 4 TB SATA это 20 TB чтений, и вероятность поймать URE стремится к 80–90 %. То есть один диск отказал, начался rebuild, на чтении бэдблок — массив развалился.
Моя текущая шпаргалка по выбору RAID для PERC H730/H740:
| Сценарий | Тип дисков | Рекомендую | Почему |
|---|---|---|---|
| Сервер 1С 10–30 пользователей | SAS SSD 800 GB–1.92 TB | RAID 10 из 4–6 дисков | Случайная запись в 3 раза быстрее RAID 5/6 |
| Файловый сервер до 5 TB полезного | SAS 10K 1.2–2.4 TB | RAID 6 + Hot Spare | Защита от двух отказов, разумная плотность |
| Бэкапы, архивы, NAS | NL-SAS 7.2K 4–18 TB | RAID 6 или RAID 60 | RAID 5 на больших дисках — лотерея |
| Гипервизор Proxmox/ESXi | NVMe 1.92–3.84 TB | RAID 1 + ZFS на VM | NVMe умеет 100k+ IOPS, не трогаем |
| База Postgres высоконагруженная | NVMe 1.92 TB+ | RAID 10 на H740P | Запись WAL требует низкой латентности |
RAID 5 в 2026 году я ставлю только на маленьких массивах из быстрых SAS SSD (3–4 диска по 800 GB) либо на тестовых стендах. На production с дисками больше 1 TB — только RAID 6, и обязательно с Hot Spare.
Настройка RAID через BIOS контроллера (Ctrl+R)
Самый базовый способ — через утилиту PERC BIOS Configuration. Она работает без операционной системы, нужна для первичной разметки нового сервера. Последовательность действий, которую я отрабатываю на каждом новом сервере:
- При загрузке сервера в момент инициализации PERC появляется приглашение
Press <Ctrl><R> to Run Configuration Utility. Жмём. - Открывается синий интерфейс. Сверху — список контроллеров (обычно один). Снизу — диски и существующие виртуальные диски (VD).
- Если в системе уже была конфигурация (например, поставили б/у диски от другого сервера) — увидите Foreign Configuration. Идём в Foreign View, либо импортируем (если данные нужны), либо очищаем через Clear Foreign Config.
- F2 на строке контроллера — выбираем Create New VD.
- Выбираем уровень RAID (Tab переключает поля).
- Пробелом отмечаем диски, которые войдут в массив. У PERC есть приятная фича: по правой колонке видно, какие диски с какого бэкплейна — следите, чтобы для RAID 10 пары не были на одном бэкплейне.
- Stripe Element Size — оставляем 64 KB для общих задач, 256 KB для видеомонтажа и баз с большими блоками, 16 KB для OLTP с мелкими транзакциями.
- Read Policy — Adaptive Read Ahead (контроллер сам решает, когда читать упреждающе).
- Write Policy — Write Back при наличии исправной батареи. Если её нет — только Write Through, иначе при пропадании питания потеряете данные из кэша.
- Disk Cache Policy — Default. Включать Disk Cache можно только на дисках с защитой от потери питания (PLP) и при наличии BBU контроллера.
- Initialize — выбираем Fast Init, если массив новый и пустой. Full Init нужен только если перепроверяете б/у диски.
После Ctrl+R перезагружаемся и видим в установщике ОС готовый виртуальный диск нужного размера. На этом примитивная настройка закончена, дальше всё через OMSA или racadm.
Управление RAID через Dell OpenManage Server Administrator
OMSA — это веб-интерфейс для управления железом сервера из ОС. Я ставлю его на каждый Dell-сервер, который беру в обслуживание, потому что без него каждое движение требует перезагрузки в Ctrl+R, а это десятки минут простоя 1С.
Установка OMSA на Windows Server 2019/2022:
# Скачиваем OM-SrvAdmin-Dell-Web-Windows-11.x.x.x.exe с support.dell.com
# Запускаем мастер, выбираем Typical Install
# По умолчанию веб-интерфейс на https://servername:1311
Установка OMSA на Linux (RHEL 8, Rocky 9, Ubuntu Server 22.04):
# Подключаем репозиторий Dell
curl -O https://linux.dell.com/repo/hardware/dsu/bootstrap.cgi
sudo bash bootstrap.cgi
sudo dnf install srvadmin-all
sudo systemctl enable --now dsm_om_connsvc
# Проверка
omreport storage controller
Что я регулярно делаю через OMSA:
- Создаю и удаляю виртуальные диски без перезагрузки сервера (Storage → PERC → Create Virtual Disk).
- Меняю Cache Policy при тонкой настройке производительности 1С.
- Назначаю Hot Spare (Dedicated или Global) — делается двумя кликами.
- Запускаю Patrol Read и Consistency Check по расписанию.
- Смотрю SMART каждого диска — Predictive Failure Count, Media Errors, Other Errors.
- Настраиваю SNMP-трапы для отправки в Zabbix, если что-то загорелось красным.
Управление через racadm и iDRAC из командной строки
Для автоматизации и скриптов из мониторинга я использую racadm — утилиту командной строки от Dell. Она ставится одним пакетом и работает как удалённо к iDRAC по сети, так и локально через USB-канал к карте управления.
Установка racadm на администраторскую машину Linux:
sudo dnf install srvadmin-idracadm8
# Удалённый запрос статуса
racadm -r 10.0.0.50 -u root -p calvin storage get pdisks
racadm -r 10.0.0.50 -u root -p calvin storage get vdisks
racadm -r 10.0.0.50 -u root -p calvin getsel
Самые ценные команды, которые я держу в шпаргалке:
# Статус всех дисков
racadm storage get pdisks -o
# Создать виртуальный диск (RAID 6 из 6 дисков)
racadm storage createvd:RAID.Integrated.1-1 -rl r6 \
-pdkey:Disk.Bay.0:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
Disk.Bay.1:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
Disk.Bay.2:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
Disk.Bay.3:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
Disk.Bay.4:Enclosure.Internal.0-1:RAID.Integrated.1-1,\
Disk.Bay.5:Enclosure.Internal.0-1:RAID.Integrated.1-1
# Назначить Hot Spare
racadm storage hotspare:Disk.Bay.6:Enclosure.Internal.0-1:RAID.Integrated.1-1 \
-assign yes -type ghs
# Применить изменения сразу, без перезагрузки
racadm jobqueue create RAID.Integrated.1-1 --realtime
# Очистить System Event Log
racadm clrsel
Hot Spare: правильное использование
Hot Spare — это диск, который физически стоит в шасси и не используется, но автоматически подхватывается контроллером в случае отказа любого диска в массиве. Бывает двух типов:
- Dedicated Hot Spare (DHS) — резервный диск привязан к конкретному виртуальному диску. Если на сервере несколько массивов, DHS подхватит только в свой.
- Global Hot Spare (GHS) — резервный диск доступен для всех массивов на этом контроллере. На малых серверах с одним массивом — практически то же, что и Dedicated.
Моё правило: на каждом сервере с RAID 5/6 минимум 1 Hot Spare. На критичных боевых серверах — 2 Hot Spare. Стоимость одного диска SAS 10K 1.2 TB сейчас 24–28 тыс. руб., и это смешно дёшево по сравнению с простоем 1С на полдня. На серверах в логистической компании из кейса я поставил по 1 GHS на каждый — и именно он спас данные при двойном отказе.
Важный нюанс: у Hot Spare должен быть размер не меньше, чем у самого большого диска в массиве, и желательно того же типа интерфейса (SAS к SAS, SATA к SATA, SSD к SSD). Если поставите SATA-диск как Hot Spare к SAS-массиву, контроллер не возьмёт его в случае отказа.
Rebuild: как контроллер восстанавливает массив
Когда диск выходит из строя, контроллер автоматически начинает rebuild на Hot Spare (или на новый диск, который вы воткнули в освободившуюся ячейку). Процесс полностью прозрачен для ОС, но производительность массива на время rebuild падает на 30–50 %.
Параметр Rebuild Rate в OMSA или racadm регулирует баланс между скоростью восстановления и нагрузкой на работающий массив:
# Текущий Rebuild Rate
racadm get storage.controller.RAID.Integrated.1-1.RebuildRate
# Поднять до 50 % (по умолчанию 30 %)
racadm set storage.controller.RAID.Integrated.1-1.RebuildRate 50
racadm jobqueue create RAID.Integrated.1-1 --realtime
Поднимать выше 50 % имеет смысл только в нерабочее время или на серверах, где простой не критичен. На боевых серверах с 1С я держу 30 % — пользователи замечают тормоза, но работать можно.
Реальные времена rebuild, которые я фиксировал на наших серверах:
| Конфигурация | Rebuild Rate | Время |
|---|---|---|
| RAID 5, 6 × SAS 1.2 TB 10K | 30 % | 11 ч 40 мин |
| RAID 6, 8 × NL-SAS 4 TB 7.2K | 30 % | 26 ч 50 мин |
| RAID 10, 4 × SAS SSD 1.92 TB | 30 % | 2 ч 20 мин |
| RAID 10, 4 × SAS SSD 1.92 TB | 70 % | 1 ч 10 мин |
| RAID 1, 2 × NVMe 1.92 TB на H740P | 30 % | 38 мин |
Мониторинг RAID и проактивная замена дисков
Главное правило, которое я внушаю всем своим инженерам: не дожидайтесь, пока диск умрёт. Меняйте превентивно по SMART-показателям, по событиям Predictive Failure из iDRAC и по росту счётчиков ошибок в OMSA.
В нашем мониторинге Zabbix настроены три уровня алёртов на каждый сервер Dell:
- Warning — Predictive Failure на любом диске, любая запись в System Event Log с уровнем выше Info, температура CPU или дисков выше нормы.
- High — диск перешёл в статус Failed, виртуальный диск в Degraded, BBU начал процесс Learn (ёмкость батареи временно недоступна).
- Disaster — два или более Failed дисков, виртуальный диск Offline, контроллер потерял соединение.
Сборка SNMP-трапов идёт через стандартный template Dell-iDRAC9 в Zabbix, плюс мы парсим вывод omreport storage pdisk controller=0 раз в 6 часов и кидаем в Prometheus. Полная картина по парку из 87 серверов — на одном дашборде.
Типичные грабли, на которые наступают админы
За 15 лет насмотрелся на ошибки, которые потом стоят клиентам бессонных ночей. Топ-7:
- RAID 5 из 6+ дисков по 4 TB и больше. При rebuild почти гарантированный URE на одном из оставшихся дисков → массив насмерть. Только RAID 6 или RAID 60.
- Write Back без BBU. При пропадании электричества потеряете последние 1–8 GB записей. На 1С это значит порванную базу.
- Нет Hot Spare. «Куплю диск, когда что-то случится» — классика, заканчивающаяся выходными в офисе клиента.
- Игнор предупреждений Predictive Failure. Контроллер за неделю-две до отказа сообщает «диск умрёт». Если игнорить — получите Failed в самый неподходящий момент.
- Микс дисков разных серий. Контроллер примет диск, но скорость массива упадёт до самого медленного. Особенно болезненно с SSD разных моделей.
- Не обновляют firmware PERC. Dell регулярно правит баги, в том числе криптические зависания. Обновлять минимум раз в год через Lifecycle Controller.
- Считают RAID заменой бэкапа. Шифровальщик зашифрует все диски массива одновременно. RAID не спасёт.
Что мы делаем при приёмке нового Dell на обслуживание
Когда клиент передаёт нам сервер Dell в обслуживание, я проходжу по чек-листу из 18 пунктов. Вот первые 8, которые касаются именно RAID-подсистемы:
- Снимаю инвентарь дисков через
omreport storage pdiskи сохраняю в документацию. - Проверяю наличие и статус Battery Backup Unit.
- Проверяю Cache Policy на всех VD — должен быть WB при наличии BBU.
- Проверяю наличие Hot Spare — добавляю, если нет.
- Проверяю SMART всех дисков, ставлю в очередь на замену те, у которых Reallocated > 50.
- Обновляю firmware PERC, iDRAC, BIOS через Lifecycle Controller.
- Настраиваю отправку SNMP-трапов в наш Zabbix.
- Запускаю Consistency Check, чтобы убедиться, что массив консистентен.
Эти 8 шагов занимают 2–3 часа и стоят клиенту 0 рублей — это часть стандартной приёмки. Зато потом мы знаем парк наизусть и не получаем в 3 часа ночи звонок «у нас RAID развалился».
Нужна аудит и настройка RAID на ваших серверах Dell?
Я лично выезжаю на аудит к каждому новому клиенту в Москве и в радиусе 50 км от МКАД. Проверяю состояние всех контроллеров PERC, дисков, BBU, мониторинга. Письменный отчёт с рекомендациями за 2–3 рабочих дня. Без обязательств.
Телефон: +7 903 729-62-41
Telegram: @ITfresh_Boss
Семёнов Евгений Сергеевич, директор АйТи Фреш
FAQ — частые вопросы по PERC H730/H740
- Какие уровни RAID поддерживают Dell PERC H730 и H740?
- Оба контроллера поддерживают RAID 0, 1, 5, 6, 10, 50 и 60. На H740 быстрее работа с NVMe SSD за счёт более производительного процессора и 8 GB кэша против 1–2 GB у H730.
- Можно ли настроить RAID без перезагрузки сервера?
- Да, через OpenManage Server Administrator (OMSA) или racadm с iDRAC. Создание массива на горячую — стандартная функция начиная с PERC H700 и выше.
- Что делать, если диск помечен как Foreign?
- Это значит, что диск содержит конфигурацию RAID от другого контроллера. В Ctrl+R выберите Foreign View и либо импортируйте конфигурацию, либо очистите её через Clear Foreign Config.
- Сколько времени занимает rebuild массива?
- На SAS 10K 1.2 TB rebuild RAID 5 из 6 дисков занимает 8–14 часов. На SSD SAS 1.92 TB — 2–4 часа. На NVMe — 30–90 минут.
- Нужно ли резервное копирование, если есть RAID 6?
- Обязательно. RAID защищает только от отказа дисков, но не от удаления файлов, шифровальщиков, ошибок 1С и аппаратных сбоев материнской платы.