SLA 99,98% для офиса 50 РМ: наша 6-уровневая схема мониторинга
К нам в ITfresh обратилась производственная компания на 47 рабочих мест с офисом и небольшим цехом на МКАД: за прошлый год у них было пять незапланированных простоев общей длительностью 14 часов, потери на одном из них — 380 000 рублей упущенного производства. Цель — выйти на честный SLA 99,98% и держать его. Ниже — наша рабочая 6-уровневая схема мониторинга, по которой мы прожили с этим клиентом весь 2025 год: 1 час 21 минута общего простоя, что соответствует 99,985% доступности. Без воды, со всеми конфигами Zabbix, Prometheus, blackbox-exporter и реальными метриками по 1С.
Что значит SLA 99,98% — давайте посчитаем честно
Сначала про арифметику. Когда подрядчик пишет в коммерческом предложении «гарантируем SLA 99,9%», звучит красиво. Переводим в часы:
- SLA 99,0% — 87 часов 36 минут простоя в год;
- SLA 99,5% — 43 часа 48 минут;
- SLA 99,9% — 8 часов 46 минут;
- SLA 99,95% — 4 часа 23 минуты;
- SLA 99,98% — 1 час 45 минут;
- SLA 99,99% — 52 минуты 33 секунды;
- SLA 99,999% («пять девяток») — 5 минут 15 секунд.
Для МСБ на 30-50 РМ оптимальный диапазон — 99,9-99,98%. «Три девятки» (99,9%) — базовая планка, которую держит любой нормальный подрядчик за счёт грамотной серверной части. «Четыре девятки» (99,98%) требуют уже системного мониторинга и продуманной отказоустойчивости — и это наш стандарт. «Пять девяток» — это когда у вас есть штатный SRE, второй ЦОД, BGP с двумя upstream-провайдерами и зарплатный фонд на это всё. Для компании в 50 РМ такая планка экономически бессмысленна.
Что входит в SLA, а что нет
В договоре с клиентом я всегда явно прописываю периметр SLA. Иначе получается, что заказчик спрашивает про «100% доступность интернета», а ему нечего возразить, когда обрыв происходит у Ростелекома и не зависит ни от подрядчика, ни от резервирования. Наш стандарт периметра:
- Включено: доступность сервера 1С, файлового сервера, контроллера домена, AD-аутентификации, печати на сетевые принтеры, исходящего интернета через любого из двух провайдеров;
- Включено: работа сетевой телефонии (Asterisk/MikroTik), VPN для удалёнки;
- Не включено: работа конкретных сайтов в интернете (это к провайдеру и сайту), скорость работы 1С при кривых отчётах разработчика-фрилансера, вирусы которые принёс пользователь с флешки;
- Не включено: плановые работы по согласованному окну, форс-мажор (отключение электроэнергии в районе, авария у магистрального провайдера, землетрясение).
Уровень 1. Сеть и питание (ICMP, SNMP, UPS)
Самый низкий, базовый уровень. На нём живёт классический Zabbix. Сервер мониторинга — отдельная VM 4 vCPU, 8 GB RAM, 200 GB SSD на гипервизоре, в отдельном VLAN от продакшена. Если упадёт основная сеть — Zabbix всё равно увидит и пришлёт алерт.
Что мы пингуем
- Шлюз провайдера 1 (Ростелеком, IP 10.0.0.1) и провайдера 2 (МТС, IP 10.0.1.1);
- Внешние «канарейки» — 8.8.8.8, 1.1.1.1, 77.88.8.8 — для проверки реального интернета, а не только локалки;
- Все управляемые коммутаторы по SNMP v3 — 4 шт. HPE Aruba 2530;
- Точки Wi-Fi UniFi U6-Enterprise — 7 шт., через ICMP и UniFi Controller API;
- ИБП APC SmartUPS 3000 RM — через сетевую карту NMC, мониторим заряд батареи, входное напряжение, оставшееся время автономки.
Конфиг Zabbix-агента и SNMP-шаблонов
# /etc/zabbix/zabbix_server.conf — ключевые параметры
StartPollers=20
StartPollersUnreachable=10
StartTrappers=10
StartPingers=4
HousekeepingFrequency=1
MaxHousekeeperDelete=5000
CacheSize=512M
HistoryCacheSize=128M
ValueCacheSize=256M
TrendCacheSize=64M
# /etc/snmp/snmpd.conf на коммутаторах HPE Aruba — v3
createUser monitor SHA "ОченьДлинныйАутхПароль" AES "ОченьДлинныйПривПароль"
rouser monitor priv
Для ИБП APC я завёл отдельный Template APC NMC — он отслеживает 12 метрик и шлёт алерт при переходе на батарею (input voltage = 0). За 2025 год это сработало 4 раза — два раза реальное отключение, два раза скачок в подъезде.
Уровень 2. Операционные системы (CPU, RAM, диск, eventlog)
Здесь живёт классическая поагентная система. На каждом сервере и каждом значимом ПК (компьютер директора, секретаря, главного бухгалтера) стоит Zabbix-agent2. Параллельно — node_exporter для тех серверов, по которым нам важна метрика с гранулярностью 15 секунд.
Что собирается
UserParameter=ad.dfsr.queue,powershell -Command "Get-DfsrBacklog -GroupName 'Domain System Volume' -FolderName SYSVOL -SourceComputerName DC01 -DestinationComputerName DC02 | Measure-Object | Select-Object -ExpandProperty Count"
UserParameter=ad.replication.delay,powershell -Command "(Get-ADReplicationPartnerMetadata -Target DC01,DC02 -Scope Domain).LastReplicationSuccess.AddMinutes(15) -lt (Get-Date)"
UserParameter=onec.session.count,powershell -Command "(Get-CimInstance -ClassName Win32_Process -Filter \"Name='rphost.exe'\").Count"
UserParameter=hyperv.vm.cpuready,powershell -Command "(Get-Counter -Counter '\Hyper-V Hypervisor Virtual Processor(*)\\% Hypervisor Run Time' -SampleInterval 1 -MaxSamples 1).CounterSamples | Measure-Object -Property CookedValue -Average | Select-Object -ExpandProperty Average"
Эти кастомные метрики собираются с Windows-серверов раз в минуту. По истории строим тренды через Zabbix Trend и держим за 6 месяцев.
EventLog-фильтры
Я не собираю «всё подряд» из Windows EventLog — это бесполезный шум. Собираю конкретные критические события:
# Active Directory Domain Services (DC)
EventLog: Directory Service, ID 1311 (KCC ошибка), 2087 (DNS sync), 2089 (replication backlog)
# Hyper-V hosts
EventLog: Microsoft-Windows-Hyper-V-VMMS-Admin, ID 12030 (heartbeat lost), 12130 (live migration failed)
# Файловый сервер
EventLog: Application, source MSExchangeIS — пропускаем, не Exchange
EventLog: System, ID 7000-7034 (service start/stop) — только для критических служб
# 1C Сервер
EventLog: Application, source 1C:Enterprise 8.3 — все Error и Critical
Каждый из этих фильтров — отдельный item в Zabbix с триггером. Когда на DC02 за 5 минут больше двух событий 2087 — это начинающаяся проблема с DNS-репликацией, и я получаю уведомление до того, как пользователи начнут жаловаться.
Уровень 3. Сервисы приложений (1С, AD, SQL, SMB, Exchange)
Уровень про сами приложения, а не про машины, на которых они крутятся. Здесь у нас Prometheus + Grafana параллельно с Zabbix. Zabbix хорош в дискретных алертах, Prometheus — в дашбордах и сложных метриках.
Что мониторим
- 1C:Enterprise. Через rphost-counter — количество активных сессий, время ответа на тестовый запрос, размер очереди фоновых заданий;
- MS SQL Server 2022. SQL Server Agent jobs (последний успешный run), latency на конкретный запрос, размер tempdb, количество блокировок в pg_stat_activity-стиле, batch requests/sec;
- Active Directory. SYSVOL backlog, DFSR conflicts, KDC requests, время ответа LDAP на простой запрос (Get-ADUser administrator);
- SMB-шара файлового сервера. Время ответа на test.txt чтение/запись с пользовательского ПК-канарейки;
- Принтеры. Размер очереди, наличие тонера, статус «out of paper» по SNMP.
Prometheus + windows_exporter
На каждом Windows-сервере живёт windows_exporter от Prometheus с включёнными модулями: cs, cpu, memory, logical_disk, net, service, process, mssql, ad. Конфиг скрейпа на Prometheus-сервере:
scrape_configs:
- job_name: 'windows-servers'
scrape_interval: 15s
scrape_timeout: 10s
static_configs:
- targets:
- 'dc01.corp.company.ru:9182'
- 'dc02.corp.company.ru:9182'
- 'fs01.corp.company.ru:9182'
- 'sql01.corp.company.ru:9182'
- '1c-app01.corp.company.ru:9182'
labels:
env: 'prod'
tier: 'core'
- job_name: 'sql-database'
scrape_interval: 30s
static_configs:
- targets: ['sql01.corp.company.ru:9182']
metrics_path: /probe
params:
module: [mssql]
Дашборды Grafana — стандартные (id 14694 для windows_exporter, id 13000 для node_exporter), но я допиливаю под клиента: добавляю панель с количеством сессий 1С, графики latency на типовые проводки.
Уровень 4. Blackbox-проверки (HTTP, TCP, сертификаты)
Это «взгляд снаружи». blackbox-exporter от Prometheus стоит у нас на двух точках: один — на нашем сервере мониторинга в дата-центре МТС, второй — на VPS у Selectel в Питере. Они независимо проверяют публичные сервисы клиента и сравнивают результаты. Если из одной точки доступно, а из другой — нет, это локальная проблема (например провайдер). Если из обеих недоступно — авария на стороне клиента.
# /etc/blackbox_exporter/blackbox.yml
modules:
http_2xx:
prober: http
timeout: 10s
http:
method: GET
valid_http_versions: ["HTTP/1.1", "HTTP/2.0"]
valid_status_codes: [200, 301, 302]
follow_redirects: true
preferred_ip_protocol: "ip4"
http_post_login:
prober: http
http:
method: POST
headers:
Content-Type: application/x-www-form-urlencoded
body: "username=monitor&password=...&submit=login"
fail_if_not_matches_regexp:
- "Welcome,"
tcp_connect:
prober: tcp
timeout: 5s
ssl_expiry:
prober: http
timeout: 5s
http:
method: GET
tls_config:
insecure_skip_verify: false
Что мониторим из blackbox:
- Главную страницу корпоративного сайта (HTTP 200, latency, корректность SSL);
- Веб-почту OWA (HTTP 401 ожидаемый);
- RDP Gateway на 443 порту (TCP-ответ);
- SIP-trunk провайдера телефонии (UDP, латентность, потери);
- Срок действия SSL-сертификатов — алерт за 14 дней до истечения и за 7 дней;
- API облачной 1С (если используется), включая авторизованный POST-запрос «вход в систему».
Уровень 5. Синтетический мониторинг (Selenium / Playwright)
Один из самых нелюбимых уровней у других подрядчиков и один из самых полезных у нас. Раз в 5 минут специальный бот заходит на критичные веб-сервисы и проходит типовой пользовательский сценарий. Если сценарий упал — алерт. У клиента из кейса мы держим три синтетических сценария:
Сценарий 1. «Бухгалтер логинится в 1С через RDP-Web»
// Playwright-сценарий /opt/synthetic/onec_login.spec.js
import { test, expect } from '@playwright/test';
test('1C login via RDP-Web', async ({ page }) => {
await page.goto('https://1c-web.company.ru');
await page.fill('#login', 'monitor.1c');
await page.fill('#password', process.env.MON_PASSWORD);
await page.click('button[type="submit"]');
await expect(page.locator('text=Главное меню')).toBeVisible({ timeout: 30000 });
// Проверяем, что справочник Контрагенты открывается
await page.click('text=Справочники');
await page.click('text=Контрагенты');
await expect(page.locator('table.list')).toBeVisible({ timeout: 15000 });
});
Этот сценарий выполняется раз в 5 минут на отдельной VM с GUI и chromium-headed. Время выполнения, успех/неуспех и скриншот при ошибке шлются в Prometheus через pushgateway. На этом сценарии мы за 2025 год трижды поймали проблему «1С работает, но бухгалтерская версия конфы не отвечает на справочник Контрагенты» — это типичная ошибка после неудачного обновления конфы.
Сценарий 2. «Менеджер открывает заявку в Битрикс24»
Аналогичный, но для Битрикс24-on-premise. Логин, открытие сделки, проверка, что фид «Живая лента» отрисовался.
Сценарий 3. «Пробитие тестового чека на тестовой кассе»
Самое сложное. Раз в час система делает запрос к 1С API на пробитие тестового чека на 1 копейку. Чек пробивается на тестовой кассе, отправляется в ОФД, ждём подтверждение. Если ОФД ответил подтверждением — всё работает. Если нет — алерт.
Уровень 6. Бизнес-метрики (закрытие смены, статус ОФД, эквайринг)
Самый верхний уровень — это не «как работает инфраструктура», а «работает ли бизнес». Метрики здесь не технические, а бизнесовые:
- Закрытие смены 1С Розница в 21:00. Если не пришла отметка «смена закрыта» в логе сервера — алерт мне в Telegram и ответственному менеджеру магазина;
- Количество необработанных заявок в Битрикс24. Если набралось больше 30 за час — что-то с менеджерами или сайтом;
- Объём отправленных в ОФД чеков за час. Если за рабочий час ноль чеков — точно проблема с кассой или эквайрингом;
- Время бэкапа в Veeam-стиль на нашем ITfresh_FTP. Если последний успешный бэкап старше 26 часов — алерт;
- Количество ошибок «нет связи с банком» в эквайринге. Если больше 5 за час — что-то с интернетом или провайдером эквайринга;
- Чек-лист утренней проверки ИТ. Дежурный инженер каждое утро в 8:00 проходит 12 контрольных пунктов и отмечает в системе. Если в 9:00 чек-лист не закрыт — алерт руководителю.
Эти метрики я собираю двумя способами: либо через прямой SQL-запрос к БД 1С (Prometheus exporter с кастомными запросами), либо через webhook'и от самих систем. Для ОФД — отдельный скрипт, который раз в 5 минут дёргает API ОФД с авторизацией заказчика.
Алертинг: куда и кому
Хороший мониторинг без хорошего алертинга — это просто красивые графики. Мы используем строгую матрицу маршрутизации:
# Alertmanager route config
route:
receiver: 'default'
group_by: ['alertname', 'cluster', 'service']
group_wait: 30s
group_interval: 5m
repeat_interval: 4h
routes:
# P1 — критичные, ночь и день
- match:
severity: critical
receiver: 'tg-duty-and-boss'
group_wait: 0s
repeat_interval: 30m
# P2 — важные, 9:00-22:00
- match:
severity: high
receiver: 'tg-duty'
active_time_intervals:
- working-hours
# P3 — некритичные, только на почту
- match:
severity: warning
receiver: 'email-team'
repeat_interval: 12h
receivers:
- name: 'tg-duty-and-boss'
telegram_configs:
- bot_token: 'XXXXXXXX'
chat_id: -1001234567890
- bot_token: 'XXXXXXXX'
chat_id: 7296241 # Семёнов
- name: 'tg-duty'
telegram_configs:
- bot_token: 'XXXXXXXX'
chat_id: -1001234567890
Severity я выставляю руками для каждого триггера. P1 — это «бизнес стоит» (упал 1С, нет интернета, упал DC). P2 — «компонент деградирован, но работает» (один провайдер из двух, диск заполнен на 80%). P3 — «нужно посмотреть когда будет минутка».
Дежурство и эскалация
Команда ITfresh — 7 инженеров. Дежурный по неделе принимает все P1/P2 алерты на круглосуточной линии. Если инженер не реагирует в течение 5 минут на P1 — автоматический эскалейт мне в Telegram. Если я не реагирую 10 минут — эскалейт на резервного руководителя смены.
Что оказалось важнее всего за 2025 год
За год эксплуатации этой схемы у клиента из Москвы я могу честно сказать, какие уровни мониторинга реально окупились, а какие — нет:
- Уровень 1. Поймал 27 сетевых инцидентов. Из них 18 — кратковременные сбои у провайдера, не дошедшие до пользователей благодаря двойному каналу. 4 — реально критичные, потребовавшие переключения;
- Уровень 2. Самый «нудный» уровень — поймал 6 случаев заполнения диска до 90% (предвестник аварии), 2 случая утечки памяти на rphost, 1 случай выхода из строя SSD на DC02;
- Уровень 3. Поймал 3 случая зависания SQL-агента и 1 случай падения сервиса 1С — всё до того, как пользователи позвонили;
- Уровень 4. Поймал 12 случаев истечения сертификатов (заранее) и 2 случая, когда сайт вёл себя «странно» при работающем сервере;
- Уровень 5. Поймал 3 случая, когда «всё мониторилось зелёным», а реальный сценарий бухгалтера ломался;
- Уровень 6. Поймал 1 случай — ОФД 4 часа не принимал чеки из-за обновления у их провайдера, мы быстро переключились на резервного оператора и сэкономили клиенту штраф 60 000 ₽.
Контр-нарратив: где SLA 99,98% — неправильная цель
Скажу непопулярное. Я считаю, что для большинства мелких офисов на 10-20 РМ гнаться за SLA 99,98% не нужно. Достаточно 99,5-99,9%. Простой математики: если месячный простой ИТ для маленькой компании стоит 50 000 ₽, а разница между 99,9% и 99,98% за год — это 7 часов в районе 14 000 ₽ потерь — стоит ли тратить лишние 100 тысяч на мониторинг и резервы? Часто нет.
SLA 99,98% оправдан там, где простой реально дорогой: производство с непрерывным циклом, торговля с большим оборотом онлайн-касс, медцентр с записью и ОМС-обменом. Если у вас бухгалтерская фирма и менеджеры вполне живут полчаса без 1С — не плати за «четыре девятки», возьми «три», и сэкономь.
FAQ: что чаще всего спрашивают клиенты
Что такое SLA 99,98% в реальных цифрах?
99,98% — это не более 1 часа 45 минут плановых и аварийных простоев в год. Для офиса 50 РМ это значит, что любая авария — упал 1С, отвалился интернет, отказал коммутатор — должна устраняться меньше чем за час. Дороже SLA — например 99,99% (52 минуты в год) — мы не предлагаем, потому что для МСБ это уже не оправдано экономически.
Зачем 6 уровней мониторинга, не достаточно одного Zabbix?
Один Zabbix покажет, что сервер 1С отвечает на ICMP, а сервис апп-сервера запущен. Но Zabbix не увидит, что 1С возвращает ошибку 500 на типовой проводке, что бухгалтер не может закрыть месяц, что чек-лист утренней проверки не пройден. Шесть уровней — это шесть точек зрения на инфраструктуру: от пинга до бизнес-метрики. Любой из них может первым поймать сбой, который не виден остальным.
Сколько стоит развернуть такую систему мониторинга?
Стартовый вариант на одном сервере с Zabbix + Prometheus + Grafana — около 80-120 тысяч рублей разовая работа за 5-7 рабочих дней инженера. Плюс мы сразу пишем пять-десять кастомных проверок под бизнес клиента — это ещё 30-50 тысяч. В абонплате после внедрения мониторинг входит в стандартный тариф ITfresh без доплаты.
Откуда мы знаем, что SLA реально 99,98% — не на бумаге?
Из самого мониторинга. Zabbix в режиме SLA-сервиса считает суммарную доступность по группе ключевых сервисов: интернет, 1С, файловый сервер, телефония. Раз в месяц мы выгружаем отчёт и шлём заказчику. За 2025 год по производственной компании из кейса было два инцидента общей длительностью 1 час 21 минуту — это 99,985%.
Какой сервис обязательно мониторить, если у нас бюджет на минимум?
Бизнес-метрику самого критичного для компании процесса. Для торговой компании — это онлайн-касса и обмен с эквайрингом. Для бухгалтерии — это закрытие смены 1С. Для производства — это ERP и MES. Если эта одна метрика зелёная — компания работает. Всё остальное — вспомогательно. Мы строим именно от бизнес-метрики и обвязываем её более низкими уровнями.
Итог
SLA 99,98% — не маркетинг, а методика. Шесть уровней мониторинга, грамотная матрица алертов, дежурная команда из 7 инженеров и честный отчёт раз в месяц. Производственная компания из кейса прожила 2025 год с двумя инцидентами на 1 час 21 минуту. Если у вас критичная инфраструктура и нужна реально измеряемая доступность — напишите, пришлю детальный план мониторинга под вашу специфику.
Похожая задача в вашей компании?
Расскажите, что у вас сейчас — пришлю план работ и оценку в течение рабочего дня.
Написать в Telegram или +7 903 729-62-41
Семёнов Е.С., руководитель ITfresh