Мониторинг офисной инфраструктуры: что выбрать для 5–30 серверов в 2026
Меня зовут Семёнов Евгений Сергеевич, я 15 лет занимаюсь IT-инфраструктурой средних офисов в Москве и Подмосковье. За это время я попробовал на боевых проектах все популярные системы мониторинга — от Cacti и Munin начала 2010-х до Prometheus с Grafana последних лет. В этой статье — честное сравнение того, что реально работает в офисе на 25–80 рабочих мест с парой-тройкой серверов и сетевым оборудованием.
Почему мониторинг — не «фича для гиков», а необходимость
На каждом аудите я задаю один и тот же вопрос: «Как вы узнаёте, что у вас сломался сервер?» В 80% случаев ответ: «Когда пользователи позвонят». Это означает одну простую вещь — компания узнаёт о проблемах последней. Бухгалтерия уже три часа не может работать, директор вызывает админа, админ начинает разбираться, через час выясняется, что место кончилось ночью.
Стоимость такого инцидента в офисе на 25 человек: четыре часа простоя × 25 человек × средняя стоимость часа специалиста 1500 руб. = 150 тыс. руб. И это без учёта потерянных контрактов, нервотрёпки и репутационного ущерба перед клиентами. А мониторинг бы прислал админу алерт в 02:14 ночью, и в 02:30 проблема была бы решена — бесплатно для бизнеса.
Мой опыт: за каждый год без мониторинга средняя компания на 30 рабочих мест теряет от 200 до 800 тыс. руб. в виде простоев, которых можно было избежать. Это в 2–4 раза больше, чем стоит развернуть и поддерживать систему мониторинга.
Что мониторить в офисе обязательно
Базовый минимум, который я ставлю на любом обслуживаемом нами офисе с первого месяца:
- Серверы. CPU, RAM, диски (свободное место и SMART), сеть, доступность по ping и нужным портам.
- Сервисы. SQL Server / PostgreSQL — отвечает ли база, нет ли длинных запросов. 1С Сервер приложений — отвечает ли rphost, нет ли утечки памяти.
- Сетевое оборудование. MikroTik, Cisco, Eltex — загрузка интерфейсов, температура, состояние интернет-каналов.
- Контроллеры домена. Репликация AD, доступность LDAP, синхронизация времени.
- Файловые хранилища. Свободное место, SMART дисков, состояние RAID-массивов.
- Бэкапы. Когда последний раз успешно завершилось задание, какой размер.
- Внешние сервисы. Корпоративный сайт, почта, CRM — отвечают ли извне.
- Источники бесперебойного питания. Заряд батарей, режим работы (от сети или от батареи).
Это 40–60 параметров на типовой офис. Все они должны проверяться раз в минуту-две, отклонения — приводить к алерту в Telegram дежурному инженеру.
Сравнение пяти решений, которые мы реально пробовали
За последние пять лет мы в АйТи Фреш ставили клиентам следующие системы. Расскажу про каждую, как она показала себя на офисах нашего размера.
Zabbix — наш основной выбор для 80% клиентов
Это open-source система мониторинга родом из Латвии, существующая с 2001 года. Главные плюсы для офисной инфраструктуры:
- Огромная библиотека готовых шаблонов: Windows Server, Linux, MikroTik, MySQL, Oracle, vSphere, Hyper-V — всё с коробки.
- Веб-интерфейс на русском языке, понятен админу и руководителю.
- Гибкие алерты: Telegram, email, SMS, голосовой звонок, эскалация по уровням.
- Активная русскоязычная поддержка, документация переведена.
- Полностью бесплатный, без коммерческой лицензии.
Минусы: интерфейс не самый современный, требует продумать архитектуру при росте свыше 200 серверов, начальная настройка занимает 1–2 дня. Для офисной инфраструктуры это незаметно.
Стоимость в нашей практике: виртуалка для Zabbix-сервера (4 vCPU, 8 ГБ RAM, 100 ГБ SSD) на собственной ESXi — бесплатно, в облаке Selectel — около 5 500 руб./мес. Развёртывание и настройка под конкретный офис — 35–60 тыс. руб. Дальнейшая поддержка — в рамках общей абонентки.
Prometheus + Grafana — для тех, у кого есть Kubernetes
Связка Prometheus (сбор метрик) + Grafana (отрисовка) — стандарт в облачном мире и DevOps-командах. Я ставил его клиентам, у которых внутри офиса крутились Docker-контейнеры с микросервисами или был K8s-кластер для внутренних сервисов.
Для классической офисной инфраструктуры (Windows-серверы, 1С, NAS, MikroTik) Prometheus избыточен и неудобен:
- Pull-модель: сервер мониторинга сам опрашивает агентов, что плохо работает за NAT.
- Под Windows нет нормального стандартного экспортёра, приходится извращаться.
- Хранение метрик ограничено локальным диском, для долгосрочного нужен Thanos или VictoriaMetrics — лишняя сложность.
- Алертменеджер — отдельный сервис, конфигурация в YAML, к ней привыкнуть надо.
Если в вашем офисе нет контейнеров и Kubernetes — Prometheus вам не нужен. Возьмите Zabbix.
Netdata — для самых маленьких
Netdata — это «коробочный мониторинг» с готовыми дашбордами на каждом узле. Устанавливается одной командой, выдаёт 2000+ метрик с глубиной в одну секунду. Для офиса с 1–5 серверами без выделенного админа — отличный вариант на старте.
Бесплатная версия даёт мониторинг отдельных нод, платная (Netdata Cloud, от $10 за ноду в месяц) — централизацию и хранение истории. Для офиса 5 серверов это получается 4 500–5 500 руб./мес.
Минусы: при росте свыше 20 серверов становится неудобно, алерты менее гибкие, чем в Zabbix, нет шаблонов для российского оборудования вроде MikroTik.
UptimeRobot и BetterStack — мониторинг извне
Это облачные сервисы, которые проверяют доступность ваших сервисов снаружи: пингуют корпоративный сайт, проверяют почтовые порты, мониторят SSL-сертификаты на истечение. Стоят дёшево (UptimeRobot — бесплатный для 50 проверок, BetterStack — от 6 000 руб./мес за расширенный план).
Использовать как единственный мониторинг нельзя — они не видят, что происходит внутри сервера. Но как дополнение к Zabbix — обязательно. Если у вас отвалился интернет в офисе или сгорел сервер вместе с Zabbix-агентом, внешний мониторинг это заметит и пришлёт алерт.
PRTG Network Monitor — для тех, кто принципиально хочет коробочное
Немецкий коммерческий продукт от компании Paessler. Интерфейс приятный, лицензируется по сенсорам (1 параметр = 1 сенсор). Бесплатная версия до 100 сенсоров, платные — от 1 600 € за 500 сенсоров с пожизненной лицензией.
Для офиса 25 рабочих мест с 3–5 серверами уложиться в 100 сенсоров можно с натяжкой, обычно нужно 200–400. Получается дороговато: разовый платёж 200–500 тыс. руб. плюс ежегодная поддержка ~20% от стоимости.
В наших проектах PRTG ставили дважды — оба раза по настойчивой просьбе клиентов, которые «принципиально не хотят open-source». Работает прекрасно, но дорого.
Сводная таблица для выбора
| Решение | Размер офиса | Стоимость старт | Поддержка/мес |
|---|---|---|---|
| Zabbix (наш выбор) | 5–500 серверов | 35–90 тыс. руб. | в рамках абонентки |
| Netdata Cloud | 1–20 серверов | 0 ₽ | 800 ₽/нода |
| Prometheus + Grafana | при наличии K8s | 120–250 тыс. руб. | дороже Zabbix |
| UptimeRobot/BetterStack | дополнение к любому | 0 ₽ | 0–6 000 ₽ |
| PRTG | 5–100 серверов | 200–500 тыс. руб. | лицензия раз в год |
| Datadog/New Relic | облачная инфраструктура | 0 ₽ | от 25 000 ₽ |
Реальный кейс: офис юридической компании, 42 рабочих места
Февраль 2025-го. Юридическая компания на Тверской, 42 юриста, своя серверная: контроллер домена, файловый сервер с архивом дел (12 ТБ), сервер 1С Предприятие 8.3 в клиент-серверной конфигурации с MS SQL, IP-АТС Asterisk, ESXi с пятью виртуалками. Был штатный админ, который ушёл в декрет на полгода. До этого мониторинга не было.
За первый месяц работы без админа произошло три инцидента: разово закончилось место на диске с базой 1С (3 часа простоя), ночью упал кулер на сервере 1С с автоматическим тротлингом CPU (полдня жалоб «1С тормозит»), отвалился второй интернет-канал и никто не заметил две недели, пока не упал основной.
Пришли к нам. За три дня развернули Zabbix:
- Сервер мониторинга — виртуалка на их же ESXi: 4 vCPU, 8 ГБ RAM, 80 ГБ SSD.
- Агенты на 6 Windows-серверах и 5 Linux-виртуалках.
- SNMP-мониторинг MikroTik CCR2004 и трёх управляемых коммутаторов.
- Шаблоны для MS SQL, IIS, Asterisk, Veeam Backup.
- Telegram-бот @LegalCo_alerts для уведомлений с двумя уровнями эскалации.
- Дашборд для руководителя: «всё ли в порядке прямо сейчас» одним взглядом.
Стоимость работ — 78 тыс. руб. Дальнейшая поддержка включена в абонентку. За первый квартал использования Zabbix предотвратил 11 инцидентов: 4 раза заранее предупредил о заполнении дисков, 2 раза о деградации SSD, 3 раза о проблемах с бэкапами, 1 раз о подвисшем процессе rphost, 1 раз об отвале второго интернет-канала. Расчётная экономия по предотвращённым простоям — около 600 тыс. руб.
Типичные ошибки клиентов, которые ставят мониторинг сами
За годы я насмотрелся на самостоятельные внедрения. Делюсь тремя самыми частыми граблями:
- Мониторинг ставят на тот же сервер, который мониторят. Сервер падает — мониторинг падает вместе с ним. Никто не узнаёт, потому что Zabbix не из чего отправить алерт. Решение: Zabbix должен быть на отдельной виртуалке, желательно в другом физическом узле кластера.
- Алерты приходят на email, который никто не читает. Классика: «Мониторинг есть, мы его настраивали год назад. — Кто получает алерты? — admin@company.ru, на этот ящик никто не заходит». Решение: только Telegram-бот в групповой чат с инженерами и руководителем смены, плюс дублирование в SMS для критических событий.
- Шаблоны не адаптированы под реальную инфраструктуру. Берут стандартный шаблон Windows, и он генерирует 200 алертов в день про «процессорное время системы выше 70%». Через неделю инженеры заводят правило в Telegram «mute». Решение: после развёртывания обязательно две недели «настройки шума» — отключаем неважные триггеры, корректируем пороги под реальную нагрузку.
Поэтому лично я всем клиентам говорю: либо берёте мониторинг под ключ у нас, либо у любого другого специализированного подрядчика, либо нанимаете админа с опытом конкретно в Zabbix. Установить «по гайду из интернета» можно — но через два месяца это превратится в неработающий шум.
Что важно при настройке мониторинга, кроме самой системы
За 15 лет я заметил, что половина систем мониторинга, которые ставят сами клиенты, превращается в «генератор шума». Алертов так много, что админ их игнорирует — а потом пропускает реальный инцидент. Чтобы такого не было:
- Алерты должны быть только на actionable события: «свободного места меньше 10%» — алерт, «CPU на 80% в течение 10 минут» — алерт. «CPU 60% в течение 30 секунд» — не алерт, а шум.
- Каждый алерт должен иметь runbook: что делать, кому звонить, какую команду запускать.
- Ночные алерты только для критических сервисов (почта, телефония, домен), остальное — до утра.
- Эскалация: если дежурный не реагирует за 10 минут, алерт уходит руководителю смены.
- Раз в квартал — ретроспектива алертов: какие были ложными, какие пропустили.
Особенности мониторинга 1С: что важно знать
Поскольку 1С — основа большинства бизнес-инфраструктур наших клиентов, остановлюсь на её мониторинге отдельно. Стандартные шаблоны Windows и MS SQL для неё недостаточны. Вот что мы дополнительно мониторим:
- Память rphost. Рабочие процессы 1С имеют известную проблему «утечки памяти» при долгой работе. Мониторим суммарное потребление RAM всеми rphost — алерт, если за последний час выросло больше чем на 20%.
- Количество активных сеансов. Через ras-консоль или COM-соединение получаем число подключённых пользователей. Резкий рост или, наоборот, обрыв всех сеансов — сигнал инцидента.
- Очередь блокировок MS SQL. Длинные блокировки в базе — главная причина «1С тормозит». Алерт при наличии блокировки длиннее 30 секунд.
- Размер журнала регистрации. Раздувание ЖР приводит к деградации скорости. Мониторим размер папки 1Cv8Log, алерт при росте свыше 10 ГБ.
- Скорость ответа типового отчёта. Раз в час Zabbix-агент запускает технологический отчёт «список номенклатуры» через скрипт и измеряет время ответа. Замедление в 2 раза от базы — алерт.
Эти пять метрик ловят 80% типичных проблем 1С до того, как пользователи начали жаловаться. Настройка занимает 4–8 часов работ, и это окупается с первого же предотвращённого тормоза при формировании отчётности.
Хотите узнавать о проблемах раньше пользователей?
Я лично выезжаю на аудит к каждому новому клиенту в Москве и в радиусе 50 км от МКАД. За 2–3 рабочих дня мы определим, что критично мониторить именно в вашем офисе, и предложим решение под бюджет — от бесплатных open-source до Enterprise. Без обязательств.
Телефон: +7 903 729-62-41
Telegram: @ITfresh_Boss
Семёнов Евгений Сергеевич, директор АйТи Фреш
FAQ — частые вопросы
- Зачем офису вообще нужен мониторинг?
- Чтобы узнавать о проблеме раньше пользователей. С мониторингом алерт приходит ночью на телефон админа, а к утру всё работает. Без — пользователи звонят руководству.
- Что лучше для офиса 30 рабочих мест: Zabbix или Prometheus?
- Для классической офисной инфраструктуры (Windows, 1С, MikroTik, NAS) — Zabbix. Готовые шаблоны, веб-интерфейс на русском, удобные алерты в Telegram.
- Сколько стоит развернуть Zabbix для офиса?
- Сам Zabbix бесплатный. Виртуалка под него — 0–6 тыс. руб./мес. Развёртывание и настройка — от 35 до 90 тыс. руб. Дальше — обслуживание в рамках абонентки.
- Можно ли мониторить офис из облака без своего сервера?
- Да. UptimeRobot, BetterStack, Datadog — от 8 до 25 тыс. руб./мес. Минусы: данные у третьей стороны, при отвале интернета мониторинг не работает изнутри.
- Кто будет реагировать на алерты ночью?
- Если у вас один штатный админ — он будет ругаться. Если вы на нашей абонентке с SLA 24×7 — реагируем мы. Telegram-бот пишет дежурному, эскалация при отсутствии реакции 10 минут.