Мониторинг офисной инфраструктуры: что выбрать для 5–30 серверов в 2026
Привет! Меня зовут Семёнов Евгений Сергеевич, и я уже целых 15 лет погружён в мир IT-инфраструктуры, работая со средними офисами по всей Москве и Подмосковью. За эти годы через мои руки и боевые проекты прошли буквально все популярные системы мониторинга: начинал ещё с Cacti и Munin в начале 2010-х, а сейчас активно использую Prometheus с Grafana. В этой статье я хочу поделиться честным сравнением того, что по моему опыту реально приносит пользу в офисе, где трудится от 25 до 80 человек, и есть пара-тройка серверов с сетевым оборудованием.
Почему мониторинг — не «фича для гиков», а необходимость
На каждом аудите я всегда задаю один и тот же, казалось бы, простой вопрос: «Как вы вообще узнаёте, что у вас сломался сервер?» И знаете, в 80% случаев слышу один и тот же ответ: «Ну, когда пользователи начнут звонить». А это, по сути, означает вот что: ваша компания узнаёт о проблемах в самый последний момент. Представьте: бухгалтерия уже три часа не может работать, директор в бешенстве вызывает админа, а тот, спустя ещё час разбирательств, выясняет, что место на диске закончилось ещё ночью. Ничего хорошего, правда?
Давайте быстренько прикинем, во что обходится такой инцидент для офиса на 25 человек. Четыре часа простоя, умножаем на 25 человек, затем на среднюю стоимость часа работы специалиста — 1500 руб. Итого получаем 150 тыс. руб. Это, к слову, ещё без учёта потерянных контрактов, кучи нервотрёпки и удара по репутации перед клиентами. А ведь система мониторинга просто прислала бы админу алерт в 02:14 ночи, и уже в 02:30 проблема была бы решена. Для бизнеса это абсолютно бесплатно, представляете?
Мой опыт показывает, что каждый год без нормального мониторинга средняя компания с 30 рабочими местами запросто теряет от 200 до 800 тыс. руб. на простоях, которых можно было бы легко избежать. И самое интересное: это в 2–4 раза больше, чем вам обойдётся развёртывание и поддержка той самой системы мониторинга.
Что мониторить в офисе обязательно
Вот тот базовый минимум, который лично я всегда настраиваю в любом офисе, который мы берём на обслуживание, прямо с первого месяца:
- Серверы. CPU, RAM, диски (свободное место и SMART), сеть, доступность по ping и нужным портам.
- Сервисы. SQL Server / PostgreSQL — отвечает ли база, нет ли длинных запросов. 1С Сервер приложений — отвечает ли rphost, нет ли утечки памяти.
- Сетевое оборудование. MikroTik, Cisco, Eltex — загрузка интерфейсов, температура, состояние интернет-каналов.
- Контроллеры домена. Репликация AD, доступность LDAP, синхронизация времени.
- Файловые хранилища. Свободное место, SMART дисков, состояние RAID-массивов.
- Бэкапы. Когда последний раз успешно завершилось задание, какой размер.
- Внешние сервисы. Корпоративный сайт, почта, CRM — отвечают ли извне.
- Источники бесперебойного питания. Заряд батарей, режим работы (от сети или от батареи).
Обычно это 40–60 параметров для типового офиса. Все их нужно проверять очень часто — буквально раз в минуту-две. А любое отклонение от нормы сразу же должно превращаться в алерт, который улетает дежурному инженеру в Telegram.
Сравнение пяти решений, которые мы реально пробовали
За последние пять лет мы в АйТи Фреш ставили клиентам разные системы. Расскажу про каждую — как она показала себя на офисах нашего размера.
Zabbix — наш основной выбор для 80% клиентов
Zabbix — это такая классная open-source система мониторинга, которая родом из Латвии и существует аж с 2001 года. Для офисной инфраструктуры у неё есть несколько очень весомых плюсов:
- Огромная библиотека готовых шаблонов: Windows Server, Linux, MikroTik, MySQL, Oracle, vSphere, Hyper-V — всё с коробки.
- Веб-интерфейс на русском языке, понятен админу и руководителю.
- Гибкие алерты: Telegram, email, SMS, голосовой звонок, эскалация по уровням.
- Активная русскоязычная поддержка, документация переведена.
- Полностью бесплатный, без коммерческой лицензии.
Конечно, есть и минусы: интерфейс не самый современный, это правда. Если у вас вдруг вырастет больше 200 серверов, придётся серьёзно подумать над архитектурой, а начальная настройка обычно занимает 1–2 дня. Но для обычной офисной инфраструктуры, по моему опыту, всё это совершенно незаметно и некритично.
Что касается стоимости в нашей практике, то тут так: виртуалка для Zabbix-сервера (с 4 vCPU, 8 ГБ RAM, 100 ГБ SSD) на собственной ESXi обойдётся бесплатно. Если же захотите разместить её в облаке Selectel, это будет стоить около 5 500 руб./мес. А вот развёртывание и настройка системы под ваш конкретный офис у нас обычно стоит от 35 до 60 тыс. руб. Дальнейшая поддержка уже включена в общую абонентскую плату.
Prometheus + Grafana — для тех, у кого есть Kubernetes
Связка Prometheus для сбора метрик и Grafana для их отрисовки — это, безусловно, некий стандарт в облачном мире и среди DevOps-команд. Я, кстати, ставил её и своим клиентам, но только тем, у кого внутри офиса вовсю крутились Docker-контейнеры с микросервисами или был развёрнут K8s-кластер для внутренних сервисов.
А для классической офисной инфраструктуры (Windows-серверы, 1С, NAS, MikroTik) Prometheus избыточен и неудобен:
- Pull-модель: сервер мониторинга сам опрашивает агентов, что плохо работает за NAT.
- Под Windows нет нормального стандартного экспортёра, приходится извращаться.
- Хранение метрик ограничено локальным диском, для долгосрочного нужен Thanos или VictoriaMetrics — лишняя сложность.
- Алертменеджер — отдельный сервис, конфигурация в YAML, к ней привыкнуть надо.
Поэтому, если у вас в офисе нет контейнеров и Kubernetes, мой совет прост: Prometheus вам совсем не нужен. Смело выбирайте Zabbix.
Netdata — для самых маленьких
Netdata — это такой "коробочный мониторинг" в лучшем смысле слова, с уже готовыми дашбордами прямо на каждом узле. Устанавливается буквально одной командой, а выдаёт при этом более 2000 метрик с фантастической глубиной в одну секунду. Для небольшого офиса, где от 1 до 5 серверов и нет выделенного админа, это просто отличный вариант для старта.
Бесплатная версия Netdata позволяет мониторить отдельные ноды, а вот платная (Netdata Cloud), которая начинается от $10 за ноду в месяц, уже даёт централизацию и хранение всей истории. Для офиса с 5 серверами это выйдет в 4 500–5 500 руб./мес.
Но есть и минусы: когда серверов становится больше 20, работать с Netdata уже не так удобно. Алерты здесь менее гибкие, чем в том же Zabbix, и, что немаловажно, нет готовых шаблонов под наше, российское оборудование, например, под MikroTik.
UptimeRobot и BetterStack — мониторинг извне
Это облачные сервисы, которые проверяют, доступен ли ваш сайт или сервис извне. Они пингуют корпоративный сайт, проверяют состояние почтовых портов, следят за сроком истечения SSL-сертификатов — в общем, контролируют внешнюю доступность. Стоят они, кстати, совсем недорого: UptimeRobot бесплатен для 50 проверок, а BetterStack начинается от 6 000 руб./мес за расширенный план.
Использовать их как единственный инструмент мониторинга, конечно, нельзя — они ведь не видят, что творится внутри сервера. Но вот как отличное дополнение к Zabbix — это просто мастхэв! Представьте: отвалился интернет в офисе или, не дай бог, сгорел сервер вместе с Zabbix-агентом — внешний мониторинг тут же это заметит и оперативно пришлёт вам алерт.
PRTG Network Monitor — для тех, кто принципиально хочет коробочное
PRTG — это немецкий коммерческий продукт от компании Paessler. У него очень приятный интерфейс, а лицензирование происходит по сенсорам (где 1 параметр = 1 сенсор). Есть бесплатная версия, которая позволяет до 100 сенсоров, а платные варианты начинаются от 1 600 € за 500 сенсоров с пожизненной лицензией.
Для офиса на 25 рабочих мест с 3–5 серверами в 100 сенсоров можно уложиться, но это будет очень с натяжкой. Обычно требуется 200–400 сенсоров. А это, конечно, выходит дороговато: разовый платёж составит от 200 до 500 тыс. руб. плюс ещё ежегодная поддержка, которая обычно равна примерно ~20% от изначальной стоимости.
Мы в своих проектах ставили PRTG всего дважды, и оба раза это было по очень настойчивой просьбе клиентов, которые, как они говорили, «принципиально не хотят open-source». Работает система прекрасно, но, как я уже сказал, дорого.
Сводная таблица для выбора
| Решение | Размер офиса | Стоимость старт | Поддержка/мес |
|---|---|---|---|
| Zabbix (наш выбор) | 5–500 серверов | 35–90 тыс. руб. | в рамках абонентки |
| Netdata Cloud | 1–20 серверов | 0 ₽ | 800 ₽/нода |
| Prometheus + Grafana | при наличии K8s | 120–250 тыс. руб. | дороже Zabbix |
| UptimeRobot/BetterStack | дополнение к любому | 0 ₽ | 0–6 000 ₽ |
| PRTG | 5–100 серверов | 200–500 тыс. руб. | лицензия раз в год |
| Datadog/New Relic | облачная инфраструктура | 0 ₽ | от 25 000 ₽ |
Реальный кейс: офис юридической компании, 42 рабочих места
Представьте: Февраль 2025-го. Юридическая компания на Тверской, 42 юриста в штате, своя серверная комната. Там у них целый набор: контроллер домена, файловый сервер с архивом дел на 12 ТБ, сервер 1С Предприятие 8.3 в клиент-серверной конфигурации с MS SQL, IP-АТС Asterisk, а также ESXi с пятью виртуалками. Был у них штатный админ, но ушёл в декрет на полгода. До этого момента никакого мониторинга у них не было.
За первый же месяц, пока админа не было, произошло сразу три инцидента. Сначала разово закончилось место на диске с базой 1С — это вылилось в 3 часа простоя. Потом ночью упал кулер на сервере 1С, что привело к автоматическому тротлингу CPU, и полдня сотрудники жаловались, что «1С тормозит». И, вишенка на торте, отвалился второй интернет-канал, но этого никто не замечал целых две недели, пока не лёг основной.
Пришли к нам. За три дня развернули Zabbix:
- Сервер мониторинга — виртуалка на их же ESXi: 4 vCPU, 8 ГБ RAM, 80 ГБ SSD.
- Агенты на 6 Windows-серверах и 5 Linux-виртуалках.
- SNMP-мониторинг MikroTik CCR2004 и трёх управляемых коммутаторов.
- Шаблоны для MS SQL, IIS, Asterisk, Veeam Backup.
- Telegram-бот @LegalCo_alerts для уведомлений с двумя уровнями эскалации.
- Дашборд для руководителя: «всё ли в порядке прямо сейчас» одним взглядом.
Стоимость наших работ составила 78 тыс. руб., а дальнейшая поддержка, кстати, уже включена в абонентку. Только за первый квартал Zabbix предотвратил целых 11 инцидентов! Он 4 раза заранее предупредил о переполнении дисков, 2 раза — о деградации SSD, 3 раза — о проблемах с бэкапами, 1 раз — о зависшем процессе rphost и ещё 1 раз — об отвалившемся втором интернет-канале. Представляете, расчётная экономия на этих предотвращённых простоях составила около 600 тыс. руб.!
Типичные ошибки клиентов, которые ставят мониторинг сами
За годы я насмотрелся на самостоятельные внедрения. Делюсь тремя самыми частыми граблями:
- Мониторинг ставят на тот же сервер, который мониторят. Сервер падает — мониторинг падает вместе с ним. Никто не узнаёт, потому что Zabbix не из чего отправить алерт. Решение: Zabbix должен быть на отдельной виртуалке, желательно в другом физическом узле кластера.
- Алерты приходят на email, который никто не читает. Классика: «Мониторинг есть, мы его настраивали год назад. — Кто получает алерты? — admin@company.ru, на этот ящик никто не заходит». Решение: только Telegram-бот в групповой чат с инженерами и руководителем смены, плюс дублирование в SMS для критических событий.
- Шаблоны не адаптированы под реальную инфраструктуру. Берут стандартный шаблон Windows, и он генерирует 200 алертов в день про «процессорное время системы выше 70%». Через неделю инженеры заводят правило в Telegram «mute». Решение: после развёртывания обязательно две недели «настройки шума» — отключаем неважные триггеры, корректируем пороги под реальную нагрузку.
Вот поэтому я лично всем своим клиентам всегда говорю одно и то же: либо вы берёте мониторинг под ключ у нас, либо обращаетесь к любому другому специализированному подрядчику, либо нанимаете админа, у которого есть опыт работы конкретно с Zabbix. Поставить систему, конечно, можно и "по гайду из интернета", но поверьте мне, через каких-то два месяца она превратится в неработающий генератор шума.
Что важно при настройке мониторинга, кроме самой системы
За 15 лет моей практики я чётко заметил одну вещь: половина систем мониторинга, которые клиенты пытаются установить сами, в итоге превращается в настоящий «генератор шума». Алертов становится так много, что админ начинает их просто игнорировать, а потом, конечно же, пропускает по-настоящему важный инцидент. Чтобы такого не допустить, нужно делать вот что:
- Алерты должны быть только на actionable события: «свободного места меньше 10%» — алерт, «CPU на 80% в течение 10 минут» — алерт. «CPU 60% в течение 30 секунд» — не алерт, а шум.
- Каждый алерт должен иметь runbook: что делать, кому звонить, какую команду запускать.
- Ночные алерты только для критических сервисов (почта, телефония, домен), остальное — до утра.
- Эскалация: если дежурный не реагирует за 10 минут, алерт уходит руководителю смены.
- Раз в квартал — ретроспектива алертов: какие были ложными, какие пропустили.
Особенности мониторинга 1С: что важно знать
Поскольку 1С для большинства наших клиентов — это буквально основа всей бизнес-инфраструктуры, на её мониторинге я остановлюсь чуть подробнее. Стандартных шаблонов для Windows и MS SQL здесь, увы, недостаточно. Вот что мы мониторим дополнительно, чтобы быть уверенными:
- Память rphost. Рабочие процессы 1С имеют известную проблему «утечки памяти» при долгой работе. Мониторим суммарное потребление RAM всеми rphost — алерт, если за последний час выросло больше чем на 20%.
- Количество активных сеансов. Через ras-консоль или COM-соединение получаем число подключённых пользователей. Резкий рост или, наоборот, обрыв всех сеансов — сигнал инцидента.
- Очередь блокировок MS SQL. Длинные блокировки в базе — главная причина «1С тормозит». Алерт при наличии блокировки длиннее 30 секунд.
- Размер журнала регистрации. Раздувание ЖР приводит к деградации скорости. Мониторим размер папки 1Cv8Log, алерт при росте свыше 10 ГБ.
- Скорость ответа типового отчёта. Раз в час Zabbix-агент запускает технологический отчёт «список номенклатуры» через скрипт и измеряет время ответа. Замедление в 2 раза от базы — алерт.
Эти пять метрик, как показывает практика, ловят около 80% типичных проблем с 1С ещё задолго до того, как пользователи вообще успеют пожаловаться. Настройка занимает всего 4–8 часов работы, а окупается она с первого же предотвращённого "тормоза" при формировании какой-нибудь отчётности.
Хотите узнавать о проблемах раньше пользователей?
Я лично готов выехать на аудит к каждому новому клиенту в Москве и в радиусе 50 км от МКАД. За 2–3 рабочих дня мы вместе определим, что именно критично мониторить в вашем офисе, и, конечно же, предложим оптимальное решение под ваш бюджет — от бесплатных open-source вариантов до полноценных Enterprise-систем. И всё это, заметьте, без каких-либо обязательств с вашей стороны.
Телефон: +7 903 729-62-41
Telegram: @ITfresh_Boss
Семёнов Евгений Сергеевич, директор АйТи Фреш
FAQ — частые вопросы
- Зачем офису вообще нужен мониторинг?
- Чтобы узнавать о проблеме раньше пользователей. С мониторингом алерт приходит ночью на телефон админа, а к утру всё работает. Без — пользователи звонят руководству.
- Что лучше для офиса 30 рабочих мест: Zabbix или Prometheus?
- Для классической офисной инфраструктуры (Windows, 1С, MikroTik, NAS) — Zabbix. Готовые шаблоны, веб-интерфейс на русском, удобные алерты в Telegram.
- Сколько стоит развернуть Zabbix для офиса?
- Сам Zabbix бесплатный. Виртуалка под него — 0–6 тыс. руб./мес. Развёртывание и настройка — от 35 до 90 тыс. руб. Дальше — обслуживание в рамках абонентки.
- Можно ли мониторить офис из облака без своего сервера?
- Да. UptimeRobot, BetterStack, Datadog — от 8 до 25 тыс. руб./мес. Минусы: данные у третьей стороны, при отвале интернета мониторинг не работает изнутри.
- Кто будет реагировать на алерты ночью?
- Если у вас один штатный админ — он будет ругаться. Если вы на нашей абонентке с SLA 24×7 — реагируем мы. Telegram-бот пишет дежурному, эскалация при отсутствии реакции 10 минут.
