Как узнать о сбое сервера раньше своих сотрудников: мониторинг без бюджета
Я узнаю о проблемах на серверах клиентов раньше, чем они сами. Не потому что у меня хрустальный шар, а потому что мониторинг настроен нормально. Расскажу, какими инструментами пользуюсь сам — всё бесплатно, ничего экзотического.
Как три часа простоя обошлись в 35 рабочих часов
Три года назад у меня был клиент — небольшая юридическая фирма, 14 рабочих мест, один сервер с Windows Server 2016. Ночью диск C: заполнился вусмерть. В 3:47 по системному журналу. Транзакционный лог 1С вырос до предела — и всё встало. Когда утром сотрудники пришли на работу, база не открывалась ни у кого. Звонков я не ждал — они пришли сами, через два с половиной часа, когда директор наконец понял, что это не «интернет не работает». Итого: 14 человек, 2,5 часа простоя, 35 потерянных рабочих часов. Плюс нервы, плюс один сорванный договор, который они планировали подготовить именно в то утро.
После этого случая я ввёл в компании простое правило: о любой проблеме в инфраструктуре клиента мы должны знать раньше самого клиента. Не одновременно. Раньше. Идеально — за несколько часов, пока ещё можно что-то исправить до начала рабочего дня. Диск заполняется постепенно. Сервис падает с предупреждениями в логах задолго до полного отказа. Всё это видно заранее. Просто нужно смотреть.
Весь этот разговор — про то, чем и как смотреть. Инструменты, которые я опишу, либо полностью бесплатны, либо имеют бесплатную версию, которой хватает компании до 50 рабочих мест. Никаких корпоративных лицензий за 200 000 рублей в год. Всё проверено на нескольких десятках реальных клиентов — бухгалтерии, юрфирмы, торговля, медклиники.
Zabbix: страшное название, понятный принцип
Zabbix — опенсорсная система мониторинга. Полностью бесплатная, без каких-либо ограничений по количеству хостов или метрик. Сервер работает на Linux — Ubuntu, Debian — что поначалу отпугивает директоров, привыкших к Windows. Но агенты ставятся на что угодно: Windows Server 2012, 2016, 2019, 2022, обычные Windows 10 и 11. Принцип простой: маленькая программа zabbix-agent2 весом примерно 15 мегабайт устанавливается на каждую машину, собирает данные и отправляет на центральный сервер. Сервер сравнивает значения с заданными порогами и при нарушении шлёт уведомление.
Из коробки Zabbix умеет мониторить: загрузку процессора, использование оперативной памяти, заполненность каждого раздела диска, сетевой трафик, состояние Windows-сервисов — включая ваши 1С, SQL Server, любые другие, — доступность хостов по ICMP, журналы событий Windows по ключевым словам. Есть готовые шаблоны для Windows Server, для Microsoft SQL Server, для Linux-хостов. Применил шаблон на хост — через пять минут видишь данные. Не преувеличиваю: реально пять минут.
У одного нашего клиента — небольшая стоматология, восемь рабочих мест плюс сервер — Zabbix однажды показал в пятницу вечером, что диск на сервере резервного копирования заполнен на 87%. В понедельник утром мы почистили старые бэкапы и освободили место. Сами, без звонка от клиента, до начала рабочей недели. Клиент об этом вообще не знал — получил только короткий отчёт: «всё в порядке, почистили архивы резервных копий». Вот это я называю нормальной поддержкой.
PRTG Network Monitor: когда хочется попроще
PRTG Network Monitor от немецкой компании Paessler. Есть бесплатная версия с ограничением в 100 сенсоров — для малого бизнеса этого обычно хватает. Один сервер Windows — примерно 10-15 сенсоров: диски, процессор, память, сетевой адаптер, несколько сервисов, пинг. Пять серверов и десяток рабочих мест — укладываетесь в сотню с запасом.
Главное преимущество PRTG перед Zabbix — порог входа. Всё устанавливается на Windows, настраивается через браузер с приличным интерфейсом. Есть мобильное приложение для iOS и Android — зелёные и красные кружки сразу видны на экране телефона. Никакого Linux, никакой консоли. Добавил устройство по IP, выбрал тип — PRTG сам предлагает набор сенсоров. Базовый мониторинг сервера поднимается за полтора-два часа с нуля, без предыдущего опыта.
Минус — ограничение бесплатной версии и цена платной. Когда 100 сенсоров закончатся, придётся или платить (лицензия на 500 сенсоров — порядка 27 000-35 000 рублей, уточняйте актуально на сайте), или переезжать на Zabbix. Я рекомендую PRTG тем, кто хочет попробовать мониторинг быстро и без погружения в Linux. Тем же, кто готов потратить день на нормальную настройку и получить инструмент без ограничений — сразу Zabbix. Долгосрочно выгоднее.
То, что уже есть в Windows — и чем никто не пользуется
В Windows Server встроен вполне приличный набор инструментов. Просмотр событий — Event Viewer — пишет всё: падения служб, ошибки приложений, входы пользователей, предупреждения от оборудования. Проблема одна — его никто не смотрит. Открываешь, видишь тысячи записей с красными восклицательными знаками, пугаешься и закрываешь. Так не работает. Нужны фильтры по источнику, категории, коду события. Тогда это становится полезным инструментом диагностики.
Монитор производительности — perfmon.exe — умеет строить графики нагрузки, писать счётчики в файл, запускать предупреждения при превышении порогов. Интерфейс из девяностых, настройка громоздкая. Я использую его точечно: когда нужно поймать конкретную проблему. Например, понять, почему 1С тормозит каждый день ровно с 10:00 до 10:30. Пишем счётчики дисковой очереди, загрузки CPU и памяти на полчаса — смотрим, что происходит именно в это время.
Windows Admin Center — бесплатный инструмент от Microsoft, появился относительно недавно. Устанавливается отдельно, работает как веб-панель. Показывает состояние серверов, дисков, сетевых адаптеров, запущенных служб. Можно запускать PowerShell прямо в браузере, не подключаясь через RDP. Для небольшой инфраструктуры — хорошая точка входа, особенно если не хочется разворачивать отдельную систему мониторинга прямо сейчас. Скачивается с официального сайта Microsoft, никаких лицензий не требует.
Telegram вместо ночного дежурного
Самое важное в мониторинге — не красивые графики, а уведомления. Если система что-то обнаружила, но вы узнали об этом через два дня, когда открыли браузер с дашбордом, — толку ноль. Нужен канал, который достанет в любое время. Telegram. Боты бесплатны, работают стабильно, приходят на телефон мгновенно. Zabbix умеет слать уведомления в Telegram нативно — через настройку медиатипа. Занимает примерно 20 минут, пошаговые инструкции есть на официальной вики и на Хабре.
Если хочется обойтись совсем простым — PowerShell и Telegram-бот. Пишете скрипт: раз в час проверяет свободное место на дисках, статус критичных служб — ragent для сервера 1С, MSSQLSERVER для SQL Server, TermService для RDP, — делает пинг на ключевые хосты. Если что-то не так — вызывает Telegram Bot API и шлёт сообщение в чат. Запускается через Планировщик задач Windows. Это пять-десять строк PowerShell. Час работы. Дальше — само.
У нас в компании есть отдельный Telegram-чат «Мониторинг». Туда падают алерты от Zabbix со всех обслуживаемых объектов. Дежурный инженер видит уведомление — и реагирует. Иногда клиент сам звонит: «у нас что-то с сервером 1С». А мы уже в работе — алерт пришёл сорок минут назад, уже диагностируем. Это другое качество поддержки. И совсем другой разговор с клиентом.
Что конкретно ставить на мониторинг
Диск — первое и главное. На системном разделе должно быть не меньше 10-15% свободного места. На серверах 1С или SQL — ещё больше: базы данных и транзакционные логи растут неравномерно, могут за ночь вырасти на несколько гигабайт. Рекомендую два порога: предупреждение при 20%, критичный алерт при 10%. Добралось до предупреждения — разбираемся сразу. Не ждём.
Состояние сервисов — самое практически ценное. На каждом сервере определяете список критичных служб. На сервере 1С: ragent или srv1cv83, плюс MSSQLSERVER или именованный экземпляр. На терминальном сервере: TermService. Если служба остановилась — уведомление немедленно. Не через десять минут следующей проверки. Сразу. Время реакции имеет значение, особенно если это происходит ночью и у вас есть шанс поднять сервис до начала рабочего дня.
Резервное копирование — отдельная история. Veeam Backup and Replication Community Edition бесплатна, поддерживает Hyper-V и VMware, умеет слать email-отчёты о результатах каждого задания. Настройте эти письма на адрес IT-подрядчика или свой рабочий адрес. Три дня подряд нет успешного бэкапа — это катастрофа, которая просто ещё не случилась. Мониторинг резервирования так же важен, как само резервирование. Проверяйте, что бэкап реально есть, а не просто что задание «запустилось».
Реальная схема: как собрать всё это за один день
Минимальный рабочий набор для компании до 20-25 рабочих мест. Один Zabbix-сервер — поднять на старой машине или небольшой виртуалке под Ubuntu 22.04 LTS: 2 ядра, 4 гигабайта оперативной памяти, 50 гигабайт диска. Установка Zabbix 7.x по официальной документации — около часа вместе с PostgreSQL в качестве базы данных. Агенты на Windows-серверы — msi-пакет, следующий-следующий-готово. Шаблоны Windows Server применяются в два клика. Уведомления в Telegram — ещё 20 минут. Итого: один рабочий день, если делать первый раз. Стоимость: ноль рублей.
Если нет своего человека — это задача для IT-аутсорсера. Мы при подключении нового клиента разворачиваем мониторинг в первый же день. Не потому что красиво звучит в коммерческом предложении. А потому что без мониторинга мы работаем вслепую — не видим, что происходит на объекте. Если ваш IT-подрядчик обслуживает инфраструктуру и при этом у него нет никакого мониторинга вашего сервера — спросите напрямую: а как вы узнаёте о проблемах? Ответ будет очень показательным.
Главное, что я вынес за 12 лет в этом деле: мониторинг — это не про дашборды. Не про красивые графики на большом экране переговорки. Это про то, что нужный человек получил нужное уведомление в нужный момент и успел отреагировать. Начните с простого: диск, критичные сервисы, резервное копирование. Настройте уведомления в Telegram. Это несколько часов работы. После этого вы перестанете узнавать о том, что сервер упал, от своих сотрудников в 9:05 утра.
Частые вопросы
Сколько стоит внедрить нормальный мониторинг для небольшой компании?
Если говорить про Zabbix — инструмент полностью бесплатный, опенсорс без каких-либо ограничений. PRTG бесплатен до 100 сенсоров — для компании до 15-20 рабочих мест обычно хватает. Расходы — только время на настройку: несколько часов своего специалиста либо 10 000-20 000 рублей разовой работы аутсорсера. Платная версия PRTG начинается от 27 000-35 000 рублей за 500 сенсоров, но для большинства малых компаний в ней просто нет необходимости.
Нужен ли штатный системный администратор, чтобы мониторинг работал?
Настраивается один раз — дальше работает самостоятельно и шлёт уведомления. Кто-то должен на эти уведомления реагировать: штатный специалист или IT-аутсорсер с дежурством. Сам мониторинг обслуживания почти не требует — обновление агентов раз в несколько месяцев да периодическая проверка, что уведомления вообще доходят. Это не полноценная ставка сисадмина, это несколько часов в квартал.
Zabbix или PRTG — что лучше выбрать для начала?
Если нет человека с опытом Linux и хочется результат быстро — PRTG. Устанавливается на Windows, настраивается через браузер, есть мобильное приложение. Если планируете масштабироваться, не хотите платить за лицензии по мере роста, или есть готовность потратить день на нормальную настройку — Zabbix. Оба варианта я использую у клиентов, оба рабочие. PRTG — быстрый старт, Zabbix — долгосрочное решение без потолка.
Мониторинг прислал уведомление ночью — кто будет чинить?
Это вопрос не к инструменту, а к организации поддержки. Мониторинг — средство обнаружения, не ремонт. Реагировать должен либо штатный специалист с дежурным телефоном, либо аутсорсер с договором, включающим ночную поддержку. У нас есть тариф с дежурством 24/7: инженер получает алерт из того же Zabbix и выходит на связь в течение 15 минут. Без этого ночной мониторинг теряет половину смысла.
Проведём бесплатный аудит серверов и рабочих мест и покажем, что именно нужно отслеживать в вашей инфраструктуре — звоните или пишите.
Бесплатная консультация →
Подпишитесь на рассылку ITfresh
Раз в неделю — практические гайды для руководителя и сисадмина: безопасность, 1С, миграции, резервные копии, лайфхаки из реальных проектов.
