Хостинг-провайдер «ХостМастер» эксплуатирует 150 серверов в двух дата-центрах Москвы и обслуживает более 3000 клиентских проектов. До обращения к нам мониторинг состоял из самописного bash-скрипта, который раз в 5 минут проверял доступность серверов по ping и отправлял SMS при недоступности.
Проблемы были системными:
- Реактивный подход — о проблемах узнавали от клиентов, а не от системы мониторинга. Среднее время обнаружения инцидента: 23 минуты.
- Отсутствие метрик — не было данных о CPU, RAM, диске, сети. Администраторы подключались по SSH и запускали top вручную.
- Нет истории — невозможно выяснить, что происходило на сервере вчера в 3 часа ночи, когда клиент жаловался на тормоза.
- Слепые зоны — дисковый I/O и сетевой трафик не мониторились вообще.
Руководство «ХостМастер» поставило задачу: за 4 недели внедрить комплексный мониторинг, который позволит выявлять проблемы до того, как пострадают клиенты.
Оставить комментарий