E-commerce «МаркетЛайн» обратился к нам в itfresh.ru после серии инцидентов: за последний квартал магазин терял от 200 до 800 тысяч рублей за каждый простой, потому что никто не узнавал о проблеме вовремя. Дежурный инженер проверял Grafana-дашборды вручную раз в час, а ночью мониторинг отсутствовал полностью.
Инфраструктура:
- Grafana 10.3 — 18 дашбордов (только визуализация, алертов нет)
- Prometheus — сбор метрик с 12 серверов и 8 микросервисов
- Alertmanager — установлен, но не настроен (default конфиг)
- Telegram — команда общается в рабочем чате, но алертов туда не приходит
Три инцидента, которые подтолкнули к обращению:
- Падение PostgreSQL в 3 часа ночи — обнаружено в 9 утра, потеря 6 часов заказов
- Redis OOM — корзины перестали работать, обнаружено через 40 минут по жалобам в поддержку
- Nginx 502 — backend-сервер ушёл в swap, обнаружено клиентом, а не командой
Задача: выстроить полноценную систему оповещений с маршрутизацией в Telegram, email и Slack — с учётом рабочего/нерабочего времени, severity и минимумом ложных срабатываний.
Оставить комментарий