Финтех-компания «БанкСофт» обратилась к нам с типичной проблемой роста: 80 микросервисов на Java и Go генерировали суммарно 120 000 событий в секунду, а инженеры тратили по 40 минут на расследование каждого инцидента — потому что логи были разбросаны по серверам и читались через ssh + journalctl.
Основные болевые точки:
- Нет корреляции — связать запрос пользователя с цепочкой вызовов через 5-6 сервисов невозможно без сквозного trace_id.
- Потеря логов — при рестарте контейнеров логи из stdout пропадали навсегда, systemd journal хранил последние 500 МБ.
- Нет алертов — о 500-х ошибках узнавали от клиентов, а не из мониторинга.
- Комплаенс — регулятор требовал хранение аудит-логов минимум 3 года с возможностью поиска.
Перед нами стоял выбор: классический ELK (Elasticsearch + Logstash + Kibana) или более новый стек Loki + Promtail + Grafana. Мы развернули оба варианта в тестовой среде и провели детальное сравнение.
Оставить комментарий