В начале 2026 года к нам обратилась команда онлайн-кинотеатра StreamVibe из Москвы. У компании было 50 микросервисов, развёрнутых в Kubernetes: транскодирование видео, рекомендательная система, биллинг, CDN-оркестрация, пользовательские профили и ещё десятки внутренних сервисов. Ежедневная аудитория — 400 000 пользователей, пиковая нагрузка во время премьер — до 80 000 одновременных сессий.
Проблема была в том, что логи жили только внутри контейнеров. При каждом перезапуске пода (а это происходило десятки раз в день при автоскейлинге) все логи безвозвратно терялись. Команда из 8 разработчиков тратила до 3 часов в день на ручной поиск ошибок, подключаясь к нодам по SSH и перебирая kubectl logs. Два крупных инцидента — падение биллинга и сбой транскодера — так и не удалось полноценно расследовать из-за отсутствия исторических логов.
«Мы как слепые котята. Сервис падает, а мы даже не можем посмотреть, что происходило за минуту до сбоя» — технический директор StreamVibe.
Клиент рассматривал ELK Stack, но после оценки стоимости — кластер Elasticsearch на 3 ноды по 64 ГБ RAM — решил искать более лёгкую альтернативу. Специалисты АйТи Фреш предложили Grafana Loki — систему агрегации логов, которая индексирует только метаданные (labels), а не содержимое, что кратно снижает требования к ресурсам.