SaaS-платформа «КлаудСервис» — CRM для малого бизнеса, 12 000 клиентов, 45 микросервисов. Команда мигрировала с Docker Compose на Kubernetes (managed, Yandex Cloud) за 3 месяца. Через неделю после запуска в прод начался хаос: 3 инцидента за 5 дней, клиенты уходят, SLA нарушен.
Нас позвали в itfresh.ru как пожарную команду. За первый день аудита мы нашли 11 критических ошибок — каждая из них могла (и некоторые уже вызвали) привести к простою.
# Первичная диагностика кластера
kubectl get nodes
# NAME STATUS ROLES AGE VERSION
# node-prod-1 Ready <none> 12d v1.28.2
# node-prod-2 Ready <none> 12d v1.28.2
# node-prod-3 Ready <none> 12d v1.28.2
kubectl get pods --all-namespaces | grep -v Running | grep -v Completed
# NAMESPACE NAME READY STATUS RESTARTS
# production api-gateway-7d4f8b9c6-x2k4l 0/1 CrashLoopBackOff 47
# production report-svc-5f6d7e8a9-m3n2p 0/1 OOMKilled 23
# production search-svc-8a9b0c1d2-q4r5s 1/1 Running 12
# kube-system coredns-6d4b75cb6d-7j8k9 0/1 CrashLoopBackOff 156
OOMKilled, CrashLoopBackOff, рестарты десятками — классические симптомы неправильно настроенного кластера. Разберём каждую ошибку.
Оставить комментарий