Помню, как к нам обратился CTO «ИнфоСистем». Он чётко описал всю боль одной фразой: «Разработчики кидают код через стену, а ops-команда ловит и ругается». Мы не стали гадать, а сразу взялись за дело — провели двухнедельный аудит. Вот какую картину мы тогда зафиксировали:
- Разрозненные команды: 5 команд разработки, отдельная QA-команда, отдельный ops-отдел. Коммуникация через тикеты в Jira, среднее время ответа — 3 дня.
- Ручные процессы: деплой — 47-шаговая инструкция в Confluence, выполняет один человек (Андрей). Если Андрей в отпуске — деплоя нет.
- Культура обвинений: после каждого инцидента — поиск виноватого. Разработчики боялись деплоить, ops-команда боялась менять инфраструктуру.
- Нет автоматических тестов: QA-команда тестировала вручную 2-3 недели перед каждым релизом.
- Нет мониторинга: об инцидентах узнавали от пользователей через поддержку.
DORA-метрики на старте были, мягко говоря, катастрофическими:
| Метрика | Значение | Уровень (DORA) |
|---|---|---|
| Deployment Frequency | 1 раз в квартал | Low |
| Lead Time for Changes | 3 месяца | Low |
| Change Failure Rate | 45% | Low |
| Mean Time to Recovery | 48 часов | Low |

Оставить комментарий