Доставка и управление качеством алертов в Туту

Operational Intelligence. Наблюдаемость в новом мире

Менеджмент в эксплуатации
Управление инцидентами
DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Для тех, кто настраивает алерты, и кто управляет мониторингом в компании: команды observability, менеджеры дежурных инженеров, CTO

Тезисы

В Туту команды разработки живут в парадигме YBI/YRI. То есть, 30 команд сами делают алерты для себя самих. Как итог - Графана, в которой 5 тысяч очень разных алерт-правил от сотен авторов. Расскажу, как мы управляем ими, как показываем командам что можно улучшить, а бизнесу - где красные зоны. Коснемся доставки и пользы от самой нотификации, обсудим проверку качества правил и их автоматическое создание. Покажу, какую аналитику собираем, и как это помогает.

13 лет в IT. Прошел путь от разработчика до заместителя CTO в Туту.
Отвечает за инфраструктуру, managed services и эксплуатацию: observability, алерты и процесс обработки ЧП.

Видео