Воркшоп «Тушим инцидент, а не исполняем SRE-ритуалы»

Воркшопы

Доклад принят в программу конференции

Целевая аудитория

Разработчики, SRE-инженеры

Тезисы

Важно! Для участия требуется ноутбук с предустановленными K8s (kubectl/lens) и WireGuard-клиентами.

В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако никто не умеет учить самому ТУШЕНИЮ инцидентов.

Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только набивая шишки.

На воркшопе мы проведем игру, правила которой поместят игроков в условия близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.

Формат игры:

Всем участникам выдадут заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода, метрики и логи.

Делаю Keep-Alive - соревнование для разработчиков, DevOps-инженеров и системных администраторов. Мы ломаем модельный продакшен, игроки чинят. Почти как дежурство на проде — только безопасно и даже весело.

Видео

Подготовительное задание
Для воркшопа понадобятся предустановленные K8s (kubectl/lens) и WireGuard-клиенты.