Работа с инцидентами в Туту

DevOps практики и культура

Менеджмент в эксплуатации
Управление инцидентами
Надёжность продакшена

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Для SRE инженеров и менеджеров - расскажу о наших специях к "классическому" рецепту инцидент респонса. Вместе посмотрим, какие из них делают вкусно.

Тезисы

Расскажу, как Туту работает во время ЧП. Посмотрим на все аспекты, начиная с алерта, который говорит что все сломалось, и до закрытия экшнов в postmortem. Обсудим инструменты и артефакты, которые возникают, и автоматику, которая за ними следит, и процесс, который она реализует. И, конечно, людей которые реагируют, чинят, проводят разбор и делают наши системы стабильнее.

13 лет в IT. Прошел путь от разработчика до заместителя CTO в Туту.
Отвечает за инфраструктуру, managed services и эксплуатацию: observability, алерты и процесс обработки ЧП.

Видео

Другие доклады секции

DevOps практики и культура

Мой тех.дир - cамодур!
Юлия Жерносек

Выгоревший Безработный