Инцидент и постмортем - как не сплоховать в обоих случаях!

SRE-практики

Доклад принят в программу конференции

Тезисы

Инцидент-менеджмент: история о том, как мы падали, вставали, и снова падали, но все же вставали. Ведь все, что нас не убивает, делает только сильнее, и да, о постмортемах нужно не забывать.
Поделимся своим опытом работы с инцидентами, начиная с того, как понимаем, что начался пожар, до его тушения, и работы с постмортемами для недопущения повторений случившегося. Покажем свой стандартный скрипт поведения команды во время инцидента и шаблон для постмортема.
Также поговорим о том, с какими трудностями мы столкнулись, решим внедрить данные практики во всем IT, и какой успех нас ждал после внедрения.

Илья Вазем

СберМегаМаркет

Эникей-системный администратор-DevOps-инженер-TeamLead команды DevOps-инженеров-руководитель отдела инфраструктуры и эксплуатации — таков путь Ильи в разрезе лычек.
Любит ИТ, фанат DevOps-практик, обожает совмещать техническую и менеджерскую составляющую своей профессии!
Лучший проект — прийти обычным админом в команду из 3-х человек и за 4 года превратить ее в команду из 24 человек, построив тем самым целый отдел, где есть группы сетевых инженеров, инфраструктурных Linux- и Microsoft-инженеров, а также 5 команд DevOps/SRE-инженеров продуктовых вертикалей.
Про хобби: сноуборд, серф, вейк-серф, дрифт, гитара, плавание и танцы — такой он разносторонний человек.

Видео