Круглый стол «Сервис недоступен! или Укрощаем процесс управления инцидентами»
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Что делать, когда сервис падает — и падает не по расписанию? Что можно сделать, чтобы превратить хаос в отлаженный процесс, а стресс — в структурированную работу?
В формате «круглого стола» обсудим, как выстроить процесс от первого сигнала тревоги до финального разбора полетов — и что делать, чтобы следующий инцидент прошел легче. Это будет живое общение с реальным опыт участников: кейсы, провалы, находки и «фишки», которые реально работают. Никаких абстрактных теорий — только практика, цифры и честные ответы на неудобные вопросы.
Это будет настоящее погружение в мир инцидент‑менеджмента для тех, кто отвечает за стабильность IT‑систем.
20 лет в IT, проходящие через призму менеджмента, разработки, системного администрирования и информационной безопасности.
SRE. Работал инженером в телекоме, после чего ушел в финтех. Руководил командой SRE/DevOps на крупном финтех-проекте. Занимался внедрением практик DevOps и инцидент-менеджмента. С 2021 года SRE-инженер в компании VK. Занимается развитием практик мониторинга, алертинга, инцидент-менеджмента. Преподаватель и спикер конференций.
SR-инженер (SRE). Более 5 лет строит и эксплуатирует отказоустойчивые системы, сопровождает их, обрабатывает и анализирует сбои. Помогает увидеть уровень сервиса через SLI/SLO. Строит систему сбора логов.
Более 20 лет в ИT, из них 14 лет в разработке. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имеет опыт работы в сфере телекоммуникаций, финтеха и ретейла.
Спикер IT-конференций, член ПК DevOpsConf.
Автор телеграм-группы «ALLSO - все про SLO» https://t.me/allslo_ru. Сообщество https://github.com/ALLSLO-COMMUNITY/
Ведет свой телеграм канал «Летит Кит» про SRE и разработку https://t.me/letitkit
Сейчас - инженер по надежности в Ви.Tech, https://vitech.team
Системный инженер в прошлом, выстраивает и оптимизирует процессы, используя глубокий и разнообразный опыт из системной интеграции. Последние три года в Точка Банке занимается направлением бесперебойности и связанными с ними процессами и инструментами.
Руководит командой разработки Monium Metrics в observability платформе Яндекса. В индустрии с 2014 года, в Яндексе с 2021. В прошлом работал в геймдеве, в банках, в электронной торговле. Любит повышать надежность и производительность программных систем.