Круглый стол «Сервис недоступен! или Укрощаем процесс управления инцидентами»

Инциденты и постмортемы

Надёжность продакшена

DevOps / SRE

2 апреля, 16:40, «Зал 6»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

CIO; CTO; SRE; DevOps-специалисты и руководители.

Тезисы

Все презентации конференции

Что делать, когда сервис падает — и падает не по расписанию? Что можно сделать, чтобы превратить хаос в отлаженный процесс, а стресс — в структурированную работу?

В формате «круглого стола» обсудим, как выстроить процесс от первого сигнала тревоги до финального разбора полетов — и что делать, чтобы следующий инцидент прошел легче. Это будет живое общение с реальным опыт участников: кейсы, провалы, находки и «фишки», которые реально работают. Никаких абстрактных теорий — только практика, цифры и честные ответы на неудобные вопросы.

Это будет настоящее погружение в мир инцидент‑менеджмента для тех, кто отвечает за стабильность IT‑систем.

Максим Залысин

Sereno Systems

20 лет в IT, проходящие через призму менеджмента, разработки, системного администрирования и информационной безопасности.

Кирилл Борисов

SRE. Работал инженером в телекоме, после чего ушел в финтех. Руководил командой SRE/DevOps на крупном финтех-проекте. Занимался внедрением практик DevOps и инцидент-менеджмента. С 2021 года SRE-инженер в компании VK. Занимается развитием практик мониторинга, алертинга, инцидент-менеджмента. Преподаватель и спикер конференций.

Дмитрий Синявский

Ви.Tech

SR-инженер (SRE). Более 5 лет строит и эксплуатирует отказоустойчивые системы, сопровождает их, обрабатывает и анализирует сбои. Помогает увидеть уровень сервиса через SLI/SLO. Строит систему сбора логов.

Более 20 лет в ИT, из них 14 лет в разработке. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имеет опыт работы в сфере телекоммуникаций, финтеха и ретейла.

Спикер IT-конференций, член ПК DevOpsConf.

Автор телеграм-группы «ALLSO - все про SLO» https://t.me/allslo_ru. Сообщество https://github.com/ALLSLO-COMMUNITY/
Ведет свой телеграм канал «Летит Кит» про SRE и разработку https://t.me/letitkit

Сейчас - инженер по надежности в Ви.Tech, https://vitech.team

Максим Тупиков

Точка Банк

Системный инженер в прошлом, выстраивает и оптимизирует процессы, используя глубокий и разнообразный опыт из системной интеграции. Последние три года в Точка Банке занимается направлением бесперебойности и связанными с ними процессами и инструментами.

Станислав Каширин

Yandex Cloud

Руководит командой разработки Monium Metrics в observability платформе Яндекса. В индустрии с 2014 года, в Яндексе с 2021. В прошлом работал в геймдеве, в банках, в электронной торговле. Любит повышать надежность и производительность программных систем.