Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

7 и 8 апреля 2025

Москва

Математика починки инцидентов

Reliability Engineering

Observability в enterprise
Надёжность продакшена
DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

* Инцидент-менеджеры, которые строят процессы починки. * SRE, которые чинят и создают инструменты починки.

Тезисы

Аптайм — это функция от количества инцидентов, времени их починки и влияния на пользователей. При этом время инцидента зависит от основных действий по поиску и устранению проблемы, и вспомогательных процессов по уведомлению ответственных, сбору их в едином пространстве, быстрому добавлению новых людей, а ещё общению с поддержкой и PR. И починку можно рассматривать как алгоритм действий, который можно оптимизировать глобально или проводить локальные оптимизации в самых проблемных местах.

В докладе разложим весь процесс от возникновения триггера инцидента до полного восстановления сервиса на отдельные действия и попробуем оптимизировать каждый этап чтобы уменьшить общее время инцидентов в продукте. С процентилями, распределением вероятностей и визуализацией влияния отдельных действий на распределение времени починки ваших инцидентов.

Последние 14 лет Вадим провел в ИТ. Проектировал и разрабатывал распределенные системы, масштабировал сервисы под нагрузку, управлял командами, проектами и процессами. Сейчас занимается надежностью и устойчивостью систем.

Любит Канбан, коммуникации и Kafka. В свободное время организует митапы и конференции для Ростовского ИТ-сообщества RndTech, преподает студентам и выступает как спикер.

Яндекс

Опираясь на собственный опыт и опыт профессионального сообщества, мы создаем новые продукты, которые сохраняют время, деньги и нервные клетки бизнесменам и их сотрудникам по всей стране. Мы чувствуем себя частью команды, потому что нас окружают люди, близкие по духу и ценностям. Мы развиваемся и обмениваемся опытом в компании и за ее пределами. Не боимся ошибок, а учимся на них. Болеем за процветание своего дела и всей сферы, поэтому делимся опытом с новым поколением специалистов, вкладывая ресурсы в их обучение.

Видео

Другие доклады секции

Reliability Engineering