Математика починки инцидентов
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Аптайм — это функция от количества инцидентов, времени их починки и влияния на пользователей. При этом время инцидента зависит от основных действий по поиску и устранению проблемы, и вспомогательных процессов по уведомлению ответственных, сбору их в едином пространстве, быстрому добавлению новых людей, а ещё общению с поддержкой и PR. И починку можно рассматривать как алгоритм действий, который можно оптимизировать глобально или проводить локальные оптимизации в самых проблемных местах.
В докладе разложим весь процесс от возникновения триггера инцидента до полного восстановления сервиса на отдельные действия и попробуем оптимизировать каждый этап чтобы уменьшить общее время инцидентов в продукте. С процентилями, распределением вероятностей и визуализацией влияния отдельных действий на распределение времени починки ваших инцидентов.
Последние 14 лет Вадим провел в ИТ. Проектировал и разрабатывал распределенные системы, масштабировал сервисы под нагрузку, управлял командами, проектами и процессами. Сейчас занимается надежностью и устойчивостью систем.
Любит Канбан, коммуникации и Kafka. В свободное время организует митапы и конференции для Ростовского ИТ-сообщества RndTech, преподает студентам и выступает как спикер.
Яндекс
Видео
Другие доклады секции
Reliability Engineering