Математика починки инцидентов
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Инциденты — это всегда стресс, который кто-то должен принимать на себя. Доступность Яндекс Такси в продакшене 99.99%, а каждая секунда инцидента уменьшает эту цифру.
Аптайм — это функция от количества инцидентов, времени их починки и влияния на пользователей. При этом время инцидента зависит от основных действий по поиску и устранению проблемы, и вспомогательных процессов по уведомлению ответственных, сбору их в едином пространстве, быстрому добавлению новых людей, а ещё общению с поддержкой и PR. Раскажу о том, как мы избавляемся от стресса во время инцидентов, учимся восстанавливать сервис в безопасных условиях, какие инструменты позволяют сэкономить время в критической ситуации и откуда берутся новые координаторы — люди, благодаря которым мы сокращаем метрики MTTR, MTTRC, MTTM.
Последние 14 лет Вадим провел в ИТ. Проектировал и разрабатывал распределенные системы, масштабировал сервисы под нагрузку, управлял командами, проектами и процессами. Сейчас занимается надежностью и устойчивостью систем.
Любит Канбан, коммуникации и Kafka. В свободное время организует митапы и конференции для Ростовского ИТ-сообщества RndTech, преподает студентам и выступает как спикер.
Яндекс
Видео
Другие доклады секции
Reliability Engineering