Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

Математика починки инцидентов

Reliability Engineering

Observability в enterprise
Надёжность продакшена
DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

* Инцидент-менеджеры, которые строят процессы починки. * SRE, которые чинят и создают инструменты починки.

Тезисы

Инциденты — это всегда стресс, который кто-то должен принимать на себя. Доступность Яндекс Такси в продакшене 99.99%, а каждая секунда инцидента уменьшает эту цифру.

Аптайм — это функция от количества инцидентов, времени их починки и влияния на пользователей. При этом время инцидента зависит от основных действий по поиску и устранению проблемы, и вспомогательных процессов по уведомлению ответственных, сбору их в едином пространстве, быстрому добавлению новых людей, а ещё общению с поддержкой и PR. Раскажу о том, как мы избавляемся от стресса во время инцидентов, учимся восстанавливать сервис в безопасных условиях, какие инструменты позволяют сэкономить время в критической ситуации и откуда берутся новые координаторы — люди, благодаря которым мы сокращаем метрики MTTR, MTTRC, MTTM.

Последние 14 лет Вадим провел в ИТ. Проектировал и разрабатывал распределенные системы, масштабировал сервисы под нагрузку, управлял командами, проектами и процессами. Сейчас занимается надежностью и устойчивостью систем.

Любит Канбан, коммуникации и Kafka. В свободное время организует митапы и конференции для Ростовского ИТ-сообщества RndTech, преподает студентам и выступает как спикер.

Яндекс

Опираясь на собственный опыт и опыт профессионального сообщества, мы создаем новые продукты, которые сохраняют время, деньги и нервные клетки бизнесменам и их сотрудникам по всей стране. Мы чувствуем себя частью команды, потому что нас окружают люди, близкие по духу и ценностям. Мы развиваемся и обмениваемся опытом в компании и за ее пределами. Не боимся ошибок, а учимся на них. Болеем за процветание своего дела и всей сферы, поэтому делимся опытом с новым поколением специалистов, вкладывая ресурсы в их обучение.

Видео

Другие доклады секции

Reliability Engineering