🤝🌱Математика починки инцидентов

Reliability Engineering

Observability в enterprise
Надёжность продакшена
DevOps / SRE

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Время — наш злейший враг, а особенно когда идет большой инцидент. За счет каких механизмов и процессов можно уменьшить время на каждом их этапов инцидента, узнаете в докладе.

Целевая аудитория

* Инцидент-менеджеры, которые строят процессы починки. * SRE, которые чинят и создают инструменты починки.

Тезисы

Аптайм — это функция от количества инцидентов, времени их устранения и влияния на пользователей. При этом продолжительность инцидента зависит от основных действий по поиску и устранению проблемы, вспомогательных процессов по уведомлению ответственных, сбору их в едином пространстве, быстрому добавлению новых людей, а ещё общению с поддержкой и PR. И починку можно рассматривать как алгоритм действий, который можно оптимизировать глобально или проводить локальные оптимизации в самых проблемных местах.

В докладе разложим весь процесс — от возникновения триггера инцидента до полного восстановления сервиса — на отдельные действия и попробуем оптимизировать каждый этап, чтобы уменьшить общее время инцидентов в продукте. С процентилями, распределением вероятностей и визуализацией влияния отдельных действий на метрики времени починки ваших инцидентов.

Последние 14 лет Вадим провел в IТ. Проектировал и разрабатывал распределенные системы, масштабировал сервисы под нагрузку, управлял командами, проектами и процессами. Сейчас занимается надежностью и устойчивостью систем.

Любит Канбан, коммуникации и Kafka. В свободное время организует митапы и конференции для Ростовского IТ-сообщества RndTech, преподает студентам и выступает как спикер.

Яндекс

Яндекс — международная IT-компания, которая более 25 лет создаёт продукты на основе машинного обучения и нейросетей. В экосистеме более 90 сервисов и продуктов. Например, платформа Yandex Cloud и фундамент из продуктов и технологий Yandex Infrastructure, опенсорс-проекты YDB, YTsaurus. А ещё поисковые, геоинформационные и рекламные сервисы и технологии в умных устройствах и автономном транспорте. Среди них — Поиск с Нейро, Браузер, Алиса, Карты, Ecom-сценарии, Директ, Погода и Шедеврум.

Видео

Другие доклады секции

Reliability Engineering