🌱Как жить, когда у тебя N тысяч алертов в секунду

Reliability Engineering

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад про цикл жизни систем алертинга — от самого зарождения, когда только нащупываются подходы, до уже зрелой системы со своим собственным флоу.

Целевая аудитория

SRE, DevOps.

Тезисы

VK — большая компания с множеством разных бизнес-юнитов и продуктов, в большинстве из них разные системы мониторинга и алертинга.

В докладе я расскажу, с какими вызовами мы столкнулись на пути внедрения единой системы эскалации алертов. Нырнем в прошлое и посмотрим, как алерты обрабатывались годом ранее, вернемся в настоящее и детально рассмотрим весь путь автоматизации эскалации алертов. Поделюсь с вами tips and trick в надежде обезопасить ваш путь в автоматизацию OnCall :) И бонусом затрону тему, как маленький алерт вырастает в большой инцидент, и расскажу, как мы сократили время сбора команды для устранения инцидента.

SRE. Работал инженером в телекоме, после чего ушел в финтех. Руководил командой SRE/DevOps на крупном финтех-проекте. Занимался внедрением практик DevOps и инцидент-менеджмента. С 2021 года SRE-инженер в компании VK. Занимается развитием практик мониторинга, алертинга, инцидент-менеджмента. Преподаватель и спикер конференций.

VK

VK развивает более 200 высоконагруженных проектов, которыми пользуются миллионы людей. Они общаются и развлекаются ВКонтакте и в ОК, находят новое в Дзене, VK Видео, VK Музыке и RuStore, а инструменты СМБ и продукты VK Tech помогают расти бизнесу. И это лишь часть продуктов.

Видео

Другие доклады секции

Reliability Engineering