Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

Как жить, когда у тебя N тысяч алертов в секунду

Reliability Engineering

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад про цикл жизни систем алертинга - от самого зарождения когда только нащупываются подходы до уже зрелой системы со своим собственным флоу.

Целевая аудитория

sre, devops

Тезисы

VK - большая компания с множеством разных бизнес юнитов и продуктов, в большинстве из них, разные системы мониторинга и алертинга. В докладе я расскажу с какими вызовами мы столкнулись на пути внедрения единой системы эскалации алертов. Нырнем в прошлое и посмотрим как алерты обрабатывались годом ранее, вернемся в настоящее, и детально рассмотрим весь путь автоматизации эскалации алертов. Поделюсь с вами tips and trick, в надежде обезопасить ваш путь в автоматизацию OnCall :) И бонусом затрону тему, как маленький алерт, вырастает в большой инцидент и как мы сократили время сбора команды для устранения инцидента.

SRE. Работал инженером в телекоме, после чего ушел в финтех. Руководил командой SRE/DevOps на крупном финтех проекте. Занимался внедрением практик DevOps и инцидент-менеджмента. С 2021 года в компании VK - SRE инженер. Занимаюсь развитие практик мониторинга, алертинга, инцидент-менеджмента. Преподаватель и спикер конференций.

VK

VK — это более 200 технологичных проектов, больше 11 000 сотрудников и безграничные возможности проявить себя. Каждый день миллионы людей общаются ВКонтакте и в ОК, находят новое в Дзене, на VK Маркете и в RuStore, играют с VK Play и общаются с Марусей, предприниматели и разработчики используют решения VK Cloud и строят высоконагруженные сервисы с Tarantool. Мы делаем жизнь проще и интереснее!

Видео

Другие доклады секции

Reliability Engineering