Алерт. Долгое и странное путешествие
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
О чем хочется рассказать:
ВК большая компания с множеством разных БЮ, в каждом БЮ разные системы мониторинга и алертинга. В рамках доклада пройдемся от того как было, что с алертом случалось когда он зарождался и как доходил до человека, который мог починить проблемы, и как стало сейчас с внедрением автоматизации во все БЮ. Используем Grafana oncall + сильно допиливаем ее саму + вокруг выстраиваются разные вспомогательные сервисы. Какие кейсы эскалации алертов, как мы избегаем шума алертов. А также что можно еще сделать с алертом, например алерт может вырасти в полноценный инцидент, с jira таской и чатом инцидента со всеми заинтересованными лицами. Как чатом можно управлять используя бота, и какой у нас флоу инцидента в рамках автоматизации.
Старший инженер-программист в VK, проект VK Реклама. В IТ более 11 лет. Внедрял DevOps-процессы в нескольких крупных проектах.
Большой опыт построения CI/CD pipeline на базе Jenkins, планирование и развертывание инфраструктуры с нуля. Автоматизирует все, что возможно. Опыт работы SRE-lead в крупном проекте.
VK, VK Реклама
Видео
Другие доклады секции
Reliability Engineering