Алерт. Долгое и странное путешествие
Доклад принят в программу конференции
Целевая аудитория
Тезисы
ВК - большая компания с множеством разных БЮ, в каждом БЮ разные системы мониторинга и алертинга. В рамках доклада пройдемся от того, как было, что с алертом случалось, когда он зарождался и как доходил до человека, который мог починить проблемы, и как стало сейчас с внедрением автоматизации во все БЮ. Используем Grafana oncall + сильно допиливаем ее саму + вокруг выстраиваем разные вспомогательные сервисы. Обсудим, какие кейсы эскалации алертов, как мы избегаем шума алертов, а также что можно еще сделать с алертом. Например, алерт может вырасти в полноценный инцидент, с jira-таской и чатом инцидента со всеми заинтересованными лицами. Рассмотрим, как чатом можно управлять используя бота и какой у нас флоу инцидента в рамках автоматизации.
Старший инженер-программист в VK, проект VK Реклама. В IТ более 11 лет. Внедрял DevOps-процессы в нескольких крупных проектах.
Большой опыт построения CI/CD pipeline на базе Jenkins, планирование и развертывание инфраструктуры с нуля. Автоматизирует все, что возможно. Опыт работы SRE-lead в крупном проекте.
VK, VK Реклама
Видео
Другие доклады секции
Reliability Engineering