Как мы научили ML группировать 50 000 событий в инциденты
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
L1-инженеры 50 000 раз в сутки решают что делать с событием мониторинга — добавить к открытому инциденту или создать новый, а может добавить к только что закрытому или вообще это просто шум. А может случился экосистемный сбой и нужно оповестить большую часть из 500 наших продуктов.
В докладе мы расскажем зачем мы решили автоматизировать группировку событий мониторинга, как мы внедряли изменение, что это нам дало и какими Open Source решениями нам удалось достигнуть точности выше 80%.
Извлекаю информацию из данных в разных контекстах: экспериментальная физика ядерных столкновений, финансовые временные ряды, люди и маркетинг, события в инфраструктуре MTC. PhD по физике, Университет Стони-Брук. Бегаю, гуляю пешком, слушаю классический джаз, радуюсь от хорошей архитектуры, дизайна и живописи.
МТС Диджитал
Руководитель экосистемной команды поддержки в МТС. Разрабатываю с коллегами инструменты и методики на базе ITIL, который позволяют обеспечивать надежность для 500 продуктов МТС.
МТС Диджитал
Видео
Другие доклады секции
Reliability Engineering