Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

Как мы научили ML группировать 50 000 событий в инциденты

Reliability Engineering

Логирование и мониторинг
Управление инцидентами
Observability в enterprise

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Инженеры в области надежности, инженеры ITSM, системные инженеры, ML-инженеры, Data Scientists.

Тезисы

L1-инженеры 50 000 раз в сутки решают что делать с событием мониторинга — добавить к открытому инциденту или создать новый, а может добавить к только что закрытому или вообще это просто шум. А может случился экосистемный сбой и нужно оповестить большую часть из 500 наших продуктов.

В докладе мы расскажем зачем мы решили автоматизировать группировку событий мониторинга, как мы внедряли изменение, что это нам дало и какими Open Source решениями нам удалось достигнуть точности выше 80%.

Копытин Михаил

МТС Диджитал

Извлекаю информацию из данных в разных контекстах: экспериментальная физика ядерных столкновений, финансовые временные ряды, люди и маркетинг, события в инфраструктуре MTC. PhD по физике, Университет Стони-Брук. Бегаю, гуляю пешком, слушаю классический джаз, радуюсь от хорошей архитектуры, дизайна и живописи.

МТС Диджитал

МТС - экосистемная компания, предоставляющая телекоммуникационные, финтех, облачные и прочие услуги, цифровые и медийные сервисы в России, Армении и Белоруси.
Лачугин Евгений

МТС Диджитал

Руководитель экосистемной команды поддержки в МТС. Разрабатываю с коллегами инструменты и методики на базе ITIL, который позволяют обеспечивать надежность для 500 продуктов МТС.

МТС Диджитал

МТС - экосистемная компания, предоставляющая телекоммуникационные, финтех, облачные и прочие услуги, цифровые и медийные сервисы в России, Армении и Белоруси.

Видео

Другие доклады секции

Reliability Engineering