🏋🏻‍♂️Как мы научили ML группировать 50 000 событий в инциденты

Применение ИИ в Devops

Логирование и мониторинг

Управление инцидентами

Observability в enterprise

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

ML сейчас везде, но нужно уметь его правильно готовить. Данный доклад поможет вам увидеть пользу его применения при работе с инцидентами в большой инфраструктуре.

Целевая аудитория

Инженеры в области надежности, инженеры ITSM, системные инженеры, ML-инженеры, Data Scientists.

Тезисы

Скачать презентацию Все презентации конференции

L1-инженеры 50 000 раз в сутки решают, что делать с событием мониторинга — добавить к открытому инциденту или создать новый, а может, добавить к только что закрытому или вообще это просто шум. А, может, случился экосистемный сбой, и нужно оповестить большую часть из 500 наших продуктов.

В докладе мы расскажем, зачем мы решили автоматизировать группировку событий мониторинга, как мы внедряли изменение, что это нам дало и какими Open Source-решениями нам удалось достигнуть точности выше 80%.

Михаил Копытин

МТС Диджитал

Извлекает информацию из данных в разных контекстах: экспериментальная физика ядерных столкновений, финансовые временные ряды, люди и маркетинг, события в инфраструктуре MTC. PhD по физике, Университет Стони-Брук.

Бегает, гуляет пешком, слушает классический джаз, радуется от хорошей архитектуры, дизайна и живописи.

МТС Диджитал

МТС — мультисервисная цифровая экосистема и ведущий телеком-оператор в России. Компания развивает сервисы и продукты в сфере больших данных, искусственного интеллекта, облачного хранения, медиа и финансов, телекоммуникаций. Штат IT-специалистов превышает 10 тыс. человек.

Евгений Лачугин

МТС Диджитал

Руководитель экосистемной команды поддержки в МТС. Разрабатывает с коллегами инструменты и методики на базе ITIL, которые позволяют обеспечивать надежность для 500 продуктов МТС.

МТС Диджитал