Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации
30 сентября
и 1 октября 2019
Москва, Инфопространство

Как техническими средствами решить проблему «все работает, а пользователь недоволен» SRE-практики

Доклад принят в программу конференции
Даниил Тихомиров
МегаФон

Работает в департаменте бизнес-систем в МегаФон. Занимается развитием интерфейсов продаж и обслуживания биллинга.

Тезисы

В докладе показывается эволюция съема мониторинговых данных от систем до e2e-сервисов.

В высоконагруженных системах с большим географическим распределением, которые обслуживает распределенная команда из 800+ человек, возникают проблемы, когда операционные системы, базы данных, сервера приложений работают, но в итоге сервис, основанный на нескольких системах, не оказывается, и пользователь недоволен итоговой доступностью системы. Команды, ответственные за системы, говорят: «У нас все хорошо и все работает», пользователь говорит: «Ничего не работает».

Мы покажем, как, начиная от мониторингов отдельно взятых систем, был пройден путь мониторинга серверов, приложений до мониторинга сервиса глазами пользователя. Как на эти показатели KQI начали ориентироваться все технические специалисты, заказчики от бизнеса и вендор, поставляющий решение. В качестве визуального средства мониторинга используется grafana, в ней же построена математическая модель с прогнозом по показателям с итоговым расчетом доступности, ориентируясь на SLO и SLI.

Логирование и мониторинг
,
Менеджмент в эксплуатации
,
Корпоративная культура и мотивация
,
Работа со внешним заказчиком/исполнителем

Другие доклады секции SRE-практики