Как техническими средствами решить проблему «все работает, а пользователь недоволен» SRE-практики
Работает в департаменте бизнес-систем в МегаФон. Занимается развитием интерфейсов продаж и обслуживания биллинга.
В докладе показывается эволюция съема мониторинговых данных от систем до e2e-сервисов.
В высоконагруженных системах с большим географическим распределением, которые обслуживает распределенная команда из 800+ человек, возникают проблемы, когда операционные системы, базы данных, сервера приложений работают, но в итоге сервис, основанный на нескольких системах, не оказывается, и пользователь недоволен итоговой доступностью системы. Команды, ответственные за системы, говорят: «У нас все хорошо и все работает», пользователь говорит: «Ничего не работает».
Мы покажем, как, начиная от мониторингов отдельно взятых систем, был пройден путь мониторинга серверов, приложений до мониторинга сервиса глазами пользователя. Как на эти показатели KQI начали ориентироваться все технические специалисты, заказчики от бизнеса и вендор, поставляющий решение. В качестве визуального средства мониторинга используется grafana, в ней же построена математическая модель с прогнозом по показателям с итоговым расчетом доступности, ориентируясь на SLO и SLI.