Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

Метрики для метрик: Опыт выстраивания SLOs/SLIs для платформы мониторинга

Reliability Engineering

Базы данных / другое
Распределенные системы
Логирование и мониторинг
Хранилища

Доклад принят в программу конференции

Целевая аудитория

SRE, Менеджеры продукта, архитектора, разработчики

Тезисы

Уже давно не секрет, что в Т-Банке есть своя observability-платформа Sage.
Внутри банка мы предоставляем сервис мониторинга, у которого ежедневно более 7000 активных пользователей(DAU).

И как это принято, у нас есть SLA с нашими пользователями, но "как понять предоставляем ли мы сейчас услугу или нет?" - именно с этого вопроса начинается мой рассказ о построении SLOs/SLIs для нашей платформы Sage. Метрики для метрик.

На примере подсистемы метрик в Sage, из моего доклада вы узнаете:
* какой подход мы применили к пониманию критериев надежности и как мы его масштабировали;
* как мы работали с нашими клиентами, чтобы выявить их ожидания от нашей надежности;
* как мы строили SLOs/SLIs;
* как выглядит архитектура подсистема метрик в Sage на сегодняшний день

Доклад будет интересен как экспертам, так и людям, которые только погружаются в тему надежности и построения SLOs/SLIs

Опыт в IT более 15 лет. Последние несколько лет является SRE-инженером в Т-Банке в команде Sage.

За свою карьеру успешно выполнял различные роли, в том числе разработчика, архитектора и управленца. Как правило, всегда работает над задачами с высокой неопределенностью.

https://www.linkedin.com/in/ruslan-boyarskiy/

T-Банк

Команда Т-Банка — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Т-Банк развивает IT-индустрию, поддерживает комьюнити и делится экспертизой.

Видео

Другие доклады секции

Reliability Engineering