Строим APM‑систему поверх observability‑платформы

DevOps практики и культура

Логирование и мониторинг
Observability в enterprise
Логи, метрики, ошибки
DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

SRE-инженеры, отвечающие за наблюдаемость, пользующиеся Observability-решениями и строящие их. Команды, которые хотят проактивно находить проблемы до того, как они повлияют на пользователей и ищут как сделать поиск руткоза проще и быстрее. Разработчики IDP потому что Intelligent APM лучше всего ложится именно сюда.

Тезисы

Современные observability-платформы дают нам детальную видимость в системы и быструю навигацию между разными типами телеметрии. Благодаря этому можно понять не только как работает система, но и почему она находится в таком состоянии сейчас.

Но есть проблема — поиск корневой причины всё ещё выглядит навигацией между дашбордами, логами, трассировками и алертами. Observability-платформа позволяет ускорить эту навигацию, но не избавляет от неё.

А нам всё ещё нужно быстро найти руткоз. Давайте разберемся, как превратить observability-платформу в интеллектуальную систему APM, которая решает сразу несколько задач:
* Даёт быстрый старт в новом окружении и замониторенность из коробки.
* Автоматизирует drilldown сценарии и поиск корневых причин.
* В конечном счёте сокращает TTRC/TTR в инцидентах.

Последние 14 лет Вадим провел в IТ. Проектировал и разрабатывал распределенные системы, масштабировал сервисы под нагрузку, управлял командами, проектами и процессами. Сейчас занимается надежностью и устойчивостью систем.

Любит Канбан, коммуникации и Kafka. В свободное время организует митапы и конференции для Ростовского IТ-сообщества RndTech, преподает студентам и выступает как спикер.

Видео

Другие доклады секции

DevOps практики и культура

Мой тех.дир - cамодур!
Юлия Жерносек

Выгоревший Безработный