Healthmeter, или как измерить"Техническое здоровье" сайта

DevOps практики и культура

Devops / другое
Техдолг
DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Будет интересно руководителям инженерных команд, техлидам, CTO - расскажу как мы из одного инструмента получили и метрики уровня компании, и понятный экшн-план для инженеров

Тезисы

Доклад бросит взгляд на централизованное управление маленькими техническими несовершенствами в разных сервисах разных команд разработки. Про SLI и SLO мы все знаем, но поговорим о том, как быть, если хочется подсвечивать командам то, что может стать проблемой, но не влияет на пользователя прямо сейчас. Например, уязвимости, ошибки настройки внутренних объектов, нездоровую динамику в сервисах, техдолг и т.д. Даже если удалось все нужные данные собрать - как эту гору цифр представить командам и бизнесу, чтобы было полезно?
Расскажу как мы построили систему, в которую вписали и "несовершенства", и SLO. Увидим, как для инженеров она превращается в простой action-план, а для бизнеса - в понятные верхнеуровневые метрики.

13 лет в IT. Прошел путь от разработчика до заместителя CTO в Туту.
Отвечает за инфраструктуру, managed services и эксплуатацию: observability, алерты и процесс обработки ЧП.

Видео

Другие доклады секции

DevOps практики и культура

Мой тех.дир - cамодур!
Юлия Жерносек

Выгоревший Безработный