Healthmeter, или как измерить"Техническое здоровье" сайта

DevOps практики и культура

Devops / другое

Техдолг

DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Будет интересно руководителям инженерных команд, техлидам, CTO - расскажу как мы из одного инструмента получили и метрики уровня компании, и понятный экшн-план для инженеров

Тезисы

Доклад бросит взгляд на централизованное управление маленькими техническими несовершенствами в разных сервисах разных команд разработки. Про SLI и SLO мы все знаем, но поговорим о том, как быть, если хочется подсвечивать командам то, что может стать проблемой, но не влияет на пользователя прямо сейчас. Например, уязвимости, ошибки настройки внутренних объектов, нездоровую динамику в сервисах, техдолг и т.д. Даже если удалось все нужные данные собрать - как эту гору цифр представить командам и бизнесу, чтобы было полезно?
Расскажу как мы построили систему, в которую вписали и "несовершенства", и SLO. Увидим, как для инженеров она превращается в простой action-план, а для бизнеса - в понятные верхнеуровневые метрики.

Андрей Борзов

Туту

13 лет в IT. Прошел путь от разработчика до заместителя CTO в Туту.
Отвечает за инфраструктуру, managed services и эксплуатацию: observability, алерты и процесс обработки ЧП.

Видео

Другие доклады секции

DevOps практики и культура

TechRadar 2.0: Как построить единую платформу управления технологиями для всего банка

Джавид Алимли

Райффайзен Банк

RPS пошёл, а я - нет: когда и почему одного балансировщика может быть мало

Максим Каменский

Островок!

Сравнение эффективности различных Security сканеров

Олег Казаков

Spectr

PIплайны для 1С: от хранилища к Git и стабильным релизам

Павел Старков

Группа компаний ЯДРО

«Посмотри тут» или как сделать поддержку техплатформы приятной

Владислав Сикач

Авито

Разработка CLI утилит на Go для DevOps и SRE

Рустам Курамшин

MAGNIT TECH

DockerOps: Git + Docker - это всё, что вам надо

Александр Николаев

Visiology

Динамический инвентарь для Ansible: как избавиться от тысяч строк YAML и не потерять контроль

Балаева Анна Дмитриевна

VK Tech, Tarantool

Политика в Kubernetes: демократия или тирания

Ильдар Нуруллин

МойОфис

🤝Как избежать «тестового ада» и сэкономить ресурсы с помощью умных стендов

Андрей Трегубов

Ви.Tech

Мой тех.дир - cамодур!

Юлия Жерносек

Выгоревший Безработный

Как запустить и адаптировать приложения в K8s, когда есть только код и инженеру приходится делает все

Михаил Лавренчук

VK Tech

Централизация Git-инфраструктуры в крупной продуктовой компании

Владислав Мещеряков

VK, ВКонтакте

Как велосипеды уменьшают MTTR? Как использовать LLM в инцидентах

Андрей Матвеев

Яндекс

Как безболезненно перенести инфраструктуру на новый хостинг: от Docker до Kubernetes

Радмир Гатауллин

AvantIT

О платформе Marketplace с готовыми решениями для инженера с возможностью публикации своего решения

Виталий Рале

Райффайзен банк

Тысяча и один способ взлома метрик в IT на примере DORA

Дмитрий Панычев

Magnit OMNI

ChatOps платформа Туту

Андрей Борзов

Туту

«Локальный ИИ в контуре CI/CD: Автономная генерация автотестов API и событий

Круглова Анна

Диасофт

Как SLO водят вас за нос

Дмитрий Синявский

Ви.Tech

Работа с инцидентами в Туту

Андрей Борзов

Туту

Строим APM‑систему поверх observability‑платформы

Вадим Мартынов

Яндекс

Легенда о создании DRP и прохождении DRT, миф или реальность.

Владимир Перфильев

МТС Диджитал

Ansible, Puppet, Chef, SaltStack: зачем и как тестировать SCM?

Андрей Колесников

Авито

Управление секретами в эпоху GitOps: как передавать конфиденциальные данные, не ломая подход

Дмитрий Горелко

K2 Cloud

Надежность PostgreSQL в Kubernetes: сравниваем подходы операторов к бэкапам и восстановлению

Иван Архипов

Яндекс.Облако

Elixir в пайплайнах: ускоряем CI/CD

Константин Самутичев

Гринатом

Low-code в enterprise: Управление конфигурациями для 100+ команд и 2000+ daily деплоев

Михайлов Андрей

Диасофт

🌱Скалируем раннеры с Nomad

Владимир Радонец

Синимекс

Нельзя просто взять и отключить AZ: проводим учения в публичном облаке без привлечения санитаров

Константин Крамлих

Yandex Cloud

Time to Market как стратегическая метрика инженерных практик

Сергей Пищуленок

Райффайзен Банк

Как мы дошли до арги такой

Михаил Кажемский

Банк 131

Инженеры не плачут: как UX помогает создавать лучшие продукты для DevOps и инженерных команд

Мария Летта

Группа компаний "Гарда"

Как я выкинул istio и перешл на linkerd

Василий Озеров

rebrain

Infrastructure as Code с нуля: как уйти от ручного управления инфраструктурой с помощью OpenTofu

Кирилл Яшин

YADRO

Единый GitOps: как объединить deploy и поддержать канарейки

Куликов Илья Владимирович

Столото

Добавляем стероиды в мониторинг с eBPF

Дмитрий Самохвалов

К2Тех

DevOps Community: от идеи до движения

Евгений Харченко

Райффайзен Банк

Мастер-класс "Создание дистрибутива Linux"

Алексей Веснин

HyperSphere

AI-анализатор состояния Kubernetes. Опыт интеграции с gitlab-ci

Анастасия Калугина

MTS Web Services

Как собирать 1 млн логов в секунду через vector, хранить и быстро искать в clickhouse.

Александр Казанцев

hh.ru

From Person to Process: история одной оптимизации

Киевский Сергей

X5 Tech

Микросервис по кнопке. Экономим месяцы на поднятии новых микросервисов и их эксплуатации

Пинчук Денис

Яндекс 360

SAST, ГОСТ, и нормативки рост

Антон Третьяков

PVS-Studio

Vector.dev: упрощаем CI/CD для агрегаторов с Ansible ролью

Дмитрий Синявский

Ви.Tech