Воркшоп «Observability: system design»

Воркшопы

Логирование и мониторинг

Управление инцидентами

Observability в enterprise

Логи, метрики, ошибки

3 апреля, 15:40, «Зал 6»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

* DevOps‑инженеры. * SRE (Site Reliability Engineers). * Platform/Infrastructure инженеры. * Backend‑разработчики, которые участвуют в поддержке сервисов. * Архитекторы, отвечающие за надежность и масштабируемость.

Тезисы

Скачать презентацию Все презентации конференции

В рамках интерактивного воркшопа участники в режиме реального времени будут проектировать архитектуру наблюдаемости для разных типов продуктов. Участники объединятся в небольшие команды, каждая из которых получит собственный кейс: описание продукта и инцидента, требующего анализа.

Команды должны будут: * определить ключевые сигналы наблюдаемости; * выбрать подходящие инструменты и метрики; * спроектировать архитектуру логирования, метрик и трассировок; * предложить план реагирования и улучшения системы.

Формат построен так, чтобы участники не просто слушали, а практически моделировали оbservability‑решения, сталкиваясь с реальными ограничениями и компромиссами.

Денис Анатольев

BostonGene

Более 10 лет стажа в роли системного инженера и уже 5 лет в ИT-менеджменте. Специализация — на построении команд мониторинга и поддержки с нуля.

Сергей Реусин

Т-Банк

SRE Lead. 5 лет непрерывной практики эксплуатации production-систем, проектирования отказоустойчивых систем, борьбы со сбоями и их качественного анализа.

Кирилл Борисов

SRE. Работал инженером в телекоме, после чего ушел в финтех. Руководил командой SRE/DevOps на крупном финтех-проекте. Занимался внедрением практик DevOps и инцидент-менеджмента. С 2021 года SRE-инженер в компании VK. Занимается развитием практик мониторинга, алертинга, инцидент-менеджмента. Преподаватель и спикер конференций.

Максим Бурцев

Купер.тех

За 4 с лишним года в Купере прошел путь от инженера мониторинга до руководителя отдела мониторинга: решал инциденты, проводил постмортемы, строил процессы вокруг инцидентов и проблем, а теперь целиком отвечает за последнюю милю наблюдаемости и решение критических инцидентов одного из самых нагруженных e-com в России.

Кирилл Гриднев

Купер.тех

В Купере работает почти 5 лет. Начинал на позиции инженера поддержки (L2), вырос в инженера мониторинга, а оттуда в ведущего инженера мониторинга.
Решал и помогал решать инциденты, проводил анализ проблем. Автоматизирует процессы и инциденты.