Работа с унаследованным кодом и системами без владельцев

Cтрим развития

— это срежиссированные тематические маршруты по конференции.

Один стрим развития - одна тема, которая раскрывается последовательно через разнообразные форматы (доклады, воркшопы, дискуссии и др.), чтобы вы получили максимально полное и практическое понимание ключевой темы.

Разрабатываете платформу, строите работу devops-команды? Большое количество стейкхолдеров и у каждого свои цели, задачи, ограничения и даже технологический стек? Вам будет полезен стрим развития о том, как учитывать в работе devops-команды интересы и процессы большого количества акторов.

Программа стрима

2 апреля, 10:00 - 10:50, Зал 6

Открывая черный ящик: практика работы с legacy

Вам передали инфраструктуру. Документации нет, предыдущая команда недоступна, все как-то работает — и трогать страшно. Знакомо?

Мы разберем на реальных кейсах, как системно подходить к «дому с привидениями»: от первичного аудита тысячи серверов до обнаружения кубернетеса там, где его никто не ждал. Расскажем, как восстанавливать доступы не ломая прод, как мониторить то, о чем никто не знает, и как мигрировать инфру, которая разваливается прямо в руках.

Но инфра — это только половина истории. Отдельно разберем, что делать с неизвестными сервисами глазами DevOps-инженера: как понять, что вообще запущено, как это деплоится, от чего зависит и как это чинить.

Евгений Трифонов

ITSumma

2 апреля, 11:10 - 12:00, Зал 6

Legacy-системы в 21 веке: отрезать жалко, откусить больно

Доклад будет посвящен теме поддержки унаследованных (legacy) систем в современном ландшафте. Разберем, что же такое устаревшая система, какие с ней могут быть проблемы, как принять решение о ее дальнейшей жизни, какие аргументы за ее трансформацию и против, как продлить срок жизни такой системы, если заменить ее в обозримом будущем не получится.

Михаил Климов

Axenix

2 апреля, 12:20 - 13:10, Зал 6

Автоматизируй это немедленно! Инциденты, когда на кону большие деньги

Мы расскажем о том, как в Купере создавали процессы управления инцидентами: реакция и обработка алертов, коммуникация со смежными командами, эскалация инцидентов.
Расскажем про формирование «Команды по спасению мира» и ее привлечение в случае критичного инцидента.
Покажем, как у нас происходит ведение инцидента и информирование по нему: регистрация, приоритизация, оповещение. Как нам во всем этом помогают наши собственные разработки (Jarvis bot, Status Page).
Метрики успеха для инженеров мониторинга: скорость и качество.
Покажем интеграцию, которая сильно облегчает постмортем инцидентов.

Дарья Попова

Купер.тех

Алексей Глотов

Купер.тех

2 апреля, 13:20 - 14:10, Зал 6

Как мы приручали хаос логов: ML-кластеризация на пути от сырых событий к инцидентам

Мы покажем, как двухуровневая ML-кластеризация логов превращает поток сырых событий из Zabbix, Prometheus и других систем мониторинга в структурированные инциденты, снижая шум и давая наглядную картину для анализа с возможностью провалиться до конкретных событий.

Никита Гладких

Prooftech IT

2 апреля, 14:20 - 16:20, Зал 6

Воркшоп «Тушим инцидент, а не исполняем SRE-ритуалы»

Важно! Для участия требуется ноутбук с предустановленными K8s (kubectl/lens) и WireGuard-клиентами.

В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако никто не умеет учить самому ТУШЕНИЮ инцидентов.

Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только набивая шишки.

На воркшопе мы проведем игру, правила которой поместят игроков в условия, близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.

Формат игры: всем участникам выдадут заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода, метрики и логи.

Пожалуйста, обратите внимание: видеотрансляция и запись воркшопа вестись не будут.

Даниил Казаков

keep-alive.ru

2 апреля, 16:40 - 17:30, Зал 6

Круглый стол «Сервис недоступен! или Укрощаем процесс управления инцидентами»

Что делать, когда сервис падает — и падает не по расписанию? Что можно сделать, чтобы превратить хаос в отлаженный процесс, а стресс — в структурированную работу?

В формате «круглого стола» обсудим, как выстроить процесс от первого сигнала тревоги до финального разбора полетов — и что делать, чтобы следующий инцидент прошел легче. Это будет живое общение с реальным опыт участников: кейсы, провалы, находки и «фишки», которые реально работают. Никаких абстрактных теорий — только практика, цифры и честные ответы на неудобные вопросы.

Это будет настоящее погружение в мир инцидент‑менеджмента для тех, кто отвечает за стабильность IT‑систем.

Максим Залысин

Sereno Systems

Кирилл Борисов

Дмитрий Синявский

Ви.Tech

Максим Тупиков

Точка Банк

Станислав Каширин

Yandex Cloud

2 апреля, 17:50 - 18:50, Зал 6

Fail-митап

Конференции завалены историями успеха. Но путь к успеху всегда лежит через фейлы, о которых рассказывать не принято. Но только не на нашем fail-митапе!

В своих коротких, но зажигательных выступлениях спикеры поделятся настоящими историями фейлов. Без записи, без трансляции, без комплексов.

Пожалуйста, обратите внимание: видеотрансляция и запись мастер-класса вестись не будут.