Работа с унаследованным кодом и системами без владельцев
— это срежиссированные тематические маршруты по конференции.
Один стрим развития - одна тема, которая раскрывается последовательно через разнообразные форматы (доклады, воркшопы, дискуссии и др.), чтобы вы получили максимально полное и практическое понимание ключевой темы.
Разрабатываете платформу, строите работу devops-команды? Большое количество стейкхолдеров и у каждого свои цели, задачи, ограничения и даже технологический стек? Вам будет полезен стрим развития о том, как учитывать в работе devops-команды интересы и процессы большого количества акторов.
Программа стрима
Открывая черный ящик: практика работы с legacy
Вам передали инфраструктуру. Документации нет, предыдущая команда недоступна, все как-то работает — и трогать страшно. Знакомо?
Мы разберем на реальных кейсах, как системно подходить к «дому с привидениями»: от первичного аудита тысячи серверов до обнаружения кубернетеса там, где его никто не ждал. Расскажем, как восстанавливать доступы не ломая прод, как мониторить то, о чем никто не знает, и как мигрировать инфру, которая разваливается прямо в руках.
Но инфра — это только половина истории. Отдельно разберем, что делать с неизвестными сервисами глазами DevOps-инженера: как понять, что вообще запущено, как это деплоится, от чего зависит и как это чинить.
Legacy-системы в 21 веке: отрезать жалко, откусить больно
Доклад будет посвящен теме поддержки унаследованных (legacy) систем в современном ландшафте. Разберем, что же такое устаревшая система, какие с ней могут быть проблемы, как принять решение о ее дальнейшей жизни, какие аргументы за ее трансформацию и против, как продлить срок жизни такой системы, если заменить ее в обозримом будущем не получится.
Автоматизируй это немедленно! Инциденты, когда на кону большие деньги
- Мы расскажем о том, как в Купере создавали процессы управления инцидентами: реакция и обработка алертов, коммуникация со смежными командами, эскалация инцидентов.
- Расскажем про формирование «Команды по спасению мира» и ее привлечение в случае критичного инцидента.
- Покажем, как у нас происходит ведение инцидента и информирование по нему: регистрация, приоритизация, оповещение. Как нам во всем этом помогают наши собственные разработки (Jarvis bot, Status Page).
- Метрики успеха для инженеров мониторинга: скорость и качество.
- Покажем интеграцию, которая сильно облегчает постмортем инцидентов.
Как мы приручали хаос логов: ML-кластеризация на пути от сырых событий к инцидентам
Мы покажем, как двухуровневая ML-кластеризация логов превращает поток сырых событий из Zabbix, Prometheus и других систем мониторинга в структурированные инциденты, снижая шум и давая наглядную картину для анализа с возможностью провалиться до конкретных событий.
Воркшоп «Тушим инцидент, а не исполняем SRE-ритуалы»
Важно! Для участия требуется ноутбук с предустановленными K8s (kubectl/lens) и WireGuard-клиентами.
В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако никто не умеет учить самому ТУШЕНИЮ инцидентов.
Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только набивая шишки.
На воркшопе мы проведем игру, правила которой поместят игроков в условия, близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.
Формат игры: всем участникам выдадут заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода, метрики и логи.
Пожалуйста, обратите внимание: видеотрансляция и запись воркшопа вестись не будут.
Круглый стол «Сервис недоступен! или Укрощаем процесс управления инцидентами»
Что делать, когда сервис падает — и падает не по расписанию? Что можно сделать, чтобы превратить хаос в отлаженный процесс, а стресс — в структурированную работу?
В формате «круглого стола» обсудим, как выстроить процесс от первого сигнала тревоги до финального разбора полетов — и что делать, чтобы следующий инцидент прошел легче. Это будет живое общение с реальным опыт участников: кейсы, провалы, находки и «фишки», которые реально работают. Никаких абстрактных теорий — только практика, цифры и честные ответы на неудобные вопросы.
Это будет настоящее погружение в мир инцидент‑менеджмента для тех, кто отвечает за стабильность IT‑систем.
Fail-митап
Конференции завалены историями успеха. Но путь к успеху всегда лежит через фейлы, о которых рассказывать не принято. Но только не на нашем fail-митапе!
В своих коротких, но зажигательных выступлениях спикеры поделятся настоящими историями фейлов. Без записи, без трансляции, без комплексов.
Пожалуйста, обратите внимание: видеотрансляция и запись мастер-класса вестись не будут.