I'll be back: как платформа управления кубов возвращается после падения ЦОДа

Platform Engineering. Архитектура платформ

DevOps и системное администрирование

Отказоустойчивость

Распределенные системы

Технологии виртуализации и контейнеризации

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Менеджмент в эксплуатации

DevOps на собственном (арендованном) оборудовании

Надёжность продакшена

Автоматизация разработки, доставки, эксплуатации

DevOps / Кубер

Инфраструктура

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Архитекторы, Администраторы, CTO, DevOps

Тезисы

Итак, ты автоматизировал управление кластерами Kubernetes через Cluster API в двух ЦОД. Конфигурации катятся из git, тебя больше никто не будит, если кто-то случайно грохнул узел у кластера - все само. Приложения переживают отказ как платформы виртуализации, так и ЦОД целиком. Но что делать, если откажет сама платформа или ЦОД, в котором она развернута?
Расскажу как реализовано в двух ЦОД в одном банке, с чем столкнулись и как повторить у себя дома.

Александр Краснов

Штурвал, Лаборатория Числитель

Проектирует и внедряет Kubernetes в Enterprise. CTO платформы «Штурвал», «Лаборатория Числитель».