Кластеры на растяжке: почему multi-DC отказоустойчивость — это не про shared ETCD, а про здравый смысл

Platform Engineering. Архитектура платформ

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps-инженеры, SRE, архитекторы платформ и разработчики, работающие с Kubernetes и мульти‑цодовыми инфраструктурами.

Тезисы

Многие команды уверены, что для отказоустойчивости между двумя ЦОДами нужно растягивать кластер Kubernetes на оба дата‑центра. На практике это приводит к нестабильной работе control plane и падению сервисов при отказе одного из ЦОДов. В докладе разберём, почему это происходит, и покажем, как достичь устойчивости сервисов без растягивания кластера — за счёт проектирования на уровне приложения. Рассмотрим архитектуру, где каждый ЦОД имеет свой независимый кластер, а отказоустойчивость обеспечивается балансировкой нагрузки между ними. Поделюсь реализацией на примере реального сервиса и разберём типичные грабли.

Более 4-х лет в IT. Первой коммерческий опыт получил в 18 лет, проработав полгода в компании Первый Бит, backend разработчиком, затем, прошел путь от системного инженера в интеграторе КРОК, до ведущего devops инженера в Честном Знаке. На данный момент работаю в Magnit Tech, где спустя полтора года, стал TeamLead, возглавив Отдел развития и эксплуатации инфраструктуры DevOps

Видео

Другие доклады секции

Platform Engineering. Архитектура платформ