Кластеры на растяжке: почему multi-DC-отказоустойчивость — это не про shared ETCD, а про здравый смысл

Резерв

Доклад принят в программу конференции

Целевая аудитория

DevOps-инженеры, SRE, архитекторы платформ и разработчики, работающие с Kubernetes и мульти‑цодовыми инфраструктурами.

Тезисы

Многие команды уверены, что для отказоустойчивости между двумя ЦОДами нужно растягивать кластер Kubernetes на оба дата‑центра. На практике это приводит к нестабильной работе control plane и падению сервисов при отказе одного из ЦОДов.

В докладе разберем, почему это происходит, и покажем, как достичь устойчивости сервисов без растягивания кластера — за счет проектирования на уровне приложения. Рассмотрим архитектуру, где каждый ЦОД имеет свой независимый кластер, а отказоустойчивость обеспечивается балансировкой нагрузки между ними. Поделюсь реализацией на примере реального сервиса и разберем типичные грабли.

Николай Асеев

MAGNIT TECH

Более 4-х лет в ИT. Первой коммерческий опыт получил в 18 лет, проработав полгода в компании Первый Бит, backend-разработчиком, затем прошел путь от системного инженера в интеграторе КРОК до ведущего DevOps-инженера в Честном Знаке. На данный момент работает в Magnit Tech, где спустя полтора года стал TeamLead, возглавив Отдел развития и эксплуатации инфраструктуры DevOps.