Кластеры на растяжке: почему multi-DC-отказоустойчивость — это не про shared ETCD, а про здравый смысл
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Многие команды уверены, что для отказоустойчивости между двумя ЦОДами нужно растягивать кластер Kubernetes на оба дата‑центра. На практике это приводит к нестабильной работе control plane и падению сервисов при отказе одного из ЦОДов.
В докладе разберем, почему это происходит, и покажем, как достичь устойчивости сервисов без растягивания кластера — за счет проектирования на уровне приложения. Рассмотрим архитектуру, где каждый ЦОД имеет свой независимый кластер, а отказоустойчивость обеспечивается балансировкой нагрузки между ними. Поделюсь реализацией на примере реального сервиса и разберем типичные грабли.
Более 4-х лет в ИT. Первой коммерческий опыт получил в 18 лет, проработав полгода в компании Первый Бит, backend-разработчиком, затем прошел путь от системного инженера в интеграторе КРОК до ведущего DevOps-инженера в Честном Знаке. На данный момент работает в Magnit Tech, где спустя полтора года стал TeamLead, возглавив Отдел развития и эксплуатации инфраструктуры DevOps.