Кластеры на растяжке: почему multi-DC отказоустойчивость — это не про shared ETCD, а про здравый смысл
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Многие команды уверены, что для отказоустойчивости между двумя ЦОДами нужно растягивать кластер Kubernetes на оба дата‑центра. На практике это приводит к нестабильной работе control plane и падению сервисов при отказе одного из ЦОДов. В докладе разберём, почему это происходит, и покажем, как достичь устойчивости сервисов без растягивания кластера — за счёт проектирования на уровне приложения. Рассмотрим архитектуру, где каждый ЦОД имеет свой независимый кластер, а отказоустойчивость обеспечивается балансировкой нагрузки между ними. Поделюсь реализацией на примере реального сервиса и разберём типичные грабли.
Более 4-х лет в IT. Первой коммерческий опыт получил в 18 лет, проработав полгода в компании Первый Бит, backend разработчиком, затем, прошел путь от системного инженера в интеграторе КРОК, до ведущего devops инженера в Честном Знаке. На данный момент работаю в Magnit Tech, где спустя полтора года, стал TeamLead, возглавив Отдел развития и эксплуатации инфраструктуры DevOps
Видео
Другие доклады секции
Platform Engineering. Архитектура платформ