Кластеры на растяжке: почему multi-DC отказоустойчивость — это не про shared ETCD, а про здравый смысл
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Многие команды уверены, что для отказоустойчивости между двумя ЦОДами нужно растягивать кластер Kubernetes на оба дата‑центра. На практике это приводит к нестабильной работе control plane и падению сервисов при отказе одного из ЦОДов. В докладе разберём, почему это происходит, и покажем, как достичь устойчивости сервисов без растягивания кластера — за счёт проектирования на уровне приложения. Рассмотрим архитектуру, где каждый ЦОД имеет свой независимый кластер, а отказоустойчивость обеспечивается балансировкой нагрузки между ними. Поделюсь реализацией на примере реального сервиса и разберём типичные грабли.
Более 4-х лет в IT. Первой коммерческий опыт получил в 18 лет, проработав полгода в компании Первый Бит, backend разработчиком, затем, прошел путь от системного инженера в интеграторе КРОК, до ведущего devops инженера в Честном Знаке. На данный момент работаю в Magnit Tech, где спустя полтора года, стал TeamLead, возглавив Отдел развития и эксплуатации инфраструктуры DevOps
Видео
Другие доклады секции
Platform Engineering. Архитектура платформ