Реальность больших кластеров и почему обычные практики тут ломаются

Мы знаем, как готовить K8s

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

devops, cloud engineer, разработчики инфраструктуры

Тезисы

Мы все привыкли к тому, что у нас есть облака и можно легко что - то задеплоить в облако.
А что делать, если мы должны задеплоить само облако, как и куда? Это неординарная техническая задача.

Дефакто стандартом индустрии стал Kubernetes, но как быть, если ваш k8s кластер такой, что kubectl get nodes выводит 5‑значное число узлов? Вот и мы в Yandex Cloud в команде Cloud Foundation Services создаем и поддерживаем кластера размером на 10 000+ нод и почему их разделить нельзя расскажу в докладе.

Деплой облака не самая тривиальная задача и в силу особенностей нашей инфраструкруры, железа, деплоя и UX, всё это ставит перед нами ряд таких задач как обслуживание, мониторинг, обновление,, а также тюнинг.
В k8s есть ряд специфичных вещей, например: etcd достаточная копризная и требовательная, а API Server не спасти масштабированием — нужны тонкая настройка и обходные пути.

Если вы DevOps/SRE с растущими кластерами, этот доклад для вас. Расскажем, как наблюдать такой кластер, когда обычные методы бессильны, и как безопасно обновлять тысячи узлов. Если вам интересно как мы решили эту задачу, или вы понимаете, что это ваше будущее приходить послушать: как масштабировать мониторинг, обновлять тысячи узлов без простоев и обходить особенности etcd и API Server.

Парамошкин Сергей Владимирович

Yandex Cloud

Обо мне в it почти 15 лет, работаю в Яндекс, а до этого 10 лет работал в МТС, руководил несколькими командами разработки.
Преподаю в ШАД и ИТМО, учу студентов кодить на Golang, так же веду вебинары в Rebrain.