Реальность больших кластеров и почему обычные практики тут ломаются
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Мы все привыкли к тому, что у нас есть облака и можно легко что - то задеплоить в облако.
А что делать, если мы должны задеплоить само облако, как и куда? Это неординарная техническая задача.
Дефакто стандартом индустрии стал Kubernetes, но как быть, если ваш k8s кластер такой, что kubectl get nodes выводит 5‑значное число узлов? Вот и мы в Yandex Cloud в команде Cloud Foundation Services создаем и поддерживаем кластера размером на 10 000+ нод и почему их разделить нельзя расскажу в докладе.
Деплой облака не самая тривиальная задача и в силу особенностей нашей инфраструкруры, железа, деплоя и UX, всё это ставит перед нами ряд таких задач как обслуживание, мониторинг, обновление,, а также тюнинг.
В k8s есть ряд специфичных вещей, например: etcd достаточная копризная и требовательная, а API Server не спасти масштабированием — нужны тонкая настройка и обходные пути.
Если вы DevOps/SRE с растущими кластерами, этот доклад для вас. Расскажем, как наблюдать такой кластер, когда обычные методы бессильны, и как безопасно обновлять тысячи узлов. Если вам интересно как мы решили эту задачу, или вы понимаете, что это ваше будущее приходить послушать: как масштабировать мониторинг, обновлять тысячи узлов без простоев и обходить особенности etcd и API Server.
Обо мне в it почти 15 лет, работаю в Яндекс, а до этого 10 лет работал в МТС, руководил несколькими командами разработки.
Преподаю в ШАД и ИТМО, учу студентов кодить на Golang, так же веду вебинары в Rebrain.
Видео
Другие доклады секции
Мы знаем, как готовить K8s