Как мы в Stackland научили Kubernetes управлять локальными GPU как облачными

Мы знаем, как готовить K8s

Аппаратное обеспечение
DevOps на собственном (арендованном) оборудовании
Логи, метрики, ошибки
DevOps / Кубер
Железо
Инфраструктура

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps-инженеры, эксплуатирующие k8s с GPU, инфраструктурные разработчики, а также желающие разобраться во внутреннем устройстве инфраструктуры современных GPU-кластеров

Тезисы

Хочется крутить AI как в облаке, но у себя в контуре? А как там? Арендуешь виртуальные машины у облачного провайдера, выполняешь пару команд — и вот уже на выходе показались первые токены. При этом значительная часть современных AI-нагрузок развернута в Kubernetes.

Но что при этом происходит под капотом, и как добиться такого же пользовательского опыта в контуре компании? В докладе расскажем, как мы решаем эту задачу в Yandex Cloud Stackland.

Вместе мы последовательно переберем «слои», из которых состоит типовой GPU-кластер (оборудование и драйверы, интеграция с Kubernetes, observability, интерконнект) и в каждом случае дадим ответы на четыре вопроса:
• Как устроено взаимодействие этого слоя с предыдущим и последующим, иными словами, каков контракт?
• Какие есть опции для реализации этого контракта?
• Чем они отличаются и как выбрать из них наиболее подходящую, исходя из задачи?
• На что обратить внимание при эксплуатации

Занимается инфраструктурной разработкой с начала 2000-х, был комиттером в KDE. Последние десять лет провел в Яндексе. В Yandex Cloud с момента основания, прошел путь от разработчика до руководителя поднаправления. В разные периоды отвечал за сеть, вычислительные сервисы и системную разработку, в настоящий момент развивает инфраструктурную составляющую в проекте Yandex Cloud Stackland.

Видео

Другие доклады секции

Мы знаем, как готовить K8s

UI Лего для Kubernetes
Дмитрий Путилин

Программы Роботы и Технологии