Как мы в Stackland научили Kubernetes управлять локальными GPU как облачными
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Хочется крутить AI как в облаке, но у себя в контуре? А как там? Арендуешь виртуальные машины у облачного провайдера, выполняешь пару команд — и вот уже на выходе показались первые токены. При этом значительная часть современных AI-нагрузок развернута в Kubernetes.
Но что при этом происходит под капотом, и как добиться такого же пользовательского опыта в контуре компании? В докладе расскажем, как мы решаем эту задачу в Yandex Cloud Stackland.
Вместе мы последовательно переберем «слои», из которых состоит типовой GPU-кластер (оборудование и драйверы, интеграция с Kubernetes, observability, интерконнект) и в каждом случае дадим ответы на четыре вопроса:
• Как устроено взаимодействие этого слоя с предыдущим и последующим, иными словами, каков контракт?
• Какие есть опции для реализации этого контракта?
• Чем они отличаются и как выбрать из них наиболее подходящую, исходя из задачи?
• На что обратить внимание при эксплуатации
Занимается инфраструктурной разработкой с начала 2000-х, был комиттером в KDE. Последние десять лет провел в Яндексе. В Yandex Cloud с момента основания, прошел путь от разработчика до руководителя поднаправления. В разные периоды отвечал за сеть, вычислительные сервисы и системную разработку, в настоящий момент развивает инфраструктурную составляющую в проекте Yandex Cloud Stackland.
Видео
Другие доклады секции
Мы знаем, как готовить K8s