Где и что может пойти не так в GPU-кластере: опыт при разработке Stackland
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Хочется крутить AI как в облаке, но у себя в контуре? А как там? Арендуешь виртуальные машины у облачного провайдера, выполняешь пару команд — и вот уже на выходе показались первые токены. При этом значительная часть современных AI-нагрузок развернута в Kubernetes.
Но что при этом происходит под капотом, и как добиться такого же пользовательского опыта в контуре компании? В докладе расскажем, как мы решаем эту задачу в Yandex Cloud Stackland.
Вместе мы последовательно переберем «слои», из которых состоит типовой GPU-кластер (оборудование и драйверы, интеграция с Kubernetes, observability) и в каждом случае дадим ответы на четыре вопроса: * как устроено взаимодействие этого слоя с предыдущим и последующим, иными словами, каков контракт? * какие есть опции для реализации этого контракта? * чем они отличаются и как выбрать из них наиболее подходящую, исходя из задачи? * на что обратить внимание при эксплуатации?
Занимается инфраструктурной разработкой с начала 2000-х, был комиттером в KDE. Последние десять лет провел в Яндексе. В Yandex Cloud с момента основания, прошел путь от разработчика до руководителя поднаправления. В разные периоды отвечал за сеть, вычислительные сервисы и системную разработку. В настоящий момент руководит платформой Yandex Cloud Stackland, позволяющей развернуть избранные сервисы Yandex Cloud в контуре клиента.
Видео
Другие доклады секции
Мы знаем, как готовить K8s