Конференция завершена.

Ждем вас

на DevOpsConf

в следующий раз!

Где и что может пойти не так в GPU-кластере: опыт при разработке Stackland

Мы знаем, как готовить K8s

Аппаратное обеспечение
DevOps на собственном (арендованном) оборудовании
Логи, метрики, ошибки
DevOps / Кубер
Железо
Инфраструктура

Доклад принят в программу конференции

Целевая аудитория

DevOps-инженеры, эксплуатирующие k8s с GPU, инфраструктурные разработчики, а также желающие разобраться во внутреннем устройстве инфраструктуры современных GPU-кластеров.

Тезисы

Хочется крутить AI как в облаке, но у себя в контуре? А как там? Арендуешь виртуальные машины у облачного провайдера, выполняешь пару команд — и вот уже на выходе показались первые токены. При этом значительная часть современных AI-нагрузок развернута в Kubernetes.

Но что при этом происходит под капотом, и как добиться такого же пользовательского опыта в контуре компании? В докладе расскажем, как мы решаем эту задачу в Yandex Cloud Stackland.

Вместе мы последовательно переберем «слои», из которых состоит типовой GPU-кластер (оборудование и драйверы, интеграция с Kubernetes, observability) и в каждом случае дадим ответы на четыре вопроса: * как устроено взаимодействие этого слоя с предыдущим и последующим, иными словами, каков контракт? * какие есть опции для реализации этого контракта? * чем они отличаются и как выбрать из них наиболее подходящую, исходя из задачи? * на что обратить внимание при эксплуатации?

Занимается инфраструктурной разработкой с начала 2000-х, был комиттером в KDE. Последние десять лет провел в Яндексе. В Yandex Cloud с момента основания, прошел путь от разработчика до руководителя поднаправления. В разные периоды отвечал за сеть, вычислительные сервисы и системную разработку. В настоящий момент руководит платформой Yandex Cloud Stackland, позволяющей развернуть избранные сервисы Yandex Cloud в контуре клиента.

Видео

Другие доклады секции

Мы знаем, как готовить K8s