ML-платформы для больших и маленьких: опыт построения платформ на десятки и сотни пользователей
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Построение ML-платформ внутри компании - амбициозная задача для сокращения time-to-market выкатки моделей в продакшен, времени проверки новых гипотез, централизованной утилизации таких дорогих ресурсов как GPU. С такими вызовами может столкнуться как компания уровня бигтеха, так и небольшая команда, активно использующая ML в своих продуктах.
В докладе я разберу практический опыт построения ML-платформ разного масштаба: пройдем путь от платформы для команд с десятками дата-сайнтистов до больших компаний уровня Авито, где сотни DS и аналитиков ежедневно запускают сотни пайплайнов.
Где можно обойтись сборкой и конфигурацией opensource (Clearml, Keycloak, Jhub), а где нужно внедрять мультитенантный Kubeflow на 1500 уникальных профилей и 500 MAU и иметь собственную команду разработки.
Как организовать инференс моделей? Использовать существующий PaaS компании или поднять собственную инференс-платформу?. Сравню существующие open-source решения (Kserve, Yatai, BentoML, Seldon) и PaaS уровня компании. Разберу отличия инференса классических ML-моделей и современных LLM, плюсы и минусы объединения их в одну платформу.
В докладе:
разберём ML-платформы “на коленке” и масштаба компании в сотню пользователей;
обсудим инструменты, которые позволяют решить проблемы утилизации ресурсов, скедулинга ворклоудов, инференса моделей;
Что заберете с собой:
примеры построения ml-платформ;
решения различных болей (управление пользователями/командами, скедулинг ворклоудов, доступ к общим ресурсам GPU) при построении платформ для десятков и сотен пользователей;
DevOps-/MLOps-/GPU allocation-инженер, пришел из автоматизации производств. Видел и ломал настоящие конвейеры. Сейчас занимаюсь ML-инфраструктурой.
Видео
Другие доклады секции
MLOps, DataOps и Data Engineering