Как мы распилили коммунальный Airflow: натягиваем микросервисы на MLOps

MLOps и Data Engineering

Непрерывное развертывание и деплой
Инфраструктура как сервис (IaaS), платформы как сервис (PaaS)
Machine Learning
ML
Микросервисы

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад о том, как жить в airflow, когда его используют много людей и команд. Как распилить коммунальную репу с тысячами дагов и не потеряться. Как дать возможность каждому сделать свой собственный airflow-сервис по кнопочке.

Целевая аудитория

Доклад будет интересен MLOps- и DevOps-инженерам, которые интересуются ML/MLOps. Также много времени уделим построению платформы как продукта, поэтому будет интересно инженерам, занимающимся построением платформ (в том числе ML-платформ).

Тезисы

Сейчас очень многие используют Airflow как продакшн-реди-решение для оркестратора обучения ML-моделей. Все, что надо сделать пользователю — это скопировать свои даги в нужную папку. Но что делать, когда команд, использующих Airflow-кластер, становится не 1, а 10, а дагов — не 100, а тысяча!

В докладе расскажу, какие проблемы начинают выстреливать вместе с ростом масштаба и как их решать. Попробуем применить best practices микросервисной разработки для airflow-сервисов и превратить Airflow в удобный инструмент ML-платформы.

Роза Морозенкова

Купер (ex СберМаркет)

Прошла путь от дата-сайентиста-рисерчера до MLOps-инженера и сейчас проектирует ML-платформу в Купере :)

Купер (ex СберМаркет)

Купер (ex СберМаркет) — технологический онлайн-сервис доставки из магазинов и ресторанов. Tech-команда Купера создает один из самых сложных высоконагруженных e-commerce-проектов в России и делает это с любовью.

Видео