Сейчас очень многие используют Airflow как продакшн-реди-решение для оркестратора обучения ML-моделей. Все, что надо сделать пользователю — это скопировать свои даги в нужную папку. Но что делать, когда команд, использующих Airflow-кластер, становится не 1, а 10, а дагов — не 100, а тысяча!
В докладе расскажу, какие проблемы начинают выстреливать вместе с ростом масштаба и как их решать. Попробуем применить best practices микросервисной разработки для airflow-сервисов и превратить Airflow в удобный инструмент ML-платформы.