Mlops: как не потеряться в 10 тысячах фичах

Применение ИИ в Devops

Архитектуры / другое
Непрерывная интеграция
Hadoop
Machine Learning
Автоматизация разработки, доставки, эксплуатации
Автотесты
Инфраструктура
Инструменты

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Специалисты по анализу данных и машинному обучению, тимлиды, техлиды, менеджеры

Тезисы

В подразделении билайн бизнес 12 продуктовых команд. Команды работают над широкой линейкой продуктов с использованием машинного обучения для B2B клиентов. Часть продуктов относится к компьютерному зрению и аудиоаналитике, где используются нейронные сети на отдельном GPU кластере. Другая часть продуктов использует неперсонализированную информацию об абонентах и основана в основном на классическом ML с вычислениями на Hadoop кластере.
В билайне используется концепция Data Mesh распределенного управления данными. Доменными единицами являются продуктовые команды, которые строят необходимые им витрины данных и занимаются их менеджментом. Некоторые команды собирают таблицы, которые могут насчитывать около 10 тысяч фичей. Большой популярностью для построения различных моделей пользуются, например, ГЕО фичи или графовые фичи. Фичи могут обновляться на ежедневной/еженедельной/ежемесячной основе.
В билайн бизнес на проде крутится порядка 100 ml-моделей с различным расписанием их использования: от ежедневного до ежемесячного. Каждая модель запускается на разном количестве абонентов (строк): от 10 млн до 200 млн. Итого в пике ежедневная нагрузка по Spark джобам на кластере доходит до обработки 1млрд. строк. В среднем же в сутки обрабатывается около 50 млн. строк.
Большой парк моделей и фичей требует внимательного тестирования и построения прозрачных связей между ними. В докладе прозвучит бриф нашего MLOps пайплайна. Акценты будут расставлены на том, как мы организовали процесс тестирования в MlOps цикле и построили эффективный lineage между моделями и фичами. Расскажем влияние появившихся технологий на процесс разработки и деплоя моделей. Подсветим положительные эффекты, которые мы получили.

Опыт работы в области машинного обучения более 8 лет. Работал над различными проектами с использованием машинного обучения. Кандидат физико-математических наук.

Beeline

Руководитель департамента машинного обучения и искусственного интеллекта в beeline business.

Видео

Другие доклады секции

Применение ИИ в Devops