Рост команды против зрелости процессов: автоматизация и CI/CD для data платформ

MLOps, DataOps и Data Engineering

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DataOps, Data инженеры, аналитики вне зависимости от опыта, а также все, кто заинтересован в улучшении процессов и качестве данных

Тезисы

По мере роста дата-команды становится сложнее управлять изменениями и качеством данных.
Разработчики часто мешают друг другу, а тимлиды уже не успевают ревьювить каждое изменение. Любой пропущенный баг быстро становится инцидентом.

Доклад о том, как CI/CD и подходы к автоматизации позволяют сделать деплой данных стабильным, а качество — предсказуемым.
На примере dbt поговорим:

- Как релизная политика влияет на риски и стабильность
- Как автоматизировать валидацию патчей до прода
- Как безопасно деплоить в прод и минимизировать сбои
- Как внедрять тесты при инфраструктурных ограничениях
- Какие шаги помогут повысить качество данных
- Как организовать мониторинг данных и тестов
- Какие проблемы возникают при создании каталога и документации
- Ключевые моменты оптимизации CI/CD процессов

Роберт Маркарян

Газпромбанк

Более 8 лет в IT. Карьеру начинал с fullstack-разработки в РЖД, после чего перешел в Газпромбанк, где занимался построением ETL-процессов, а затем вошел в состав DataOps-команды. В ней мы разрабатывали собственный фреймворк и выстраивали CI/CD-пайплайны для КХД. Сегодня занимаю позицию руководителя разработки и отвечаю за внедрение инструментов и практик DataOps в рамках создания новой платформы данных банка.

Видео