Iceberg, Spark, Airflow и прочие радости: строим data platform, не сходя с ума

Platform Engineering. Архитектура платформ

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

— Data Platform Engineers, Data Engineers и архитекторы данных, строящие или модернизирующие аналитические платформы; — Техлиды и инженеры-руководители, принимающие решения о миграции data-стека в облако или Kubernetes; — Специалисты, сталкивающиеся с метаданными, вендор-локом и оркестрацией сложных data-воркфлоу (Airflow + Spark + Trino).

Тезисы

Доклад посвящён практическому опыту построения масштабируемой платформы данных в Kubernetes. Расскажу, как мы интегрировали Spark, Trino, Airflow, Iceberg и Apache Ranger в единую отказоустойчивую систему, обеспечивающую аналитикам и дата-инженерам paas-сервис. Расскажу про архитектурные решения, и результаты— от сокращения времени запуска задач до полного контроля над вендор-локом.

Построил DevOps-направление и облачную инфраструктуру компании с нуля — сначала в Azure, затем полностью перенёс в Yandex Cloud в 2022 году. Руководил командой, внедрил CI/CD, SRE-практики и устранил вендор-лок. Запустил Spark в Kubernetes (1500+ нод), JupyterHub для 50+ аналитиков

Видео

Другие доклады секции

Platform Engineering. Архитектура платформ