Iceberg, Spark, Airflow и прочие радости: строим data platform, не сходя с ума

Platform Engineering. Архитектура платформ

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

* Data Platform Engineers, Data Engineers и архитекторы данных, строящие или модернизирующие аналитические платформы; * техлиды и инженеры-руководители, принимающие решения о миграции data-стека в облако или Kubernetes; * специалисты, сталкивающиеся с метаданными, вендор-локом и оркестрацией сложных data-воркфлоу (Airflow + Spark + Trino).

Тезисы

Скачать презентацию Все презентации конференции

Доклад посвящен практическому опыту построения масштабируемой платформы данных в Kubernetes. Расскажу, как мы интегрировали Spark, Trino, Airflow, Iceberg и Apache Ranger в единую отказоустойчивую систему, обеспечивающую аналитикам и дата-инженерам PaaS-сервис. Расскажу про архитектурные решения, и результаты — от сокращения времени запуска задач до полного контроля над вендор-локом.

Максим Юрченко

Lenta Tech

Построил DevOps-направление и облачную инфраструктуру компании с нуля — сначала в Azure, затем полностью перенес в Yandex Cloud в 2022 году. Руководил командой, внедрил CI/CD, SRE-практики и устранил вендор-лок. Запустил Spark в Kubernetes (1500+ нод), JupyterHub для 50+ аналитиков.