Iceberg, Spark, Airflow и прочие радости: строим data platform, не сходя с ума
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Доклад посвящен практическому опыту построения масштабируемой платформы данных в Kubernetes. Расскажу, как мы интегрировали Spark, Trino, Airflow, Iceberg и Apache Ranger в единую отказоустойчивую систему, обеспечивающую аналитикам и дата-инженерам PaaS-сервис. Расскажу про архитектурные решения, и результаты — от сокращения времени запуска задач до полного контроля над вендор-локом.
Построил DevOps-направление и облачную инфраструктуру компании с нуля — сначала в Azure, затем полностью перенес в Yandex Cloud в 2022 году. Руководил командой, внедрил CI/CD, SRE-практики и устранил вендор-лок. Запустил Spark в Kubernetes (1500+ нод), JupyterHub для 50+ аналитиков.
Видео
Другие доклады секции
Platform Engineering. Архитектура платформ