Iceberg, Spark, Airflow и прочие радости: строим data platform, не сходя с ума
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Доклад посвящён практическому опыту построения масштабируемой платформы данных в Kubernetes. Расскажу, как мы интегрировали Spark, Trino, Airflow, Iceberg и Apache Ranger в единую отказоустойчивую систему, обеспечивающую аналитикам и дата-инженерам paas-сервис. Расскажу про архитектурные решения, и результаты— от сокращения времени запуска задач до полного контроля над вендор-локом.
Построил DevOps-направление и облачную инфраструктуру компании с нуля — сначала в Azure, затем полностью перенёс в Yandex Cloud в 2022 году. Руководил командой, внедрил CI/CD, SRE-практики и устранил вендор-лок. Запустил Spark в Kubernetes (1500+ нод), JupyterHub для 50+ аналитиков
Видео
Другие доклады секции
Platform Engineering. Архитектура платформ