Конференция для инженеров и всех, кто должен понимать инженеров

Построение горизонтально масштабируемой системы обработки данных с беспилотного транспортного средства

Big Data и Data Engineering

Логирование и мониторинг
Администрирование баз данных
Devops / другое
Эффективное использование облаков
DevOps / Кубер
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Хардкорный рассказ про сложности обработки большого количества данных (150 Тб в сутки) и новые инструменты — dagster, arrow и polars, volcano.

Целевая аудитория

Data-инженеры, инфраструктурные инженеры.

Тезисы

Self-driving-разработчикам необходимо иметь возможность легко и оперативно получать обработанные данные с проездов беспилотных автомобилей для развития технологии и решения множества разнообразных повседневных задач: вычисления метрик проездов, определения качества доработок, получения датасетов для обучения моделей, построения HD-карты, разметки целевых ситуаций с проездов и пр.

Перед нами была поставлена задача разработать пайплайны обработки и автоматической разметки логов проездов беспилотных автомобилей и предоставить удобные инструменты для доступа к этим данным.

Из доклада вы узнаете:
* как мы научились обрабатывать большой объем сериализованных данных с беспилотных автомобилей (130-150 Tb в сутки);
* какой Open Source-стек мы для этого выбрали;
* почему отказались от Apache Airflow и остановились на Dagster;
* где и как мы запускаем вычисления на Spark, а где обходимся Apache Arrow и Polars;
* чем нас не устроил стандартный планировщик Kubernetes, и чем мы его заменили (спойлер: Volcano);
* как мы реализовали автоматическую эволюцию схем табличных данных в Spark + Hive Metastore.

Дмитрий Березуцкий

ООО "Автотех"

Руководитель команды регламентной обработки и визуализации данных SberAutoTech. 5 лет занимается обработкой данных и созданием удобных хранилищ. Старается автоматизировать все и вся, чтобы ночью можно было просто спать.
В свободное время любит делать что-нибудь руками, программировать всякие интересные штуки на ардуино, калибровать 3D-принтер, читать книги и следить за миром обработки данных и ML.
Закончил Т факультет НИЯУ МИФИ на инженера-физика по проектированию АЭС. Ранее работал в МТС BigData и SberDevices, строил хранилища, автоматизировал процессы обработки данных и разрабатывал предиктивные модели.
Гордится тем, что постоянно пробует и реализует что-то новое, о чем раньше даже не думал, и это вроде даже получается, и тем, что никогда не стоит на месте.

ООО "Автотех"

Autotech — разработчик технологии автономного вождения, совместимой с различными видами транспорта: от легковых автомобилей до грузовиков. Ключевое направление работы — создание универсальной беспилотной технологии.

Руководитель инфраструктурной DevOps-команды в SberAutoTech, до этого занимался DevOps в SberInfra и строил небольшие публичные облака.

SberAutoTech

Sber Automotive Technologies (SberAutoTech) — разработчик технологии автономного вождения, совместимой с различными видами транспорта: от легковых автомобилей до грузовиков. Ключевое направление работы — создание универсальной беспилотной технологии.

Видео