Что делать, если зарубежные data lakes недоступны? Как импортозаместить BigQuery и не разориться на серверах и экспертизе

Жизнь в облаках и без

Проектирование информационных систем

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Data Engineers, ML Engineers и Tech Leads, которые строят и поддерживают аналитические платформы, data lakes и ETL-пайплайны в продакшене.

Тезисы

В докладе разберём реальный кейс импортозамещения BigQuery и построения собственного data lake на базе S3 и ClickHouse. Покажем, как сохранить ключевые преимущества облачных дата-лейков – разделение хранения и вычислений, гибкое масштабирование и оплату «по факту расчётов» – без постоянных затрат на дорогую инфраструктуру и команду из Hadoop/Spark-специалистов.

Мы расскажем, как декомпозировать классический data lake на два слоя: дешёвое объектное хранилище (S3) для тяжёлого процессинга и ClickHouse как витрину для OLAP-запросов.

В результате получается архитектура с низкой базовой стоимостью, предсказуемыми пиками потребления и простой эксплуатацией.

Доклад будет полезен тем, кто ищет практичную альтернативу зарубежным облачным дата-лейкам и хочет построить устойчивую аналитическую платформу без переплат за простаивающие сервера.

Сергей Захарченко – ведущий data engineer в Epoch8. Строит большие data-платформы, делает импортозамещение облачных решений и переводит критичные системы на on-prem и гибридные архитектуры.

Работает с Big Data, потоковой обработкой, хранилищами и ETL-пайплайнами в продакшене. Фокус – надёжные, масштабируемые и автономные data-системы, которые не зависят от внешних облаков.

Видео