Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

7 и 8 апреля 2025

Москва

Разработка отечественного BI-решения: опыт замещения Amplitude Analytics в проекте для крупнейшего ритейлера

Big Data и Data Engineering

Проектирование информационных систем
Big Data и Highload в Enterprise
ETL
ClickHouse
Хранилища
Обработка данных

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Heads of Product и Heads of Analytics в ритейле, e-commerce и IT. Технические директора, продуктовые и аналитические команды, заинтересованные в разработке и внедрении BI-решений. Участники, сталкивающиеся с задачей замещения западных решений на отечественные аналоги.

Тезисы

В рамках доклада будет представлен опыт разработки и внедрения отечественного BI-решения для крупнейшей российской сети супермаркетов «Перекрёсток». Проект реализовывался в условиях необходимости замещения Amplitude Analytics, что потребовало создания собственной инфраструктуры, разработки ETL-решений и расширения возможностей open-source BI-инструментов. Особое внимание будет уделено решению задач обработки больших данных, инкрементальной аналитике и созданию интерфейсов self-service для визуализации.

Основные тезисы
===
Контекст проекта:
- «Перекрёсток» — крупнейшая российская сеть супермаркетов с DAU ~20 миллионов.
- Отказ от Amplitude Analytics привёл к необходимости полного пересмотра подходов к аналитике: от трекинга до построения сложных отчётов.

Ключевые вызовы:
- Работа с большими объёмами данных в условиях ограниченных вычислительных ресурсов.
- Разработка функционала для обработки произвольных NoSQL данных (JSON) с тысячами кастомных свойств.
- Замещение алгоритмов Amplitude, включая идентификацию пользователей и построение сессий.
- Ограниченные возможности open-source инструментов (Metabase) для сложной визуализации.

Подход к решению:
- Использование отечественной инфраструктуры на базе Yandex Cloud.
- Переход с Spark на Python-библиотеку Datapipe для создания гибких инкрементальных ETL-процессов.
- Доработка интерфейса Metabase для подготовки запросов без написания SQL-кода.
- Перенос тяжелых вычислений с ClickHouse на ETL-процессы, чтобы обеспечить масштабируемость и устойчивость.

Ключевые результаты:
- Бесперебойная работа ETL: ежедневные трансформации стали инкрементальными и менее ресурсоёмкими.
- Сокращение затрат на аренду вычислительных мощностей и операций с хранилищем данных.
- Ускорение процессов визуализации отчётов за счёт оптимизации витрин данных.

СЕО/СТО агентства Epoch8.co, эксперт в области машинного обучения и анализа данных, ex-Google

Epoch8

Epoch8 – агентство, которое занимается заказными проектами в области машинного обучения и анализа данных

Видео