Конференция завершена. Ждем вас на DevOpsConf в следующий раз!

Как сэкономить на масштабировании, переехав с Cassandra на Scylla DB

Архитектура в DevOps, DevOps для CTO

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Технический доклад для интересующихся Scylla DB и уставших от проблем с Cassandra.

Тезисы

Наш сервис вычисляет инференс моделей машинного обучения в транзакционном режиме. Как БД для наших сервисов мы использовали Cassandra:12 нод по 10 ядер и 32 ГБ памяти.
Немного цифр: среднее число запросов 1000 RPS, в пиковых нагрузках — 1200 RPS, ежедневная загрузка данных 800 ГБ, нагрузка на базу — от 50 000 до 100 000 RPS.

В начале 2020 г. мы столкнулись с пределами масштабирования: перестало хватать кластеров, появились всплески latency (из-за garbage collection), фантомные данные, увеличилось время загрузки (11-12 часов). У нас был выбор: масштабироваться за счет железа (но с каждым разом это будет все дороже, и есть предел) или мигрировать. Мы выбрали миграцию базы с Cassandra на Scylla DB и думали, что мигрируем за пару спринтов...

Расскажем, как инсталлировали кластеры, делали реплики, настраивали мониторинг и где возникли проблемы, из-за которых все растянулось на 4 месяца.

System Engineer платформы ML и облачных решений.

OneFactor

OneFactor разрабатывает сервисы искусственного интеллекта на данных мобильных операторов для банков, ритейлеров, телекома, платежных систем и страховых компаний.

Видео