Год в проде с Ceph: как мы пришли к новой референсной архитектуре

Platform Engineering. Архитектура платформ

Архитектуры, теория программирования
Архитектурные паттерны
Отказоустойчивость
Оптимизация производительности
Распределенные системы
Архитектуры / другое
Работа с облачными сервисами

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Ops-инженеры, работающие с Ceph, и техлиды, присматривающиеся к Ceph для внедрения

Тезисы

Кто-то рассматривает Ceph как «магическую черную коробку» для хранения данных, кто-то его панически боится. На Highload’2024 я рассказывал, какие практики и инструменты мы разработали для эксплуатации Ceph’а. А в этом году хочу рассказать про наши приключения спустя год.
Это не очередной рассказ о том, «как мы подняли Ceph по мануалам». Это ретроспектива «год в бою» на реальной высокой нагрузке. Мы прошли путь от уверенного старта до спорадических деградаций производительности, замены контроллеров дисков во всем кластере и выработке новой референсной архитектуры для нашего SDS на базе Ceph — одного из флагманских продуктов группы — Рег.облака.
Расскажу про наш подход к выбору конфигурации, покажу какие ошибочные и не очень решения мы принимали в процессе развития.
Если вы планируете внедрять Ceph или уже работаете с ним, этот доклад сэкономит вам часы отладки, подсветив некоторые не самые очевидные места. Это честный разбор полетов, подкрепленный практическим опытом и проверенными решениями.

Руководитель R&D команды облачных сервисов и архитектор SDS Рег.облака. Более 9 лет опыта разработки cloud-native приложений и систем обработки данных для IoT и продуктовых целей. Прошел путь от системного администрирования и DBA, через QA в разработчики и архитекторы. В группе Рунити с 2023 года, до этого работал в Яндексе, Mirantis, URUS. Общий стаж в IТ-сфере более 20 лет.

Видео

Другие доклады секции

Platform Engineering. Архитектура платформ