Конференция для инженеров и всех, кто должен понимать инженеров

История отказа ceph. Как была потеряна часть данных

Reliability Engineering

Управление конфигурацией
Devops / другое
Техдолг
Управление инцидентами
Надёжность продакшена
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Интересная история про то, как докладчик чинил ceph, с выводами о том, как можно было избежать аварии. Полезно, если у вас есть ceph. Дополняет давний доклад от Артемия Капитулы.

Целевая аудитория

Практикующие DevOps-инженеры cо знанием устройства ceph.

Тезисы

Ceph - это большой, сложный программный продукт, требующий не только глубоких знаний о нём, но и о сопутствующих вещах. Непонимание некоторых процессов, недостаток опыта или невнимательность могут привести к большим проблемам.

В докладе разберём ситуацию отказа ceph и потери части данных. Почему это произошло, какие ошибки были допущены в изначальном проектировании и в эксплуатации, какие действия пришлось предпринять, чтобы всё починить. Разберём нетипичные решения, которые пришлось применить для восстановления работоспособности и данных.

В конце поговорим, как можно было этого избежать, на что стоит обращать внимание, а также дам рекомендации по эксплуатации и проектированию ceph.

Более 7 лет является backend-разработчиком, на данный момент занимает должность ведущего разработчика в GS Labs. Прошёл путь от фриланса до крупных компаний, в одной из которых руководил группой разработчиков и курировал одно из подразделений разработки. Основные языки — Python/Go и весь их необходимый стек технологий. Знает, как их правильно готовить для больших корпоративных систем с высокой нагрузкой. Любит микросервисную архитектуру и проектировать крупные highload-системы. На данный момент сильно погружён в DevOps и инфраструктуру, на текущем месте это одно из направлений работы Дмитрия.

GS Labs

GS Labs — центр исследований и разработок программных продуктов и потребительской электроники. Ключевое направление деятельности — разработка и интеграция программно-аппаратных комплексов для цифрового телевидения во всех средах и на любых устройствах.

Видео