Конференция для инженеров и всех, кто должен понимать инженеров

История отказа ceph. Как была потеряна часть данных

Reliability Engineering

Управление конфигурацией
Devops / другое
Техдолг
Управление инцидентами
Надёжность продакшена
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Интересная история про то, как докладчик чинил ceph, с выводами о том, как можно было избежать аварии. Полезно, если у вас есть ceph. Дополняет давний доклад от Артемия Капитулы.

Целевая аудитория

Практикующие DevOps-инженеры cо знанием устройства ceph.

Тезисы

Ceph - это большой, сложный программный продукт, требующий не только глубоких знаний о нём, но и о сопутствующих вещах. Непонимание некоторых процессов, недостаток опыта или невнимательность могут привести к большим проблемам.

В докладе разберём ситуацию отказа ceph и потери части данных. Почему это произошло, какие ошибки были допущены в изначальном проектировании и в эксплуатации, какие действия пришлось предпринять, чтобы всё починить. Разберём нетипичные решения, которые пришлось применить для восстановления работоспособности и данных.

В конце поговорим, как можно было этого избежать, на что стоит обращать внимание, а также дам рекомендации по эксплуатации и проектированию ceph.

Более 8 лет является backend-разработчиком, на данный момент занимает должность ведущего разработчика в MWS Cloud Platform. Прошёл путь от фриланса до крупных компаний, в одной из которых руководил группой разработчиков и курировал одно из подразделений разработки. Основные языки — Go/Python и весь их необходимый стек технологий. Знает, как их правильно готовить для больших корпоративных систем с высокой нагрузкой. Любит микросервисную архитектуру и проектировать крупные highload-системы. Сейчас глубоко погружен в создание решений по управлению сетевыми и локальными дисками в новой облачной платформе MWS Cloud Platform.

GS Labs

MWS Cloud Platform — новая публичная платформа собственной разработки от МТС Web Services. Создаём высокотехнологичное облако для самых требовательных заказчиков, при этом понятное и удобное для разработчиков.

Видео