Автоматическое управление железом в stateful сервисах
Доклад отклонён
Целевая аудитория
Тезисы
Для управления парком железных машин в Яндексе развёрнута система под названием Wall-e. В докладе рассматриваются особенности, возникающие при экслуатации аппаратного обеспечения под управлением этой системы как в целом, так и со стороны stateful сервисов в частности.
Некоторые вопросы, решаемые при помощи Wall-e:
- как плавно снять нагрузку для выключения машины;
- как провести обслуживание сразу нескольких машин одновременно;
- как при этом не выключить обе реплики одного шарда данных;
- что делать, если требуется срочное обслуживание одной реплики в тот момент, когда вторая реплика выключена или недоступна;
- что делать, если нужно одновременно обслужить машины, у которых разные команды эксплуатации.
Эксплуатация корпоративного хранилища данных (MDS, S3), эксплуатация и разработка высоконагруженных систем, SRE, DevOps
Яндекс
Видео
Другие доклады секции
SRE-практики