Конференция завершена. Ждем вас на DevOpsConf в следующий раз!

Автоматическое управление железом в stateful сервисах

SRE-практики

Доклад отклонён

Целевая аудитория

SRE, администраторы железных машин

Тезисы

Для управления парком железных машин в Яндексе развёрнута система под названием Wall-e. В докладе рассматриваются особенности, возникающие при экслуатации аппаратного обеспечения под управлением этой системы как в целом, так и со стороны stateful сервисов в частности.
Некоторые вопросы, решаемые при помощи Wall-e:
- как плавно снять нагрузку для выключения машины;
- как провести обслуживание сразу нескольких машин одновременно;
- как при этом не выключить обе реплики одного шарда данных;
- что делать, если требуется срочное обслуживание одной реплики в тот момент, когда вторая реплика выключена или недоступна;
- что делать, если нужно одновременно обслужить машины, у которых разные команды эксплуатации.

Эксплуатация корпоративного хранилища данных (MDS, S3), эксплуатация и разработка высоконагруженных систем, SRE, DevOps

Яндекс

Яндекс - IT-гигант, одна из ведущих IT-компаний России, лидер в области технологий компьютерного зрения, машинного обучения. Компания эксплуатирует несколько датацентров с сотнями тысяч серверов, миллионами вычислительных ядер и несколькими суперкомпьютерными кластерами.

Видео