Конференция для инженеров и всех, кто должен понимать инженеров

Наш опыт обеспечения отказоустойчивости для 100+ баз с помощью автоматического фэйловера

Актуальные практики инженеров эксплуатации

Доклад отклонён

Целевая аудитория

Системные администраторы, DevOps-инженеры

Тезисы

Я расскажу о том, как мы сократили время аварийного переключения одной базы данных с 10 минут до 5 секунд при аварийном отключении датацентра и получили минимальный даунтайм при аварийной ситуации.

- Перед нами встала задача обеспечения автоматического фейловера 100+ баз в нашем продукте VK WorkMail для обеспечения бесперебойной работы нашего решения (Почты, Облака и Календаря).
- Для решения этой задачи мы разработали средство автоматического фейловера Overlord.
- Overlord написан на языке Go, работает в связке с ETCD и Envoy и не требует кворума для своей работы.

Ведущий DevOps Инженер в Группе системной разработки VK WorkSpace VK Tech

VK Tech

О текущей компании VK Tech — команда из 1400 специалистов в России и Казахстане. Мы разрабатываем и продвигаем облачные платформы и сервисы VK Cloud, in-memory СУБД Tarantool, коммуникационные решения — от почты VK WorkSpace до супераппа VK Teams и решения для автоматизации HR и финансов. Внутри: C++, Python, Go, Java, Javascript, Lua.

Видео