Нельзя просто взять и отключить AZ: проводим учения в публичном облаке без привлечения санитаров

DevOps практики и культура

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Разработчики платформы/инфраструктуры DevOps-инженеры

Тезисы

В публичном облаке нельзя просто отключить зону доступности — клиенты этого не простят. Как тогда проводить учения на отказоустойчивость? Мы адаптировали Chaos Engineering под себя: тестируем деградацию на препроде, осторожно проверяем региональные сервисы на проде и разрабатываем публично доступные инструменты для управляемого хаоса (например, ручное отключение балансировщиков).

Костя в Яндексе уже почти 12 лет, половину из которых занимался разработкой браузера, а вторую половину — сетевой виртуализацией в Yandex Cloud. Команда Кости разрабатывает сервисы, отвечающие за доставку клиентского трафика: связность между виртуальными машинами, внешняя связность, L3/L7 балансировщики, DNS, Cloud Interconnect, NAT. Это базовые продукты, которыми пользуются все клиенты облака, включая также PaaS/SaaS-сервисы компании.

Видео

Другие доклады секции

DevOps практики и культура

Мой тех.дир - cамодур!
Юлия Жерносек

Выгоревший Безработный