🌱История хаоса в Такси

Chaos engineering

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Андрей расскажет, как хаос-тестирование помогает выявлять уязвимости и повышать надежность систем. На примере сервиса Такси он покажет интеграцию Chaos Engineering в Incident Management, поделится успешными кейсами, советами и реальными результатами.

Целевая аудитория

Инженеры, лиды, SRE.

Тезисы

Что такое хаос? Когда и почему стоит его делать? Есть ли готовые решения, которые можно взять и использовать, или стоит написать свое?

Расскажу про подход на масштабе Яндекса. Как мы чуть не развалили продакшн при внедрении, факапы с учений, чему мы научились и главные выводы.

Спойлер: мы ломаем сервисы в продакшне на 100% пользовательского трафика.
Слабоумие и отвага? Узнаем в докладе :)

Старший разработчик в команде надежности Такси.
Координирует инциденты, вместе с командой занимался внедрением Chaos Engineering, а сейчас техлид проекта Virtual Orders (интеграционное нагрузочное тестирование).

Яндекс

Яндекс — международная IT-компания, которая более 25 лет создаёт продукты на основе машинного обучения и нейросетей. В экосистеме более 90 сервисов и продуктов. Например, платформа Yandex Cloud и фундамент из продуктов и технологий Yandex Infrastructure, опенсорс-проекты YDB, YTsaurus. А ещё поисковые, геоинформационные и рекламные сервисы и технологии в умных устройствах и автономном транспорте. Среди них — Поиск с Нейро, Браузер, Алиса, Карты, Ecom-сценарии, Директ, Погода и Шедеврум.

Видео