Конференция для инженеров и всех, кто должен понимать инженеров

Как мы вырастили отказоустойчивость Яндекс Go

Reliability Engineering

Архитектурные паттерны
Отказоустойчивость
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
Антикризисный менеджмент
Надёжность продакшена
Микросервисы
DevOps / SRE

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Хороший доклад про отказоустойчивость крупной системы в контексте процессов и метрик. Докладчик расскажет историю о том, как они шли к текущей ситуации, какие этапы прошли и какие решения совершили.

Целевая аудитория

SRE, CTO, руководители бэкенд-команд, техлиды.

Тезисы

Яндекс Go — это система из 800 микросервисов. Два года назад перед нами встала задача сильно вырастить аптайм всей системы.

Основа доклада — это шесть челленджей по росту аптайма, как мы с ними успешно справлялись и какие ошибки совершали.

Будет обзор наших практик (митигации и др), технологий (chaos engineering и др), архитектурных паттернов (DOMA и др), процессов (инцидент-менеджмент и др) и ментальных моделей (metastable failure state и др). Будет много ссылок для углубленного изучения этих аспектов.

Буду объяснять все на выдуманных примерах инцидентов, но на основе реальных событий.

ex-CTO Яндекс Такси. Работает в Yandex Cloud. Автор golangci-lint. До этого работал в Mail.Ru Group.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, облачная платформа, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например: CatBoost, DivKit, YDB, userver, YaLM.

Видео