Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

Эффект бабочки в SRE

Reliability Engineering

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps- и SRE-инженеры, бэкенд-разработчики.

Тезисы

Надежность в современном цифровом мире - это одна из ключевых характеристик любой системы. Методология SRE предполагает строгое фокусирование на надежности и поддержании заявленного SLA. Одновременно с этим, системы постоянно развиваются и совершенствуются. Но любое вносимое в систему изменение/обновление/релиз несет в себе риски и эти риски зачастую не воспринимаются таковыми. На нашем проекте Sage в Тинькофф, мы, как команда SRE, убедились на собственном опыте, что не бывает безопасных релизов и к любой модификации продакшн контура нужно относиться внимательно.
В докладе я поделюсь следующими кейсами, подтверждающими нашу позицию:

* Крупный сбой полученный при смене базового докер-образа для одного из микросервисов. Этот сбой стоил нам двух часов бюджета SLA
* Полный отказ записи данных в кластер Elasticsearch через месяц после внесения правки в конфигурацию кластера
* Драматическая деградация производительности серверов из-за обновления микрокода

Бывший разработчик со стажем в 12 лет. Инженер-самоучка.
Прошел путь от программиста микроконтроллеров на ассемблере до SRE.
Сейчас SRE в Sage (Т-Банк).
https://www.linkedin.com/in/max-vanyushkin

Т-Банк

Команда Т-банка — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Т-Банк развивает Ит-индустрию, поддерживает комьюнити и делится экспертизой.

Видео