Эффект бабочки в SRE
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Надежность в современном цифровом мире - это одна из ключевых характеристик любой системы. Методология SRE предполагает строгое фокусирование на надежности и поддержании заявленного SLA. Одновременно с этим, системы постоянно развиваются и совершенствуются. Но любое вносимое в систему изменение/обновление/релиз несет в себе риски и эти риски зачастую не воспринимаются таковыми. На нашем проекте Sage в Тинькофф, мы, как команда SRE, убедились на собственном опыте, что не бывает безопасных релизов и к любой модификации продакшн контура нужно относиться внимательно.
В докладе я поделюсь следующими кейсами, подтверждающими нашу позицию:
* Крупный сбой полученный при смене базового докер-образа для одного из микросервисов. Этот сбой стоил нам двух часов бюджета SLA
* Полный отказ записи данных в кластер Elasticsearch через месяц после внесения правки в конфигурацию кластера
* Драматическая деградация производительности серверов из-за обновления микрокода
Бывший разработчик со стажем в 12 лет. Инженер-самоучка.
Прошел путь от программиста микроконтроллеров на ассемблере до SRE.
Сейчас SRE в Sage (Т-Банк).
https://www.linkedin.com/in/max-vanyushkin
Т-Банк
Видео
Другие доклады секции
Reliability Engineering