Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями

Reliability Engineering

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад о том, как построить SLА для платформенных решений, которые действительно будут приносить пользу. Рассмотренные в докладе реальные кейсы, архитектурный подход и разбор ошибок помогут переосмыслить управление надёжностью платформ.

Целевая аудитория

SRE-инженеры, технические менеджеры и руководители поддержки.

Тезисы

В мире высоких требований к надёжности платформ часто бывает так, что SLA становятся больше головной болью, чем инструментом стабильности. Создание SLA, которые действительно работают, а не просто выглядят красиво на бумаге, требует глубокого понимания архитектуры систем и грамотного управления ожиданиями клиентов.

В своём докладе я поделюсь, как мы прошли путь от неэффективных и бессмысленных метрик, родившихся из попыток «угодить всем», к архитектурно обоснованным SLA, которые реально работают. Вы узнаете, почему классические SLI, вроде Latency и доступности прокси, могут быть пустой тратой ресурсов и как инженерное видение помогло нам найти баланс между техническими возможностями и потребностями бизнеса.

Я расскажу, как анализ компонентов платформы позволил выстроить последовательность работы, связать это с метриками и алертами и создать план внедрения адекватных SLA. Поговорим о непростых технических компромиссах, неожиданностях и почему инженерные лидеры не должны бояться отказываться от «фальшивых» метрик. Этот доклад — для тех, кто хочет научиться строить SLA, которые защищают ваши системы и бизнес, а не становятся причиной бессонных ночей.

Игорь Цупко

Независимый эксперт

У Игоря за плечами более 13 лет в разработке и DevOps: от разработчика до топ-менеджера.
Имеет опыт работы на менеджерских позициях и хорошо понимает потребности потенциальных заказчиков команды. Не боится поработать «руками» и погрузиться в реальную практику. Стремится выработать и распространить в команде лучшие практики.
Ведет телеграм-канал t.me/lovely_it_hell, где делится наблюдениями и хорошим контентом.

Независимый эксперт

-

Видео

Другие доклады секции

Reliability Engineering