Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В мире высоких требований к надёжности платформ часто бывает так, что SLA становятся больше головной болью, чем инструментом стабильности. Создание SLA, которые действительно работают, а не просто выглядят красиво на бумаге, требует глубокого понимания архитектуры систем и грамотного управления ожиданиями клиентов.
В своём докладе я поделюсь, как мы прошли путь от неэффективных и бессмысленных метрик, родившихся из попыток «угодить всем», к архитектурно обоснованным SLA, которые реально работают. Вы узнаете, почему классические SLI вроде Latency и доступности прокси могут быть пустой тратой ресурсов, и как инженерное видение помогло нам найти баланс между техническими возможностями и потребностями бизнеса.
Я расскажу, как анализ компонентов платформы позволил выстроить последовательность работы, связать это с метриками и алертами, и создать план внедрения адекватных SLA. Поговорим о непростых технических компромиссах, неожиданностях, и почему инженерные лидеры не должны бояться отказаться от "фальшивых" метрик. Этот доклад — для тех, кто хочет научиться строить SLA, которые защищают ваши системы и бизнес, а не становятся причиной бессонных ночей.
У Игоря за плечами более 13 лет в разработке и DevOps: от разработчика до топ-менеджера.
Имеет опыт работы на менеджерских позициях и хорошо понимает потребности потенциальных заказчиков команды. Не боится поработать «руками» и погрузиться в реальную практику. Стремится выработать и распространить в команде лучшие практики.
Ведет телеграм-канал t.me/lovely_it_hell, где делится наблюдениями и хорошим контентом.
руководитель поддержки и DevOps в Lemana Pro
Видео
Другие доклады секции
Reliability Engineering