Инциденты и автоматизации, когда на кону большие деньги
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
- Мы расскажем о том, как в Купере создавали процессы управления инцидентами: реакция и обработка алертов, коммуникация со смежными командами, эскалация инцидентов.
- Расскажем про формирование "Команды по спасению мира" и её привлечение в случае критичного инцидента.
- Покажем, как у нас происходит ведение инцидента и информирование по нему: регистрация, приоритизация, оповещение. Как нам во всём этом помогают наши собственные разработки (Jarvis bot, Status Page).
- Метрики успеха для инженеров мониторинга: скорость и качество.
- Покажем интеграцию, которая сильно облегчает постмортем инцидентов.
Более 10 лет работаю в IT. Начинала специалистом технической поддержки, сейчас работаю тимлидом группы мониторинга. Работаю в Купере больше трех лет, руковожу командой мониторинга. Строим процессы, метрики, инструменты для обнаружения, ведения и устранения инцидентов.
Больше 10 лет в IT. Начинал инженером технической поддержки, а через время дорос до руководителя команды, и далее до руководителя направления в компании.
Через время увлекся разработкой и ушел из поддержки. На текущий момент руковожу небольшой командой разработки автоматизаций процессов мониторинга.
Видео
Другие доклады секции
Инциденты и постмортемы