Incident Management
ReliabilityОпределение
Incident Management (Управление инцидентами) — это процесс выявления, координации, эскалации, устранения и последующего анализа инцидентов, влияющих на доступность, качество или надежность сервисов.
Ценность
Технология помогает сокращать время восстановления, повышать управляемость реакции на сбои, снижать влияние инцидентов на пользователей и бизнес, а также системно улучшать надежность сервисов.
Применение
Технология реализуется с помощью процессов обнаружения и эскалации, моделей дежурств, реагирования на инциденты, координации устранения, разборов инцидентов и аналитики инцидентов, а также связана со следующими технологиями на радаре: Site Reliability Engineering, Blameless Culture, Service Level Objectives, Service Level Indicator, Disaster Recovery, Chaos Engineering, Resilience Engineering, IT Service Management, Observability Platform.
Контекст
Наиболее актуальна для средних и крупных технологических компаний, а также Enterprise организаций со средней и высокой инженерной зрелостью, где уже есть критичные сервисы, сложные зависимости между системами и необходимость быстро и согласованно реагировать на сбои в разных командах и окружениях.
Зрелость
Относится к уровню Adopt, потому что этот процесс давно стал базовой частью надежной эксплуатации и устойчивой инженерной организации, а его системное применение позволяет снижать последствия инцидентов, ускорять восстановление и улучшать качество практик эксплуатации.