Disaster Recovery
ReliabilityОпределение
Disaster Recovery (Аварийное восстановление) — это практика подготовки процессов, процедур и технических мер для восстановления систем, сервисов и данных после серьезных сбоев, аварий или катастрофических событий.
Ценность
Технология помогает сократить время восстановления, ограничить потери данных, повысить устойчивость критичных сервисов и обеспечить готовность организации к отказам с тяжелыми последствиями.
Применение
Технология реализуется с помощью планов восстановления, резервного копирования, сценариев переключения, регулярного тестирования восстановления и управления целевыми показателями восстановления, а также связана со следующими технологиями на радаре: Incident Management, Capacity Planning, High Availability Architecture, Site Reliability Engineering, Resilience Engineering, Chaos Engineering, Traffic Management.
Контекст
Наиболее актуальна для средних и крупных компаний, а также Enterprise организаций со средней и высокой инженерной зрелостью, где есть критичные системы, высокие требования к непрерывности бизнеса, зависимость от данных и необходимость управляемо восстанавливаться после крупных инцидентов и инфраструктурных отказов.
Зрелость
Относится к уровню Adopt, потому что эта практика давно является базовой частью надежной эксплуатации и управления критичными сервисами, а ее системное применение позволяет снижать последствия аварий и поддерживать устойчивость бизнеса и инженерной среды.