Управление инцидентами с OpsGenie SRE-практики
Ведущий инженер-программист в компании Infobip, более 11 лет занимается разработкой приложений на Java в области финансов и телекоммуникаций. Помимо бизнес-проектов, активно участвует в разработке opensource-продуктов, в том числе собственных плагинов для продуктов Atlassian, очень популярных в сообществе. Активный участник Atlassian Community, апологет использования Prometheus, Docker и Redis.
https://ru.linkedin.com/in/andreymarkelov
Современные сервисы работают с терабайтами данных и миллионами пользователей на тысячах физических или виртуальных машин. На этапах разработки и тестирования в распределенных приложений, состоящих из сотен микросервисов едва ли получится предусмотреть разнообразие будущих сбоев. Для поддержания работоспособности продуктов нанимают специальные команды и используют средства мониторинга такие как Prometheus, DataDog, AppDynamics. В момент когда сбой все-таки случится, то будет быстро обнаружен, но минимизировать время обнаружения и заэскларивать проблему соответствующей команде. Сбой, который заметен для внешних клиентов, называется инцидентом и доклад посвящен управлению инцидентами с помощью OpsGenie.
Рассмотрим как «разбудить» нужного инженера и правильно оформить отчет. Также разберем возможные сценарии интеграции с Prometheus и Jira, а также “грабли” на которые успели наступить.