Конференция завершена. Ждем вас на DevOpsConf в следующий раз!
Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации
30 сентября
и 1 октября 2019
Москва, Инфопространство

Управление инцидентами с OpsGenie SRE-практики

Доклад отозван
Андрей Маркелов
Infobip

Ведущий инженер-программист в компании Infobip, более 11 лет занимается разработкой приложений на Java в области финансов и телекоммуникаций. Помимо бизнес-проектов, активно участвует в разработке opensource-продуктов, в том числе собственных плагинов для продуктов Atlassian, очень популярных в сообществе. Активный участник Atlassian Community, апологет использования Prometheus, Docker и Redis.

andrey.v.markelov@gmail.com
https://ru.linkedin.com/in/andreymarkelov
Тезисы

Современные сервисы работают с терабайтами данных и миллионами пользователей на тысячах физических или виртуальных машин. На этапах разработки и тестирования в распределенных приложений, состоящих из сотен микросервисов едва ли получится предусмотреть разнообразие будущих сбоев. Для поддержания работоспособности продуктов нанимают специальные команды и используют средства мониторинга такие как Prometheus, DataDog, AppDynamics. В момент когда сбой все-таки случится, то будет быстро обнаружен, но минимизировать время обнаружения и заэскларивать проблему соответствующей команде. Сбой, который заметен для внешних клиентов, называется инцидентом и доклад посвящен управлению инцидентами с помощью OpsGenie.
Рассмотрим как «разбудить» нужного инженера и правильно оформить отчет. Также разберем возможные сценарии интеграции с Prometheus и Jira, а также “грабли” на которые успели наступить.

Логирование и мониторинг
,
Непрерывное развертывание и деплой
,
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
,
Менеджмент в эксплуатации
,
Devops / другое
,
Другое

Другие доклады секции SRE-практики