Конференция завершена. Ждем вас на DevOps Conf в следующий раз!

Базовая гигиена системы мониторинга или как снизить количество событийSRE-практики

Доклад отклонён
Антон Касимов
Техносерв

Занимается поддержкой и внедрением систем мониторинга 10+ лет. Работал с промышленными системами (BMC, Microfocus (ex HP), Solarwinds, Appdynamics, Instana, NewRelic) и с open-source (Zabbix, Zenoss, Prometheus) Публикует интересные кейсы и собственные наблюдения на Хабр.

Телеграм @antoniusfirst
Тезисы

Если вы не реагируете на некоторые события, если вы не успеваете обрабатывать события, если вы не знаете, на кого назначить событие — у вас проблема с избыточными событиями. Перечисленные факторы, а также некоторые другие говорят о неэффективной эксплуатации системы мониторинга. Расскажу, как их выявить.

Чтобы решить проблему, попробуйте задаться несколькими вопросами: кто заказывал этот мониторинг, кто может согласовать его изменение, можно ли доверять этой метрике, актуальна ли критичность этого события и другими. Помогу сформировать полный перечень таких вопросов для выявления масштаба проблемы.

Если вы смогли снизить количество событий и не хотите возвращаться к решению этого вопроса снова, еженедельно анализируйте полученные события, проверяйте статистику переходов события из статуса "открыто" в "закрыто", регулярно проводите мероприятия по актуализации модели здоровья ваших систем. Перечислю регулярные мероприятия для базовой гигиены системы мониторинга.



Другие доклады секции SRE-практики