Мониторинг СronJob в Kuberenetes

Обратная связь

Доклад принят в программу конференции

Тезисы

В докладе расскажу, как устроен мониторинг в Ozon в целом и как мы организовали мониторинг CronJob в Kubernetes на базе готовых решений Prometheus-Thanos-Grafana и Kube-state-metrics при наличии давно сформированной инфраструктуры мониторинга. Нашей целью было внедрить новые инструменты с минимальным влиянием на разработчиков, но при этом получить максимум с точки зрения мониторинга.

В результате, у нас получился полноценный инструмент мониторинга CronJob, который предоставляет как базовые алерты и агрегации, так и дает возможность репортить свои метрики. Значительно сократили время реагирования на инциденты, где участвуют Сronjob.

Доклад будет наиболее полезен тем, кто развивает инфраструктуру мониторинга, кто эксплуатирует большое количество CronJob в Kubernetes, кто давно мечтал собирать метрики с CronJob.

Разработчик в платформе Телеметрии, специализируюсь на мониторинге. Помогаю разработчикам следить и наблюдать за своими сервисами.

Видео