Конференция завершена. Ждем вас на DevOpsConf в следующий раз!

Мониторинг СronJob в Kuberenetes

Обратная связь

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Вроде нередкая задача, но всегда вызывает боль. Докладчица рассказывает, как минимизировать боль и что стоит использовать.

Тезисы

В докладе расскажу, как устроен мониторинг в Ozon в целом, и как мы организовали мониторинг CronJob в Kubernetes на базе готовых решений Prometheus-Thanos-Grafana и Kube-state-metrics при наличии давно сформированной инфраструктуры мониторинга. Нашей целью было внедрить новые инструменты с минимальным влиянием на разработчиков, но при этом получить максимум с точки зрения мониторинга.

В результате у нас получился полноценный инструмент мониторинга CronJob, который предоставляет как базовые алерты и агрегации, так и дает возможность репортить свои метрики. Значительно сократили время реагирования на инциденты, где участвуют Сronjob.

Доклад будет наиболее полезен тем, кто развивает инфраструктуру мониторинга, кто эксплуатирует большое количество CronJob в Kubernetes, кто давно мечтал собирать метрики с CronJob.

Разработчик в платформе Телеметрии, специализируется на мониторинге. Помогает разработчикам следить и наблюдать за своими сервисами.

Ozon

Ozon — лидирующая платформа e-commerce в России. В команде Ozon Tech 3 000 инженеров — и они продолжают расти. Десятки миллионов людей пользуются сервисами Ozon, их IT-инфраструктура управляет миллионами процессов каждый час. Микросервисы на Go и C#, в стеке технологий есть Vue.js, Swift и Kotlin, Kubernetes, Kafka, Hadoop и ClickHouse.

Видео