Устройство и использование alligator monitoring agent

Operational Intelligence. Наблюдаемость в новом мире

DevOps и системное администрирование
Логирование и мониторинг
Логи, метрики, ошибки

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DevOps, SRE и разработчики тесно контактирующие с системами мониторинга

Тезисы

Главная цель любого мониторинга — сделать вашу систему наблюдаемой. Для обеспечения её корректной работы вам необходимо иметь доступ ко всей измеряемой информации.
Не смотря на то что системы мониторинга должны уметь собирать большой объем информации, множество программных решений не предлагает единообразного метода их сбора. Эту проблему и решает Alligator, который с одной стороны выступая универсальным агентом, доставляет эту информацию до prometheus.
Полагаю, что подходы, описанные в статье, применимы к любым другим инструментам мониторинга. Alligator - инструмент, который может упростить этот процесс.

Работаю Head of SRE. В целом SRE занимаюсь более 10 лет.
На практике реализовывал сложные отказоустойчивые конфигурации Elasticsearch, Clickhouse, эксплуатировал все под высокой нагрузкой. Имею опыт работы почти со всеми известными buzzword-решениями (cassandra, aerospike. redis, memcached, k8s, ...).
Внедрял в Rambler свою собственную систему управления конфигурацией и IaC (golang).
Так же один из создателей control-plane файрволла в Рамблере.
Имею свой публичный opensource проект по сбору метрик в прометей Alligator https://github.com/alligatormon/alligator.

Видео