🏋🏻‍♂️Укрощение хаоса логов с помощью модели OpenTelemetry, Vector и ClickHouse. Итоги за два года

Наблюдаемость и Operational intelligence

Логирование и мониторинг
Devops / другое
Логи, метрики, ошибки
Автоматизация разработки, доставки, эксплуатации
DevOps / SRE
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Vector, Kafka, ClickHouse — уже вполне обкатанный стек, но каким образом уже внутри этого стека провести оптимизацию, с какими проблемами при этом можно столкнуться и как их решить.

Целевая аудитория

* DevOps-инженеры. * SRE-инженеры по надежности. * Разработчики. * Технические директора.

Тезисы

Работа с логами может быть удобной не только для разработчиков, но и для эксплуатации, нужно только договориться.

Представь: ты видишь, как сервисов в компании становится больше, команд больше, логов больше. И вот уже есть инженеры, которым нужно находить и понимать логи многих сервисов. Какие у нас варианты?

Дать волю. Все будет гибко и удобно для разработчиков, логи пишут, как хотят, сами читают, знают, где найти. Это до тех пор, пока разработчик не перешел в другую команду или пока ночью дежурному не потребовалось искать логи совершенно новых для него сервисов. Затраты времени могут быть огромны.

Договориться об общих правилах. Да, будет меньше свободы художникам, но для общего дела будет гораздо лучше. Вспомним про правила дорожного движения, ведь они есть и для пешеходов, и для водителей. С логами тоже самое. Это помогает порядку и предсказуемости при функционировании сложной системы.

Я расскажу, как в прошлом году мы реализовали унифицированную работу с логами с применением «готовых правил дорожного движения» из OpenTelemetry на базе Vector. dev и Clickhouse, какой опыт мы получили за 2 года и как развили это решение.

SR-инженер (SRE). 4 года строит и эксплуатирует отказоустойчивые системы, сопровождает их, обрабатывает и анализирует сбои. Помогает увидеть уровень сервиса через SLI/SLO. Строит систему сбора логов.
Более 10 лет в разработке, более 18 лет в IT. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имеет опыт работы в сфере телекоммуникаций, финтеха и ретейла.
Автор телеграм-группы «ALLSO — все про SLO».

Сейчас — инженер по надежности в Ви. Tech.

Ви.Tech

Ви.Tech — это команда инженеров, которая строит IТ для ВИ.ру — одного из крупнейших игроков на рынке e-commerce.

Видео