Как мы упорядочили хаос логов с помощью модели OpenTelemetry, Vector.dev и Clickhouse: опыт, уроки и развитие за год
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Работа с логами может быть удобной не только для разработчиков, но и для эксплуатации, нужно только договориться.
Представь: ты видишь, как сервисов в компании становится больше, команд больше, логов больше. И вот уже есть инженеры, которым нужно находить и понимать логи многих сервисов. Какие у нас варианты?
Дать волю. Все будет гибко и удобно для разработчиков, логи пишут, как хотят, сами читают, знают, где найти. Это до тех пор, пока разработчик не перешел в другую команду или пока ночью дежурному не потребовалось искать логи совершенно новых для него сервисов. Затраты времени могут быть огромны.
Договориться об общих правилах. Да, будет меньше свободы художникам, но для общего дела будет гораздо лучше. Вспомним про правила дорожного движения, ведь они есть и для пешеходов, и для водителей. С логами тоже самое. Это помогает порядку и предсказуемости при функционировании сложной системы.
Я расскажу, как в прошлом году мы реализовали унифицированную работу с логами с применением "готовых правил дорожного движения" из OpenTelemetry на базе Vector.dev и Clickhouse, какой опыт мы получили и как развили это решение.
SR-инженер (SRE). 4 года строю и эксплуатирую отказоустойчивые системы, сопровождаю их, обрабатываю и анализирую сбои. Помогаю увидеть уровень сервиса через SLI/SLO. Строю систему сбора логов.
Более 10 лет в разработке, более 18 лет в IT. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имею опыт работы в сфере теллекомуникаций, финтех и ритейл
Автор телеграм группы “ALLSO - все про SLO”.
Сейчас инженер по доступности сервиса в Ви.Tech
Vi.Tech
Видео
Другие доклады секции
DevOps практики и культура