Как мы упорядочили хаос логов с помощью модели OpenTelemetry
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Работа с логами может быть удобной не только для разработчиков, но и для эксплуатации, нужно только договориться.
Представь: ты видишь как сервисов в компании становиться больше, команд больше, логов больше. И вот уже есть инженеры, которым нужно находить и понимать логи многих сервисов. Какие у нас варианты?
Дать волю. Все будет гибко и удобно для разработчиков, логи пишут как хотят, сами читают, знают где найти. Это до тех пор, пока разработчик не перешел в другую команду, или до тех пор, пока ночью дежурному не потребовалось искать логи совершенно новых для него сервисов. Затраты времени могут быть огромны.
Договориться об общих правилах. Да будет меньше свободы художникам, но для общего дела будет гораздо лучше. Вспомним про правила дорожного движения, ведь они есть и для пешеходов, и для водителей.
С логами тоже самое. Это помогает порядку и предсказуемости при функционировании сложной системы.
Я расскажу как мы реализовали работу с логами с применением "готовых правил дорожного движения" из OpenTelemetry.
SR-инженер (SRE). 4 года строю и эксплуатирую отказоустойчивые системы, сопровождаю их, обрабатываю и анализирую сбои. Помогаю увидеть уровень сервиса через SLI/SLO. Строю систему сбора логов.
Более 10 лет в разработке, более 18 лет в IT. Начал с сисадмина, дошел до руководителя группы программистов, а потом перешел в backend-разработку, где увлекся темой надежности систем и стал SRE.
Имею опыт работы в сфере теллекомуникаций, финтех и ритейл
Автор телеграм группы “ALLSO - все про SLO”.
Сейчас инженер по доступности сервиса в Ви.Tech
Vi.Tech
Видео
Другие доклады секции
DevOps практики и культура