Конференция для инженеров и всех, кто должен понимать инженеров

Kafka. Деградировавший кластер, или 168 часов траблшутинга

Reliability Engineering

Распределенные системы
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад о решении проблем в Kafka: от низкоуровневого траблшутинга до устранения серьёзных сбоев, угрожающих работе сервисов. Будут освещены сложные конфигурации, инструменты мониторинга, лайфхаки и тонкости, полезные при работе с Kafka для предотвращения неожиданностей в кластере.

Целевая аудитория

DevOps- и SRE-инженеры, бэкенд-разработчики.

Тезисы

Мы используем высоконагруженный кластер Kafka для обработки входящего потока логов в Sage, собственной платформе мониторинга Тинькофф. В докладе я поделюсь опытом траблшутинга кластера в момент деградации производительности. Расскажу про методы поиска узкого места и использованный инструментарий. В докладе будет минимум информации по API клиентской части, напротив, будет сделан фокус на работе кластера и брокеров под капотом. Мы пройдем весь пайплайн внутри брокера Kafka: от записи данных в сетевой сокет до сброса обработанных данных на диск.

Бывший разработчик со стажем в 12 лет. Инженер-самоучка.
Прошел путь от программиста микроконтроллеров на ассемблере до SRE.
Сейчас SRE в Sage (Т-Банк).
https://www.linkedin.com/in/max-vanyushkin

Т-Банк

Команда Т-банка — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Т-Банк развивает Ит-индустрию, поддерживает комьюнити и делится экспертизой.

Видео