Конференция для инженеров и всех, кто должен понимать инженеров

Kafka. Деградировавший кластер, или 168 часов траблшутинга

Reliability Engineering

Распределенные системы
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад о решении проблем в Kafka: от низкоуровневого траблшутинга до устранения серьёзных сбоев, угрожающих работе сервисов. Будут освещены сложные конфигурации, инструменты мониторинга, лайфхаки и тонкости, полезные при работе с Kafka для предотвращения неожиданностей в кластере.

Целевая аудитория

DevOps- и SRE-инженеры, бэкенд-разработчики.

Тезисы

Мы используем высоконагруженный кластер Kafka для обработки входящего потока логов в Sage, собственной платформе мониторинга Тинькофф. В докладе я поделюсь опытом траблшутинга кластера в момент деградации производительности. Расскажу про методы поиска узкого места и использованный инструментарий. В докладе будет минимум информации по API клиентской части, напротив, будет сделан фокус на работе кластера и брокеров под капотом. Мы пройдем весь пайплайн внутри брокера Kafka: от записи данных в сетевой сокет до сброса обработанных данных на диск.

Бывший разработчик со стажем в 12 лет. Делал и фронт, и бэк (Dotnet).
Прошел путь от программиста микроконтроллеров на ассемблере до SRE.
Сейчас SRE-инженер в Sage (Тинькофф).
https://www.linkedin.com/in/max-vanyushkin

Тинькофф

Команда Тинькофф — это разработчики, тестировщики, SRE-инженеры, архитекторы, аналитики, продакт-менеджеры, дизайнеры и другие специалисты. Вместе они создают финтех-продукты, которыми пользуются около 40 миллионов клиентов. Тинькофф развивает IT-индустрию, поддерживает комьюнити и делится экспертизой.

Видео