Платформы потоковой обработки данных, Apache Stack и требования к отказоустойчивостиИнфраструктурная платформа
Генеральный директор ITSumma.
15 лет в техническом менеджменте.
Постоянный участник и докладчик конференций Highload++ и РИТ++ с 2010 года.
Интересы: оптимизация производительности, траблшутинг, отказоустойчивость
Платформы потоковой обработки данных, построенные на Apache Stack, стали стандартом во множестве сфер - от финтеха и рекламных сетей до платформ интернета вещей.
Apache Kafka вытесняет с рынка другие брокеры сообщений, Apache Spark и Apache Flink зарекомендовали себя как платформы процессинга данных, Apache Cassandra и Apache HBase - уже фактически промышленный стандарт для хранения обработанных данных.
За последний год мы работали с несколькими крупными платформами потоковой обработки и анализа данных с крайне высокими требованиями к доступности и хотим поделиться опытом построения таких отказоустойчивых систем, а главное - опытом их эксплуатации.
1. Системы потоковой обработки данных в 2018-году.
1.1. Архитектура систем брокеров сообщений и шин данных.
1.2. Архитектура систем процессинга данных.
1.3. Архитектуры СУБД для потоковой обработки данных.
2. Мониторинг и поддержка.
2.1. Обеспечение мониторинга: что мониторить, как мониторить?
2.2. Схемы обеспечения отказоустойчивости и катастрофоустойчивости элементов систем потоковой обработки данных.
3. И как с этим жить в продакшне?
Реальные примеры аварий, как не наступить на наши грабли?