Выявление аномалий в микросервисной инфраструктуре Observability в enterprise

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

В докладе рассматривается использование подхода, предполагающего автоматическое выявление значимых сигналов путем анализа отклонения значений метрик от текущей нормы и обнаружение аномалий в KPI производительности микросервисов и инфраструктуры Kubernetes. Выявление взаимосвязей микросервисов и объектов инфраструктуры, путем анализа трейсов запросов, позволяет группировать найденные аномалии для оперативной изоляции исходной проблемы. Для обнаружения значимых аномалий необходимо использовать анализ не только метрик, но и логов и трейсов – всех столпов observability.

Сложность детектирования проблем производительности в микросервисной архитектуре и Kubernetes возрастает пропорционально количеству сервисов. Традиционный подход к мониторингу, базирующийся на анализе значений метрик производительности и сравнения с заданным порогом, сложно масштабируется для микросервисных инфраструктур, так как экспоненциально возрастает количество метрик.

Будут рассмотрены вопросы выбора и группировки значимых метрик и лейблов, представлен обзор open source инструментов для выявления аномалий в метриках Prometheus, а также рассмотрены подходы основных enterprise и open source вендоров платформ observability к выявлению baseline и аномалий в производительности приложений в микросервисной архитектуре.

Воркшоп: Observability для микросервисных приложений в Kubernetes.

Это практическая сессия для DevOps, на которой вы сможете за 1 час посмотреть вживую систему observability для микросервисных приложений, работающих в Kubernetes.

Что мы будем делать вместе:
1. Развернем в кластере демонстрационное гетерогенное микросервисное приложение (стэк - NodeJS, Java, Python, Golang, PHP, MongoDB, Redis, MySQL, RabbitMQ, Nginx, AngularJS): https://github.com/instana/robot-shop

2. Установим в кластер под с системой observability, получим контроль всего кластера и всех микросервисов, трейсинг всех запросов и видимость на уровне кода.

3. Сгенерируем нагрузку, инициируем инцидент.

4. Расследуем инцидент используя метрики Golden Signals, принципы observability и выявления аномалий в метриках.

Требования:
1. Запущенный Kubernetes кластер, настроенный kubectl и helm.
2. Регистрация в Instana для получения полнофункциональной SaaS системы observability на 14 дней: https://www.instana.com/trial/ (можно сделать в ходе воркшопа

Денис Безкоровайный

Proto Group

Более 15 лет руководит проектами в области информационных технологий и информационной безопасности. Сейчас занимается техническим развитием продукта Proto Observability Platform. Сертифицированный эксперт в области информационной безопасности и облачных вычислений — CISA, CISSP, CCSK.
Основные интересы — Kubernetes, микросервисы, мониторинг производительности приложений, observability.

denis@proto.group
TG: @denis_bezkorovayny

Подготовительное задание

Требования:
1. Запущенный Kubernetes кластер, настроенный kubectl и helm.
2. Регистрация в Instana для получения полнофункциональной SaaS системы observability на 14 дней: https://www.instana.com/trial/ (можно сделать в ходе воркшопа