Внедрение больших языковых моделей локально: практический путь к высокой производительности и стабильности

MLOps и Data Engineering

DevOps на собственном (арендованном) оборудовании
ML
Микросервисы

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Вы любопытствующий гик или инженер, который хочет разобраться, как разворачивать локальные LLM-модели, чтобы посмотреть, как они устроены, и какие задачи могут решать? Приходите на доклад и узнаете, как настроить инференс LLM так, чтобы хватало GPU и ничего не тормозило.

Целевая аудитория

Доклад даст DevOps-инженерам и платформенным специалистам готовый алгоритм перевода LLM из лаборатории в продакшн. Акцент на практику: не только «как работает», но и «как внедрить», подкрепленное цифрами и инженерными решениями.

Тезисы

Развертывание больших языковых моделей (LLM) на локальных ресурсах — это путь от экспериментальных скриптов к промышленному сервису, где стабильность и скорость критичны. В докладе мы разберем, как превратить «сырую» модель в предсказуемый MaaS: от настройки параметров модели и конфигурации оборудования до проектирования инфраструктуры с балансировкой нагрузки. Вы узнаете, как избежать типичных ошибок — от перегруза серверов до неконтролируемой генерации — и обеспечить низкий latency даже при пиковых запросах.

Основой выступления станет реальный кейс: развертывание LLM для задачи суммаризации в корпоративной среде с демонстрацией метрик «до» и «после».

Team Lead Research NLP.

Raft

Raft специализируется на разработке приложений на основе генеративного ИИ, применяя такие технологии, как ChatGTP, LLama, YandexGPT, SberDevices. Raft занимается созданием решений для защиты приложений на генеративном ИИ от потенциальных угроз и разрабатывает свои продукты.

Видео