Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

«Внедрение больших языковых моделей локально: практический путь к высокой производительности и стабильности»

MLOps и Data Engineering

DevOps на собственном (арендованном) оборудовании
ML
Микросервисы

Доклад принят в программу конференции

Целевая аудитория

Доклад даст DevOps-инженерам и платформенным специалистам готовый алгоритм перевода LLM из лаборатории в продакшн. Акцент на практику: не только «как работает», но и «как внедрить», подкрепленное цифрами и инженерными решениями.

Тезисы

Развертывание больших языковых моделей (LLM) на локальных ресурсах — это путь от экспериментальных скриптов к промышленному сервису, где стабильность и скорость критичны. В докладе мы разберем, как превратить «сырую» модель в предсказуемый MaaS: от настройки параметров модели и конфигурации оборудования до проектирования инфраструктуры с балансировкой нагрузки. Вы узнаете, как избежать типичных ошибок — от перегруза серверов до неконтролируемой генерации — и обеспечить низкий latency даже при пиковых запросах.
Основой выступления станет реальный кейс: развертывание Llama для задачи суммаризации в корпоративной среде с демонстрацией метрик «до» и «после».

NLP Researcher

Raft

Raft специализируется на разработке и интеграции решений с использованием новейших AI технологий. С помощью передовых технологий и инновационных подходов, мы преобразуем и оптимизируем бизнес-процессы, повышая их производительность и эффективность.

Видео