«Внедрение больших языковых моделей локально: практический путь к высокой производительности и стабильности»
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Развертывание больших языковых моделей (LLM) на локальных ресурсах — это путь от экспериментальных скриптов к промышленному сервису, где стабильность и скорость критичны. В докладе мы разберем, как превратить «сырую» модель в предсказуемый MaaS: от настройки параметров модели и конфигурации оборудования до проектирования инфраструктуры с балансировкой нагрузки. Вы узнаете, как избежать типичных ошибок — от перегруза серверов до неконтролируемой генерации — и обеспечить низкий latency даже при пиковых запросах.
Основой выступления станет реальный кейс: развертывание Llama для задачи суммаризации в корпоративной среде с демонстрацией метрик «до» и «после».
NLP Researcher
Raft
Видео
Другие доклады секции
MLOps и Data Engineering