Развертывание больших языковых моделей (LLM) на локальных ресурсах — это путь от экспериментальных скриптов к промышленному сервису, где стабильность и скорость критичны. В докладе мы разберем, как превратить «сырую» модель в предсказуемый MaaS: от настройки параметров модели и конфигурации оборудования до проектирования инфраструктуры с балансировкой нагрузки. Вы узнаете, как избежать типичных ошибок — от перегруза серверов до неконтролируемой генерации — и обеспечить низкий latency даже при пиковых запросах.
Основой выступления станет реальный кейс: развертывание LLM для задачи суммаризации в корпоративной среде с демонстрацией метрик «до» и «после».