"Развертывание локальных LLM и Vision Transformers: от настройки модели до оптимального инференса"
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
"Оптимизация локальных LLM и Vision Transformers: практические аспекты быстрого и надежного инференса"
В этом докладе мы рассмотрим, как эффективно развернуть большие языковые модели (LLM) и Vision Transformers на локальных ресурсах. Вы узнаете о настройке моделей и серверной инфраструктуры, организации очередей запросов и применении структурированного декодинга для достижения высокой производительности и стабильности. Доклад предоставит практические рекомендации по созданию "Model as a Service", обеспечивающего быстрый, предсказуемый и надежный инференс.
NLP Researcher
Raft
Видео
Другие доклады секции
Platform Engineering