Профессиональная конференция по интеграции процессов разработки, тестирования и эксплуатации

7 и 8 апреля 2025

Москва

"Развертывание локальных LLM и Vision Transformers: от настройки модели до оптимального инференса"

Platform Engineering

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Доклад рассчитан на DevOps-инженеров, системных администраторов, инженеров платформ, специалистов по инфраструктуре, занимающихся развертыванием и оптимизацией больших языковых моделей (LLM) и Vision Transformers на локальных мощностях.

Тезисы

"Оптимизация локальных LLM и Vision Transformers: практические аспекты быстрого и надежного инференса"
В этом докладе мы рассмотрим, как эффективно развернуть большие языковые модели (LLM) и Vision Transformers на локальных ресурсах. Вы узнаете о настройке моделей и серверной инфраструктуры, организации очередей запросов и применении структурированного декодинга для достижения высокой производительности и стабильности. Доклад предоставит практические рекомендации по созданию "Model as a Service", обеспечивающего быстрый, предсказуемый и надежный инференс.

NLP Researcher

Raft

Raft специализируется на разработке прикладных решений на основе генеративного ИИ. Одно из их решений — это платформа для анализа звонков на GPT http://audioinsights.ru. Активно используют сервисы OpenAI, открытые модели Llama/Mistral, и являются партнёрами YandexGPT и СберДевайсов.

Видео

Другие доклады секции

Platform Engineering

Маркетплейс сервисов компании
Крылов Дмитрий

Цифровые Технологии и Платформы