vLLM: механизм вывода и обслуживания LLM для эффективного использования памяти

Последние ресурсы по искусственному интеллектуОбновлено 10 месяцев назад Круг обмена ИИ

49.6K 00

Общее введение

vLLM - это высокопроизводительный и эффективный с точки зрения памяти механизм рассуждений и сервисов, предназначенный для моделирования больших языков (LLM). Первоначально разработанный в лаборатории Sky Computing Lab Калифорнийского университета в Беркли, в настоящее время он является проектом сообщества, в котором участвуют как ученые, так и промышленники. vLLM призван обеспечить быстрые, простые в использовании и экономически эффективные сервисы рассуждений LLM с поддержкой широкого спектра аппаратных платформ, включая CUDA, ROCm, TPU и другие. Среди его ключевых особенностей - оптимизированные циклы выполнения, кэширование префиксов без лишних затрат и улучшенная мультимодальная поддержка.

Список функций

High Throughput Reasoning: поддержка массивно-параллельных рассуждений, что значительно повышает скорость рассуждений.
Эффективная память: сократите использование памяти и повысьте эффективность работы модели за счет оптимизации управления памятью.
Поддержка нескольких аппаратных средств: совместимость с CUDA, ROCm, TPU и другими аппаратными платформами для гибкого развертывания.
Нулевое кэширование префиксов: сокращение дублирующих вычислений и повышение эффективности выводов.
Мультимодальная поддержка: поддержка нескольких типов ввода, таких как текст, изображение и т. д., для расширения сценариев применения.
Сообщество с открытым исходным кодом: поддерживается научными и промышленными кругами, постоянно обновляется и оптимизируется.

Использование помощи

Процесс установки

Клонируйте репозиторий проекта vLLM:

   git clone https://github.com/vllm-project/vllm.git
cd vllm

Установите зависимость:

   pip install -r requirements.txt

Выберите подходящий Dockerfile для сборки в зависимости от аппаратной платформы:

   docker build -f Dockerfile.cuda -t vllm:cuda .

Руководство по использованию

Запустите службу vLLM:

   python -m vllm.serve --model <模型路径>

Отправляет запрос на обоснование:

   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好，世界！"})
print(response.json())

Детальное управление функциями

Высокопроизводительные рассуждения: Благодаря распараллеливанию задачи рассуждений vLLM может обрабатывать большое количество запросов за короткий промежуток времени в сценариях с высокой интенсивностью работы.
Эффективная память: vLLM использует оптимизированную стратегию управления памятью для уменьшения занимаемой памяти, что делает его пригодным для работы в средах с ограниченными ресурсами.
Поддержка нескольких аппаратных средств: Пользователи могут выбрать нужный Dockerfile для сборки в зависимости от конфигурации оборудования и гибко развернуть его на разных платформах.
Кэширование префиксов с нулевыми накладными расходами: Кэшируя результаты префиксных вычислений, vLLM сокращает количество повторных вычислений и повышает эффективность выводов.
мультимодальная поддержка: vLLM поддерживает не только ввод текста, но и различные типы ввода, например, изображения, что расширяет возможности применения.

Последние ресурсы по искусственному интеллекту # Локально развернутый инструмент с открытым исходным кодом для создания крупных моделей

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

GLM Edge: Smart Spectrum выпускает конечные модели большого языка и мультимодальные модели понимания для мобильных, автомобильных и персональных платформ

1 год назад

038.5K

Stable Diffusion WebUI Forge：优化并加速过的图像生成模型

Stable Diffusion WebUI Forge: оптимизированные и ускоренные модели генерации изображений

Последние ресурсы по искусственному интеллекту # Инструмент генерации изображений для самостоятельного развертывания ИИ

1 год назад

053.1K

Interlify: инструмент интеграции для быстрого подключения API к большим моделям

Последние ресурсы по искусственному интеллекту # AI Open Services

10 месяцев назад

034.7K

Cuckoo: помощник переводчика в реальном времени для многоязычных встреч и распознавания специальной терминологии

Последние ресурсы по искусственному интеллекту Перевод # AI

10 месяцев назад

043K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

vLLM: механизм вывода и обслуживания LLM для эффективного использования памяти

Общее введение

Список функций

Использование помощи

Процесс установки

Руководство по использованию

Детальное управление функциями

Cognita: фреймворк с открытым исходным кодом для создания модульных приложений RAG и быстрого тестирования различных стратегий RAG

Wegic: создание красивых сайтов со статическими страницами с помощью диалога с искусственным интеллектом

Похожие статьи

GLM Edge: Smart Spectrum выпускает конечные модели большого языка и мультимодальные модели понимания для мобильных, автомобильных и персональных платформ

Stable Diffusion WebUI Forge: оптимизированные и ускоренные модели генерации изображений

Interlify: инструмент интеграции для быстрого подключения API к большим моделям

Cuckoo: помощник переводчика в реальном времени для многоязычных встреч и распознавания специальной терминологии

Нет комментариев

Последние коллекции

Последние статьи

vLLM: механизм вывода и обслуживания LLM для эффективного использования памяти

Общее введение

Список функций

Использование помощи

Процесс установки

Руководство по использованию

Детальное управление функциями

Cognita: фреймворк с открытым исходным кодом для создания модульных приложений RAG и быстрого тестирования различных стратегий RAG

Wegic: создание красивых сайтов со статическими страницами с помощью диалога с искусственным интеллектом

Похожие статьи

GLM Edge: Smart Spectrum выпускает конечные модели большого языка и мультимодальные модели понимания для мобильных, автомобильных и персональных платформ

Stable Diffusion WebUI Forge: оптимизированные и ускоренные модели генерации изображений

Interlify: инструмент интеграции для быстрого подключения API к большим моделям

Cuckoo: помощник переводчика в реальном времени для многоязычных встреч и распознавания специальной терминологии

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи