vLLM: motor de inferencia y servicio LLM para un uso eficiente de la memoria

Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

Introducción general

vLLM es un motor de razonamiento y servicios de alto rendimiento y memoria eficiente diseñado para Large Language Modelling (LLM). Desarrollado originalmente por el Sky Computing Lab de la Universidad de Berkeley, en la actualidad es un proyecto comunitario impulsado tanto por el mundo académico como por la industria. El objetivo de vLLM es proporcionar servicios de razonamiento LLM rápidos, fáciles de usar y rentables, compatibles con una amplia gama de plataformas de hardware, como CUDA, ROCm, TPU y otras. Entre sus principales características se incluyen bucles de ejecución optimizados, caché de prefijos sin sobrecarga y soporte multimodal mejorado.

Lista de funciones

Razonamiento de alto rendimiento: admite el razonamiento paralelo masivo, lo que mejora significativamente la velocidad de razonamiento.
Eficacia de la memoria: reduzca el espacio de memoria y mejore la eficacia del funcionamiento del modelo optimizando la gestión de la memoria.
Soporte multi-hardware: Compatible con CUDA, ROCm, TPU y otras plataformas de hardware para un despliegue flexible.
Zero-overhead prefix caching: Reducing duplicate computation and improving inference efficiency.
Soporte multimodal: admite múltiples tipos de entrada, como texto, imagen, etc., para ampliar los escenarios de aplicación.
Comunidad de código abierto: mantenida por el mundo académico y la industria, continuamente actualizada y optimizada.

Utilizar la ayuda

Proceso de instalación

Clone el repositorio del proyecto vLLM:

   git clone https://github.com/vllm-project/vllm.git
cd vllm

Instale la dependencia:

   pip install -r requirements.txt

Elija el Dockerfile adecuado para la compilación en función de la plataforma de hardware:

   docker build -f Dockerfile.cuda -t vllm:cuda .

Normas de uso

Inicie el servicio vLLM:

   python -m vllm.serve --model <模型路径>

Envía una solicitud de razonamiento:

   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好，世界！"})
print(response.json())

Funcionamiento detallado

Razonamiento de alto rendimientovLLM: al paralelizar la tarea de razonamiento, vLLM es capaz de gestionar un gran número de peticiones en un corto periodo de tiempo para escenarios altamente concurrentes.
Memoria eficiente: vLLM utiliza una estrategia de gestión de memoria optimizada para reducir la huella de memoria, lo que lo hace adecuado para ejecutarse en entornos con recursos limitados.
Soporte multi-hardwareLos usuarios pueden elegir el archivo Docker adecuado para construir según su configuración de hardware y desplegarlo de forma flexible en diferentes plataformas.
Caché de prefijos sin sobrecargaEl vLLM, al almacenar en caché los resultados de los cálculos de prefijos, reduce la repetición de cálculos y mejora la eficacia de la inferencia.
apoyo multimodal: vLLM no sólo admite la introducción de texto, sino que también puede manejar diversos tipos de entrada, como imágenes, lo que amplía los escenarios de aplicación.

Últimos recursos sobre IA # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Kits: Mezcla múltiples voces clonadas para versionar canciones, herramienta de separación de pistas de acompañamiento de audio

Últimos recursos sobre IA # AI Música

hace 1 año

042.4K

HunyuanVideo-Foley - Modelo de generación de sonido de vídeo de código abierto de Tencent

Últimos recursos sobre IA

hace 4 meses

038.3K

IA para empresas: aplicaciones de IA para empresas y plataforma de bajo código basada en el mercado de aplicaciones de IA Flying Book.

Últimos recursos sobre IA # AI Servicios abiertos # Marco de desarrollo del cuerpo inteligente

hace 1 año

038.5K

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

Últimos recursos sobre IA

hace 3 meses

029.2K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

vLLM: motor de inferencia y servicio LLM para un uso eficiente de la memoria

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Funcionamiento detallado

Cognita: un marco de código abierto para construir aplicaciones modulares de GAR y probar rápidamente diversas estrategias de GAR.

Wegic: generación de hermosos sitios web de páginas estáticas mediante el diálogo con la IA

Artículos relacionados

Kits: Mezcla múltiples voces clonadas para versionar canciones, herramienta de separación de pistas de acompañamiento de audio

HunyuanVideo-Foley - Modelo de generación de sonido de vídeo de código abierto de Tencent

IA para empresas: aplicaciones de IA para empresas y plataforma de bajo código basada en el mercado de aplicaciones de IA Flying Book.

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

Sin comentarios

Últimas colecciones

Últimos artículos

vLLM: motor de inferencia y servicio LLM para un uso eficiente de la memoria

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Funcionamiento detallado

Cognita: un marco de código abierto para construir aplicaciones modulares de GAR y probar rápidamente diversas estrategias de GAR.

Wegic: generación de hermosos sitios web de páginas estáticas mediante el diálogo con la IA

Artículos relacionados

Kits: Mezcla múltiples voces clonadas para versionar canciones, herramienta de separación de pistas de acompañamiento de audio

HunyuanVideo-Foley - Modelo de generación de sonido de vídeo de código abierto de Tencent

IA para empresas: aplicaciones de IA para empresas y plataforma de bajo código basada en el mercado de aplicaciones de IA Flying Book.

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos