vLLM: motor de inferencia y servicio LLM para un uso eficiente de la memoria

Introducción general

vLLM es un motor de razonamiento y servicios de alto rendimiento y memoria eficiente diseñado para Large Language Modelling (LLM). Desarrollado originalmente por el Sky Computing Lab de la Universidad de Berkeley, en la actualidad es un proyecto comunitario impulsado tanto por el mundo académico como por la industria. El objetivo de vLLM es proporcionar servicios de razonamiento LLM rápidos, fáciles de usar y rentables, compatibles con una amplia gama de plataformas de hardware, como CUDA, ROCm, TPU y otras. Entre sus principales características se incluyen bucles de ejecución optimizados, caché de prefijos sin sobrecarga y soporte multimodal mejorado.

vLLM:高效内存利用的LLM推理和服务引擎

 

Lista de funciones

  • Razonamiento de alto rendimiento: admite el razonamiento paralelo masivo, lo que mejora significativamente la velocidad de razonamiento.
  • Eficacia de la memoria: reduzca el espacio de memoria y mejore la eficacia del funcionamiento del modelo optimizando la gestión de la memoria.
  • Soporte multi-hardware: Compatible con CUDA, ROCm, TPU y otras plataformas de hardware para un despliegue flexible.
  • Zero-overhead prefix caching: Reducing duplicate computation and improving inference efficiency.
  • Soporte multimodal: admite múltiples tipos de entrada, como texto, imagen, etc., para ampliar los escenarios de aplicación.
  • Comunidad de código abierto: mantenida por el mundo académico y la industria, continuamente actualizada y optimizada.

 

Utilizar la ayuda

Proceso de instalación

  1. Clone el repositorio del proyecto vLLM:
   git clone https://github.com/vllm-project/vllm.git
cd vllm
  1. Instale la dependencia:
   pip install -r requirements.txt
  1. Elija el Dockerfile adecuado para la compilación en función de la plataforma de hardware:
   docker build -f Dockerfile.cuda -t vllm:cuda .

Normas de uso

  1. Inicie el servicio vLLM:
   python -m vllm.serve --model <模型路径>
  1. Envía una solicitud de razonamiento:
   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好,世界!"})
print(response.json())

Funcionamiento detallado

  • Razonamiento de alto rendimientovLLM: al paralelizar la tarea de razonamiento, vLLM es capaz de gestionar un gran número de peticiones en un corto periodo de tiempo para escenarios altamente concurrentes.
  • Memoria eficiente: vLLM utiliza una estrategia de gestión de memoria optimizada para reducir la huella de memoria, lo que lo hace adecuado para ejecutarse en entornos con recursos limitados.
  • Soporte multi-hardwareLos usuarios pueden elegir el archivo Docker adecuado para construir según su configuración de hardware y desplegarlo de forma flexible en diferentes plataformas.
  • Caché de prefijos sin sobrecargaEl vLLM, al almacenar en caché los resultados de los cálculos de prefijos, reduce la repetición de cálculos y mejora la eficacia de la inferencia.
  • apoyo multimodal: vLLM no sólo admite la introducción de texto, sino que también puede manejar diversos tipos de entrada, como imágenes, lo que amplía los escenarios de aplicación.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...