vLLM : Un moteur d'inférence et de service LLM pour une utilisation efficace de la mémoire

Introduction générale

vLLM est un moteur de raisonnement et de services à haut débit et à mémoire efficace, conçu pour la modélisation des grands langages (LLM). Développé à l'origine par le Sky Computing Lab de l'université de Berkeley, il s'agit désormais d'un projet communautaire mené à la fois par les universités et l'industrie. vLLM vise à fournir des services de raisonnement LLM rapides, faciles à utiliser et rentables, avec une prise en charge d'une large gamme de plates-formes matérielles, notamment CUDA, ROCm, TPU, et bien d'autres. Ses principales caractéristiques comprennent des boucles d'exécution optimisées, une mise en cache des préfixes sans frais généraux et une prise en charge multimodale améliorée.

vLLM:高效内存利用的LLM推理和服务引擎

 

Liste des fonctions

  • Raisonnement à haut débit : prend en charge le raisonnement massivement parallèle, ce qui améliore considérablement la vitesse de raisonnement.
  • Mémoire efficace : réduire l'utilisation de la mémoire et améliorer l'efficacité du fonctionnement du modèle en optimisant la gestion de la mémoire.
  • Prise en charge de plusieurs matériels : compatible avec CUDA, ROCm, TPU et d'autres plates-formes matérielles pour un déploiement flexible.
  • Zero-overhead prefix caching : Reducing duplicate computation and improving inference efficiency (Mise en cache de préfixes sans frais généraux : réduction des calculs en double et amélioration de l'efficacité de l'inférence).
  • Prise en charge multimodale : Prise en charge de plusieurs types d'entrée tels que le texte, l'image, etc. afin d'étendre les scénarios d'application.
  • Communauté open source : entretenue par les universités et l'industrie, mise à jour et optimisée en permanence.

 

Utiliser l'aide

Processus d'installation

  1. Cloner le référentiel du projet vLLM :
   git clone https://github.com/vllm-project/vllm.git
cd vllm
  1. Installer la dépendance :
   pip install -r requirements.txt
  1. Choisissez le bon fichier Docker pour la construction en fonction de la plateforme matérielle :
   docker build -f Dockerfile.cuda -t vllm:cuda .

Lignes directrices pour l'utilisation

  1. Démarrer le service vLLM :
   python -m vllm.serve --model <模型路径>
  1. Envoi d'une demande de raisonnement :
   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好,世界!"})
print(response.json())

Fonctionnement détaillé

  • Raisonnement à haut débitEn parallélisant la tâche de raisonnement, vLLM est capable de traiter un grand nombre de demandes dans un court laps de temps pour des scénarios hautement simultanés.
  • Mémoire efficaceLe vLLM utilise une stratégie de gestion de la mémoire optimisée pour réduire l'empreinte mémoire, ce qui permet de l'utiliser dans des environnements où les ressources sont limitées.
  • Prise en charge de matériels multiplesLes utilisateurs peuvent choisir le bon fichier Docker à construire en fonction de leur configuration matérielle et le déployer de manière flexible sur différentes plateformes.
  • Mise en cache des préfixes sans frais générauxEn mettant en cache les résultats des calculs des préfixes, vLLM réduit les calculs répétés et améliore l'efficacité de l'inférence.
  • soutien multimodalLe vLLM ne prend pas seulement en charge la saisie de texte, mais peut également traiter une variété de types de saisie tels que les images, ce qui élargit les scénarios d'application.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...