vLLM : Un moteur d'inférence et de service LLM pour une utilisation efficace de la mémoire

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

23.8K 00

Introduction générale

vLLM est un moteur de raisonnement et de services à haut débit et à mémoire efficace, conçu pour la modélisation des grands langages (LLM). Développé à l'origine par le Sky Computing Lab de l'université de Berkeley, il s'agit désormais d'un projet communautaire mené à la fois par les universités et l'industrie. vLLM vise à fournir des services de raisonnement LLM rapides, faciles à utiliser et rentables, avec une prise en charge d'une large gamme de plates-formes matérielles, notamment CUDA, ROCm, TPU, et bien d'autres. Ses principales caractéristiques comprennent des boucles d'exécution optimisées, une mise en cache des préfixes sans frais généraux et une prise en charge multimodale améliorée.

Liste des fonctions

Raisonnement à haut débit : prend en charge le raisonnement massivement parallèle, ce qui améliore considérablement la vitesse de raisonnement.
Mémoire efficace : réduire l'utilisation de la mémoire et améliorer l'efficacité du fonctionnement du modèle en optimisant la gestion de la mémoire.
Prise en charge de plusieurs matériels : compatible avec CUDA, ROCm, TPU et d'autres plates-formes matérielles pour un déploiement flexible.
Zero-overhead prefix caching : Reducing duplicate computation and improving inference efficiency (Mise en cache de préfixes sans frais généraux : réduction des calculs en double et amélioration de l'efficacité de l'inférence).
Prise en charge multimodale : Prise en charge de plusieurs types d'entrée tels que le texte, l'image, etc. afin d'étendre les scénarios d'application.
Communauté open source : entretenue par les universités et l'industrie, mise à jour et optimisée en permanence.

Utiliser l'aide

Processus d'installation

Cloner le référentiel du projet vLLM :

   git clone https://github.com/vllm-project/vllm.git
cd vllm

Installer la dépendance :

   pip install -r requirements.txt

Choisissez le bon fichier Docker pour la construction en fonction de la plateforme matérielle :

   docker build -f Dockerfile.cuda -t vllm:cuda .

Lignes directrices pour l'utilisation

Démarrer le service vLLM :

   python -m vllm.serve --model <模型路径>

Envoi d'une demande de raisonnement :

   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好，世界！"})
print(response.json())

Fonctionnement détaillé

Raisonnement à haut débitEn parallélisant la tâche de raisonnement, vLLM est capable de traiter un grand nombre de demandes dans un court laps de temps pour des scénarios hautement simultanés.
Mémoire efficaceLe vLLM utilise une stratégie de gestion de la mémoire optimisée pour réduire l'empreinte mémoire, ce qui permet de l'utiliser dans des environnements où les ressources sont limitées.
Prise en charge de matériels multiplesLes utilisateurs peuvent choisir le bon fichier Docker à construire en fonction de leur configuration matérielle et le déployer de manière flexible sur différentes plateformes.
Mise en cache des préfixes sans frais générauxEn mettant en cache les résultats des calculs des préfixes, vLLM réduit les calculs répétés et améliore l'efficacité de l'inférence.
soutien multimodalLe vLLM ne prend pas seulement en charge la saisie de texte, mais peut également traiter une variété de types de saisie tels que les images, ce qui élargit les scénarios d'application.

Dernières ressources sur l'IA # Outil de grand modèle à source ouverte déployé localement

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Cognita : un cadre open source pour construire des applications RAG modulaires et tester rapidement diverses stratégies RAG

Il y a 8 mois

021.3K

Exa : un moteur de recherche intelligent conçu pour l'IA (service de recherche API)

Dernières ressources sur l'IA # AI Open Services # AI outil de recherche

Il y a 8 mois

024.8K

CYAN.AI（青色木偶科技）：动作生成大模型，实现2D视频生成3D动作数据的AI平台

CYAN.AI (Cyan Puppet Technology) : grand modèle de génération d'actions, plateforme d'IA pour générer des données d'action en 3D à partir de vidéos en 2D

Dernières ressources sur l'IA # AI Aides à la génération d'images

Il y a 9 mois

018.9K

pure.md : insérer "pure.md/" devant l'URL pour extraire le texte propre.

Dernières ressources sur l'IA # AI Open Services # Extraction et nettoyage de documents

Il y a 6 mois

017.9K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

vLLM : Un moteur d'inférence et de service LLM pour une utilisation efficace de la mémoire

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Fonctionnement détaillé

Cognita : un cadre open source pour construire des applications RAG modulaires et tester rapidement diverses stratégies RAG

Wegic : générer de beaux sites web à pages statiques grâce au dialogue avec l'IA

Articles connexes

Cognita : un cadre open source pour construire des applications RAG modulaires et tester rapidement diverses stratégies RAG

Exa : un moteur de recherche intelligent conçu pour l'IA (service de recherche API)

CYAN.AI (Cyan Puppet Technology) : grand modèle de génération d'actions, plateforme d'IA pour générer des données d'action en 3D à partir de vidéos en 2D

pure.md : insérer "pure.md/" devant l'URL pour extraire le texte propre.

Pas de commentaires

Dernières collections

Derniers articles

vLLM : Un moteur d'inférence et de service LLM pour une utilisation efficace de la mémoire

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Fonctionnement détaillé

Cognita : un cadre open source pour construire des applications RAG modulaires et tester rapidement diverses stratégies RAG

Wegic : générer de beaux sites web à pages statiques grâce au dialogue avec l'IA

Articles connexes

Cognita : un cadre open source pour construire des applications RAG modulaires et tester rapidement diverses stratégies RAG

Exa : un moteur de recherche intelligent conçu pour l'IA (service de recherche API)

CYAN.AI (Cyan Puppet Technology) : grand modèle de génération d'actions, plateforme d'IA pour générer des données d'action en 3D à partir de vidéos en 2D

pure.md : insérer "pure.md/" devant l'URL pour extraire le texte propre.

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles