FastDeploy - l'outil de raisonnement et de déploiement de grands modèles haute performance de Baidu

Dernières ressources sur l'IAMise à jour il y a 2 mois Cercle de partage de l'IA

17.4K 00

Qu'est-ce que FastDeploy ?

FastDeploy est un outil d'inférence et de déploiement haute performance de Baidu, conçu pour les grands modèles de langage (LLM) et les modèles de langage visuels (VLM). FastDeploy est développé sur la base du cadre PaddlePaddle, prend en charge plusieurs plates-formes matérielles (par exemple, NVIDIA GPU, Kunlun XPU, etc.) et est équipé de fonctionnalités telles que l'équilibrage de charge, l'optimisation quantitative et l'inférence distribuée, FastDeploy est compatible avec l'API OpenAI et l'API vLLM pour prendre en charge le raisonnement local et au service, ce qui simplifie le processus de déploiement des grands modèles. La dernière version, FastDeploy 2.0, introduit une technologie de quantification à 2 bits afin d'optimiser encore les performances et de permettre un déploiement efficace de modèles plus importants.

Principales caractéristiques de FastDeploy

Déploiement efficace du raisonnementIl prend en charge une variété de plates-formes matérielles telles que les GPU NVIDIA, les XPU Kunlun Core, etc., et fournit une fonction de déploiement en un clic pour simplifier le processus de déploiement de l'inférence des modèles de grande taille.
l'optimisation des performancesAmélioration significative de la vitesse d'inférence des modèles grâce à des techniques de quantification (par exemple, quantification sur 2 bits), à l'optimisation des graphes CUDA et au décodage spéculatif.
inférence distribuéeLes objectifs de ce projet sont les suivants : soutenir le raisonnement distribué à grande échelle, optimiser l'efficacité de la communication et améliorer l'efficacité du raisonnement pour les modèles à grande échelle.
Équilibrage de la charge et ordonnancementDétection de la charge en temps réel et planification de l'équilibrage de la charge distribuée basée sur Redis afin d'optimiser les performances du cluster et de garantir un fonctionnement stable du système en cas de charge élevée.
l'utilisabilitéLe logiciel est doté d'une interface Python propre et d'une documentation détaillée qui permettent aux utilisateurs de se lancer rapidement.
Techniques de quantification à 2 bitsL'introduction de la quantification sur 2 bits réduit considérablement l'empreinte mémoire et les besoins en ressources matérielles, ce qui permet de déployer des centaines de milliards de modèles au niveau des paramètres sur une seule carte.
la compatibilitéL'interface vLLM est compatible avec l'API OpenAI et l'interface vLLM, et prend en charge à la fois le raisonnement local et le raisonnement avec service, avec 4 lignes de code pour compléter le raisonnement local, et 1 ligne de commande pour démarrer le service.

Adresse du site officiel de FastDeploy

Site web du projet: : https://paddlepaddle.github.io/FastDeploy/
Dépôt GitHub: : https://github.com/PaddlePaddle/FastDeploy

Comment utiliser FastDeploy

Installation des dépendancesInstallation du cadre de la pagaie volante et FastDeploy :

pip install paddlepaddle fastdeploy

Préparer le modèle :Télécharger et préparer le fichier du modèle (par exemple, modèle pré-entraîné ou modèle converti).
inférence localeLe développement durable : raisonnement local à l'aide d'interfaces Python :

from fastdeploy import inference

# 加载模型
model = inference.Model("path/to/model")

# 准备输入数据
input_data = {"input_ids": [1, 2, 3], "attention_mask": [[1, 1, 1]]}

# 进行推理
result = model.predict(input_data)
print(result)

Déploiement orienté services: Démarrer le service pour le raisonnement :

fastdeploy serve --model path/to/model --port 8080

l'optimisation des performancesLes modèles d'optimisation : Optimiser les modèles à l'aide de techniques quantitatives :

from fastdeploy import quantization

quantized_model = quantization.quantize_model("path/to/model", "path/to/quantized_model", quantization_type="2-bit")

Les principaux avantages de FastDeploy

Raisonnement à haute performanceLa technologie de l'entreprise est basée sur la quantification, CUDA Graph et d'autres technologies pour améliorer considérablement la vitesse d'inférence, tout en prenant en charge plusieurs plates-formes matérielles pour exploiter pleinement les performances du matériel.
Un déploiement efficaceLe système de gestion de l'information (SGI) : il fournit une interface Python propre et des outils de ligne de commande pour prendre en charge le raisonnement en local et en service et simplifier le processus de déploiement.
Optimisation des ressourcesLe dernier ajout au système est une technologie de quantification à 2 bits qui réduit considérablement l'empreinte de la mémoire graphique, prend en charge le déploiement d'une seule carte pour les modèles hyperscale et optimise l'utilisation des ressources du cluster grâce à l'équilibrage de la charge.
l'utilisabilitéL'interface est simple et bien documentée pour un démarrage rapide, compatible avec les API OpenAI et les interfaces vLLM, et permet un démarrage rapide des services.
Application multi-scénariosLe traitement du langage naturel : Largement applicable au traitement du langage naturel, aux applications multimodales, aux déploiements industriels, à la recherche universitaire et aux applications d'entreprise pour répondre à des besoins divers.

A qui s'adresse FastDeploy ?

Développeurs d'entrepriseLes développeurs d'entreprise déploient rapidement de grands modèles, optimisent les ressources pour réduire les coûts et contribuent à améliorer l'efficacité des services de l'entreprise.
Scientifiques des données et chercheursLe site Web de l'Agence européenne pour la sécurité et la santé au travail (ESA) : expériences d'inférence de haute performance et études multimodales réalisées par des chercheurs pour soutenir l'optimisation et l'expérimentation de modèles efficaces.
architecte de systèmeL'architecte est responsable de la conception de systèmes d'inférence distribués à grande échelle et de l'optimisation de l'équilibrage de la charge afin de garantir un fonctionnement stable du système.
Développeurs d'applications d'IALes développeurs développent des applications de traitement du langage naturel et des applications multimodales afin d'améliorer les performances des applications et d'optimiser l'expérience de l'utilisateur.
Chercheurs universitairesLes chercheurs étudient l'optimisation des modèles et les techniques multimodales afin de faciliter les expériences efficaces et de faire progresser la recherche universitaire.