La boîte à outils de l'ingénieur en modélisation des grands langages : une sélection de plus de 120 ressources bibliothécaires utiles

Nouvelles de l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

17.7K 00

Dans le domaine de l'intelligence artificielle, la technologie de modélisation des grands langages (LLM) évolue rapidement et de nombreuses bibliothèques d'outils apparaissent. Afin d'aider les développeurs à mieux relever les défis du développement LLM, ce document compile une boîte à outils contenant plus de 120 bibliothèques LLM utiles, divisées par catégories fonctionnelles, afin que les ingénieurs puissent les trouver et les appliquer rapidement.

Navigation rapide

Pour permettre aux lecteurs de trouver rapidement les ressources dont ils ont besoin, voici des liens rapides vers les bibliothèques d'outils pour chaque catégorie :


🚀 Formation et mise au point du LLM	🧱 Développement d'applications LLM	🩸 Génération de l'amélioration de l'extraction LLM (RAG)
🟩 Raisonnement LLM	🚧 Déploiement du service LLM	📤 Extraction des données LLM
🌠 Génération de données LLM	💎 LLM Corps intelligent	⚖️ Évaluation du LLM
🔍 Suivi et contrôle du LLM	📅 LLM Prompt Word Engineering	📝 LLM Sortie structurée
🛑 LLM Sécurité	💠 Modèle intégré LLM	❇️ Autre

Formation et perfectionnement en matière de LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
non-loth	Ajustez le LLM plus rapidement avec moins de mémoire.	lien (sur un site web)
PEFT	Bibliothèque avancée pour un réglage précis et efficace des paramètres.	lien (sur un site web)
TRL	Formation par apprentissage par renforcement transformateur Modélisation du langage.	lien (sur un site web)
Transformateurs	Transformers fournit des milliers de modèles pré-entraînés pour effectuer des tâches dans différentes modalités telles que le texte, la vision et l'audio.	lien (sur un site web)
Axolotl	Outils conçus pour simplifier le post-entraînement de divers modèles d'IA.	lien (sur un site web)
LLMBox	Une bibliothèque LLM complète, comprenant un pipeline de formation unifié et une évaluation complète des modèles.	lien (sur un site web)
LitGPT	Former et affiner rapidement le LLM.	lien (sur un site web)
Mergoo	Une bibliothèque permettant de fusionner facilement plusieurs experts LLM et de former efficacement le LLM fusionné.	lien (sur un site web)
Usine à lamas	Outil simple et efficace de réglage fin du LLM.	lien (sur un site web)
Ludwig	Cadre de travail à code bas pour la construction de LLM, de réseaux neuronaux et d'autres modèles d'IA personnalisés.	lien (sur un site web)
Txtinstruct	Un cadre pour la formation des modèles de réglage des instructions.	lien (sur un site web)
Lamini	Une plateforme intégrée d'inférence et de réglage LLM.	lien (sur un site web)
XTuring	XTuring permet un réglage rapide, efficace et simple des LLMs open source tels que Mistral, LLaMA, GPT-J et d'autres.	lien (sur un site web)
RL4LMs	Une bibliothèque RL modulaire pour l'adaptation des modèles linguistiques aux préférences humaines.	lien (sur un site web)
DeepSpeed	DeepSpeed est une bibliothèque d'optimisation de l'apprentissage profond qui rend l'entraînement et l'inférence distribués simples, efficaces et efficients.	lien (sur un site web)
torchtune	Une bibliothèque native PyTorch conçue spécifiquement pour affiner LLM.	lien (sur un site web)
PyTorch foudre	Une bibliothèque qui fournit une interface de haut niveau pour le pré-entraînement et le réglage fin des LLM.	lien (sur un site web)

Développement d'applications LLM

fig. modèle

nom de la bibliothèque	descriptions	lien (sur un site web)
LangChain	LangChain est un cadre pour le développement d'applications basées sur le Grand Modèle de Langage (LLM).	lien (sur un site web)
Index des lamas	LlamaIndex est le cadre de données pour les applications LLM.	lien (sur un site web)
HayStack	Haystack est un cadre LLM de bout en bout qui permet aux utilisateurs de construire des applications pilotées par LLM, des modèles Transformer, la recherche vectorielle, et plus encore.	lien (sur un site web)
Flux rapide	Un ensemble d'outils de développement conçus pour simplifier le cycle de développement de bout en bout des applications d'IA basées sur le LLM.	lien (sur un site web)
Griptape	Un cadre modulaire Python pour la construction d'applications pilotées par l'IA.	lien (sur un site web)
Tissage	Weave est une boîte à outils pour le développement d'applications d'IA générative.	lien (sur un site web)
Pile de lamas	Construire l'application Llama.	lien (sur un site web)

Accès multiples à l'API

nom de la bibliothèque	descriptions	lien (sur un site web)
LiteLLM	Une bibliothèque de plus de 100 appels d'API LLM au format OpenAI.	lien (sur un site web)
Passerelle AI	Une passerelle IA rapide avec des clôtures intégrées. Routes vers plus de 200 LLM, plus de 50 clôtures d'IA via une API rapide et conviviale.	lien (sur un site web)

routeur (informatique)

nom de la bibliothèque	descriptions	lien (sur un site web)
RouteLLM	Cadre pour l'entretien et l'évaluation des routeurs LLM - Réduction des coûts LLM sans compromettre la qualité Remplacement direct des clients OpenAI pour l'acheminement de requêtes plus simples vers des modèles moins coûteux.	lien (sur un site web)

mémorisation

nom de la bibliothèque	descriptions	lien (sur un site web)
mem0	Couche de mémoire pour les applications d'intelligence artificielle.	lien (sur un site web)
Mémoire	Une couche de mémoire IA avec stockage à court et à long terme, regroupement sémantique et décomposition facultative de la mémoire pour les applications sensibles au contexte.	lien (sur un site web)

Interfaces

nom de la bibliothèque	descriptions	lien (sur un site web)
Éclairé par la lumière du jour	Streamlit permet aux utilisateurs de transformer des scripts Python en applications web interactives en quelques minutes.	lien (sur un site web)
Gradio	Créez et partagez de superbes applications d'apprentissage automatique en Python.	lien (sur un site web)
AI SDK UI	Construction d'interfaces utilisateur génératives et de chat.	lien (sur un site web)
AI-Gradio	Créer des applications d'IA soutenues par une variété de fournisseurs d'IA.	lien (sur un site web)
Simpleaichat	Paquets Python permettant d'interagir facilement avec des applications de chat dotées de fonctionnalités puissantes et d'un code peu complexe.	lien (sur un site web)
Chaînage	Créez des applications d'IA conversationnelle prêtes à la production en quelques minutes.	lien (sur un site web)

code bas

nom de la bibliothèque	descriptions	lien (sur un site web)
LangFlow	LangFlow est un générateur d'applications à code bas pour les applications d'IA RAG et multi-agents. Il est basé sur Python et est indépendant de tout modèle, API ou base de données.	lien (sur un site web)

cache (informatique)

nom de la bibliothèque	descriptions	lien (sur un site web)
GPTCache	Une bibliothèque pour créer des caches sémantiques pour les requêtes LLM. Réduit le coût de l'API LLM de 10x💰 et augmente la vitesse de 100x. Complètement intégrée avec LangChain et LlamaIndex.	lien (sur un site web)

LLM RAG

nom de la bibliothèque	descriptions	lien (sur un site web)
FastGraph RAG	Le cadre Fast GraphRAG, rationalisé et rapide, est conçu pour des flux de recherche interprétables, très précis et pilotés par des agents.	lien (sur un site web)
Chonkie	Bibliothèque de découpage RAG, légère, extrêmement rapide et facile à utiliser.	lien (sur un site web)
RAGChecker	Un cadre précis pour diagnostiquer les RAG.	lien (sur un site web)
Du RAG à la richesse	Créer, étendre et déployer des applications de génération à recherche avancée.	lien (sur un site web)
Au-delà deLLM	Beyond LLM fournit une boîte à outils tout-en-un pour l'expérimentation, l'évaluation et le déploiement de systèmes RAG (Retrieval Augmented Generation).	lien (sur un site web)
SQLite-Vec	Une extension SQLite de recherche vectorielle qui fonctionne n'importe où !	lien (sur un site web)
fastRAG	fastRAG est un cadre de recherche pour la recherche efficace et optimisée de pipelines de génération améliorée, combinant des techniques avancées de LLM et de recherche d'informations.	lien (sur un site web)
FlashRAG	Boîte à outils Python pour une recherche RAG efficace.	lien (sur un site web)
Llmware	Un cadre unifié pour la construction de pipelines RAG d'entreprise à l'aide de petits modèles conçus à cet effet.	lien (sur un site web)
Rerankers	API unifiée et légère pour différents modèles de réorganisation.	lien (sur un site web)
Vectara	Construire l'application Agentic RAG.	lien (sur un site web)

Raisonnement du LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
Compresseur LLM	Bibliothèque compatible avec Transformers permettant d'appliquer divers algorithmes de compression à LLM afin d'en optimiser le déploiement.	lien (sur un site web)
LightLLM	Cadre d'inférence et de service LLM basé sur Python, connu pour sa conception légère, sa facilité d'extensibilité et ses performances à grande vitesse.	lien (sur un site web)
vLLM	Moteur d'inférence et de service à haut débit et à mémoire efficace pour LLM.	lien (sur un site web)
torchchat	Exécutez PyTorch LLM localement sur des serveurs, des ordinateurs de bureau et des appareils mobiles.	lien (sur un site web)
TensorRT-LLM	TensorRT-LLM est une bibliothèque permettant d'optimiser l'inférence des grands modèles de langage (LLM).	lien (sur un site web)
WebLLM	Moteur d'inférence LLM haute performance pour navigateur.	lien (sur un site web)

Déploiement du service LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
Langcorn	Utilisez FastAPI pour automatiser le service des applications et des agents LangChain LLM.	lien (sur un site web)
LitServe	Moteur de service extrêmement rapide pour n'importe quel modèle d'IA de n'importe quelle taille. Il améliore FastAPI avec des fonctionnalités telles que le traitement par lots, le streaming et l'autoscaling GPU.	lien (sur un site web)

Extraction de données LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
Crawl4AI	Outil d'exploration du Web et outil d'exploration Open Source LLM .	lien (sur un site web)
ScrapeGraphAI	Une bibliothèque Python d'exploration de sites web qui utilise LLM et la logique graphique directe pour créer des pipelines d'exploration de sites web et de documents locaux (XML, HTML, JSON, Markdown, etc.).	lien (sur un site web)
Docling	Docling analyse les documents et les exporte facilement et rapidement dans le format souhaité.	lien (sur un site web)
Llama Parse	L'analyseur de documents natif de GenAI qui peut analyser des données documentaires complexes pour tout cas d'utilisation LLM en aval (RAG, agent).	lien (sur un site web)
PyMuPDF4LLM	La bibliothèque PyMuPDF4LLM facilite l'extraction du contenu PDF dans les formats requis par les environnements LLM et RAG.	lien (sur un site web)
Crawlee	Une bibliothèque d'automatisation des moteurs de recherche et des navigateurs.	lien (sur un site web)
MegaParse	Analyseur pour chaque type de document.	lien (sur un site web)
ExtractThinker	Bibliothèque de veille documentaire pour LLM.	lien (sur un site web)

Génération de données LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
DataDreamer	DataDreamer est une puissante bibliothèque Python open-source pour l'incitation, la génération de données synthétiques et les flux de travail de formation.	lien (sur un site web)
fabricant	Un cadre flexible à source ouverte pour générer des ensembles de données à l'aide de grands modèles de langage.	lien (sur un site web)
Promptwright	Bibliothèque de génération d'ensembles de données synthétiques.	lien (sur un site web)
EasyInstruct	Un cadre facile à utiliser pour le traitement de grandes instructions de modèles de langage.	lien (sur un site web)

LLM Corps intelligent

nom de la bibliothèque	descriptions	lien (sur un site web)
CrewAI	Un cadre pour l'orchestration d'agents d'IA autonomes jouant un rôle.	lien (sur un site web)
LangGraph	Construire l'agent linguistique élastique sous forme de graphe.	lien (sur un site web)
Agno	Créez des agents d'intelligence artificielle dotés de mémoire, de connaissances, d'outils et de capacités de raisonnement. Discutez avec eux à l'aide d'une superbe interface utilisateur.	lien (sur un site web)
AutoGen	Un cadre open source pour la construction de systèmes d'agents d'intelligence artificielle.	lien (sur un site web)
Smolagents	Bibliothèque permettant de construire des agents puissants en quelques lignes de code.	lien (sur un site web)
Pydantique AI	Cadre d'agent Python pour la construction d'applications de niveau de production utilisant l'IA générative.	lien (sur un site web)
gradio-tools	Une bibliothèque Python pour convertir les applications Gradio en outils qui peuvent être utilisés par les agents basés sur LLM pour accomplir leurs tâches.	lien (sur un site web)
Composition	Ensemble d'outils prêts à la production pour les agents d'intelligence artificielle.	lien (sur un site web)
Agents atomiques	Construction atomique d'agents d'intelligence artificielle.	lien (sur un site web)
Mémoire	Une couche de mémoire open source pour les agents autonomes.	lien (sur un site web)
Utilisation du navigateur	Rendre le site accessible aux agents de l'IA.	lien (sur un site web)
OpenWebAgent	Une boîte à outils ouverte pour la mise en place de proxies web sur de grands modèles de langage.	lien (sur un site web)
Lagent	Un cadre léger pour la construction d'agents basés sur LLM.	lien (sur un site web)
LazyLLM	Un outil de développement à code bas pour la construction d'applications LLM multi-agents.	lien (sur un site web)
Essaims	Un cadre pour l'orchestration multi-agents prête à la production pour les entreprises.	lien (sur un site web)
ChatArena	ChatArena est une bibliothèque qui fournit un environnement de jeu linguistique multi-agents et facilite la recherche sur les agents LLM autonomes et leurs interactions sociales.	lien (sur un site web)
Essaim	Exploration d'un cadre éducatif ergonomique, léger et orchestré par plusieurs agents.	lien (sur un site web)
AgentStack	Le moyen le plus rapide de créer des agents d'intelligence artificielle puissants.	lien (sur un site web)
Archgw	Passerelle pour agents intelligents.	lien (sur un site web)
Débit	Un moteur de tâches léger pour la construction d'agents d'intelligence artificielle.	lien (sur un site web)
AgentOps	SDK Python pour la surveillance des agents d'intelligence artificielle.	lien (sur un site web)
Langroid	Cadre multi-agents.	lien (sur un site web)
Agentarium	Un cadre pour la création et la gestion de simulations qui peuplent des agents pilotés par l'IA.	lien (sur un site web)
Upsonic	adjuvant MCP pour des agents d'intelligence artificielle fiables.	lien (sur un site web)

Évaluation du LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
Ragas	Ragas est la boîte à outils ultime pour l'évaluation et l'optimisation des applications de grands modèles de langage (LLM).	lien (sur un site web)
Giskard	Outils d'évaluation et de test open source pour les systèmes ML et LLM.	lien (sur un site web)
DeepEval	Cadre d'évaluation du LLM	lien (sur un site web)
Lighteval	Une boîte à outils tout-en-un pour l'évaluation des LLM.	lien (sur un site web)
Trulens	Outils d'évaluation et de suivi pour les expériences LLM	lien (sur un site web)
PromptBench	Un cadre d'évaluation unifié pour la modélisation linguistique à grande échelle.	lien (sur un site web)
LangTest	Fournir des modèles de langage sûrs et valides. Plus de 60 types de tests pour comparer les modèles LLM et NLP en termes de précision, de biais, d'équité, de robustesse, etc.	lien (sur un site web)
EvalPlus	Cadre d'évaluation rigoureux pour LLM4Code.	lien (sur un site web)
FastChat	Une plateforme ouverte pour la formation, le service et l'évaluation des chatbots basés sur de grands modèles de langage.	lien (sur un site web)
juges	Un petit nombre de juges spécialisés en droit du travail.	lien (sur un site web)
Evals	Evals est un cadre permettant d'évaluer les systèmes LLM et LLM, ainsi que les registres open source.	lien (sur un site web)
AgentEvals	Évaluateurs et utilitaires pour l'évaluation des performances des agents.	lien (sur un site web)
LLMBox	Une bibliothèque LLM complète, comprenant un pipeline de formation unifié et une évaluation complète des modèles.	lien (sur un site web)
Opik	Une plateforme de développement LLM de bout en bout, à code source ouvert, qui inclut également l'évaluation LLM.	lien (sur un site web)

Suivi de l'apprentissage tout au long de la vie

nom de la bibliothèque	descriptions	lien (sur un site web)
MLflow	Une plateforme MLOps/LLMOps de bout en bout à source ouverte pour le suivi, l'évaluation et le contrôle des candidatures LLM.	lien (sur un site web)
Opik	Une plateforme de développement LLM de bout en bout, à code source ouvert, qui inclut également la surveillance LLM.	lien (sur un site web)
LangSmith	Fournit des outils pour documenter, contrôler et améliorer les applications LLM.	lien (sur un site web)
Poids & Biais (W&B)	W&B propose une fonctionnalité de suivi des performances du programme LLM.	lien (sur un site web)
Helicone	Plate-forme d'observabilité LLM open source pour les développeurs. Intégration en une seule ligne pour la surveillance, les mesures, l'évaluation, le suivi des agents, la gestion des indices, les aires de jeu et bien plus encore.	lien (sur un site web)
De toute évidence	Un cadre d'observabilité ML et LLM open source.	lien (sur un site web)
Phoenix	Une plateforme d'observabilité de l'IA open source conçue pour l'expérimentation, l'évaluation et le dépannage.	lien (sur un site web)
Observateurs	Une bibliothèque légère pour l'observabilité de l'IA.	lien (sur un site web)

LLM Cue word engineering

nom de la bibliothèque	descriptions	lien (sur un site web)
PCToolkit	Boîte à outils de compression d'indices unifiée et prête à l'emploi pour les modèles linguistiques de grande taille.	lien (sur un site web)
Contexte sélectif	Le contexte sélectif comprime les invites et le contexte de l'utilisateur pour permettre au LLM (par exemple ChatGPT) de traiter deux fois plus de contenu.	lien (sur un site web)
LLMLingua	Bibliothèque de compression des indices pour accélérer le raisonnement LLM.	lien (sur un site web)
Meilleur aperçu	Une suite pour tester les invites LLM avant de les intégrer à l'environnement de production.	lien (sur un site web)
Promptify	Résolvez les problèmes de NLP avec LLM et générez facilement différentes tâches de NLP pour les modèles génératifs populaires tels que GPT, PaLM, etc. avec Promptify.	lien (sur un site web)
PromptSource	PromptSource est une boîte à outils permettant de créer, de partager et d'utiliser des messages-guides en langage naturel.	lien (sur un site web)
DSPy	DSPy est un cadre open source pour la programmation (et non l'incitation) de modèles linguistiques.	lien (sur un site web)
Py-priompt	La bibliothèque des dessins et modèles est à votre disposition.	lien (sur un site web)
Promptimizer	Conseils pour optimiser la bibliothèque.	lien (sur un site web)

Sortie structurée LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
Instructeur	Bibliothèque Python pour le traitement des résultats structurés des grands modèles de langage (LLM). Construite au-dessus de Pydantic, elle fournit une API simple, transparente et conviviale.	lien (sur un site web)
XGrammar	Une bibliothèque open source pour la génération de structures efficaces, flexibles et portables.	lien (sur un site web)
Aperçu	Génération de textes (structurés) puissants	lien (sur un site web)
Orientations	L'orientation est un paradigme de programmation valide utilisé pour guider le modèle linguistique.	lien (sur un site web)
LMQL	Un langage pour l'amorçage de contraintes et la programmation LLM efficace.	lien (sur un site web)
Jsonformer	Une méthode infaillible pour générer du JSON structuré à partir de modèles linguistiques.	lien (sur un site web)

LLM Sécurité

nom de la bibliothèque	descriptions	lien (sur un site web)
JailbreakEval	Une collection d'évaluateurs automatisés pour évaluer les tentatives de jailbreak.	lien (sur un site web)
EasyJailbreak	Un cadre Python facile à utiliser pour générer des indices de jailbreak adverses.	lien (sur un site web)
Garde-corps	Ajouter des garde-fous aux grands modèles linguistiques.	lien (sur un site web)
LLM Garde	Boîte à outils de sécurité interactive LLM.	lien (sur un site web)
AuditNLG	AuditNLG est une bibliothèque open source qui peut aider à réduire les risques associés à l'utilisation de systèmes d'IA générative pour le langage.	lien (sur un site web)
Garde-corps NeMo	NeMo Guardrails est une boîte à outils open source permettant d'ajouter facilement des garde-fous programmables aux systèmes de dialogue basés sur LLM.	lien (sur un site web)
Garak	Scanner de vulnérabilité LLM	lien (sur un site web)

Modèle intégré LLM

nom de la bibliothèque	descriptions	lien (sur un site web)
Phrase - Transformateurs	Modèle avancé d'intégration de texte	lien (sur un site web)
Modèle2Vec	Modèles d'intégration statique avancés et rapides	lien (sur un site web)
Inférence d'intégration de texte	TEI permet une extraction très performante pour les modèles les plus populaires, y compris FlagEmbedding, Ember, GTE et E5.	lien (sur un site web)

le reste

nom de la bibliothèque	descriptions	lien (sur un site web)
Texte Machina	Un cadre Python modulaire et extensible conçu pour aider à créer des ensembles de données de haute qualité et non biaisés afin de construire des modèles robustes pour les tâches liées aux TMG telles que la détection, l'attribution et la détection des limites.	lien (sur un site web)
Raisonneurs LLM	Une bibliothèque pour le raisonnement avancé de modèles linguistiques à grande échelle.	lien (sur un site web)
EasyEdit	Un cadre facile à utiliser pour l'édition des connaissances des modèles de langage à grande échelle.	lien (sur un site web)
CodeTF	CodeTF : une bibliothèque Transformer unique pour la gestion avancée du code.	lien (sur un site web)
espace-llm	Cet ensemble intègre un modèle de langage large (LLM) dans spaCy avec un système modulaire pour le prototypage rapide et l'incitation, et transforme les réponses non structurées en sorties robustes pour une variété de tâches NLP.	lien (sur un site web)
pandas-ai	Chat avec la base de données de l'utilisateur (SQL, CSV, pandas, polars, MongoDB, NoSQL, etc.).	lien (sur un site web)
Outil de transparence du LLM	Une boîte à outils interactive à source ouverte pour analyser le fonctionnement interne des modèles de langage basés sur Transformer.	lien (sur un site web)
Vanna	Chat avec les bases de données SQL de vos utilisateurs. Génération précise de texte vers SQL en utilisant le LLM de RAG.	lien (sur un site web)
mergekit	Outils de fusion de modèles linguistiques pré-entraînés à grande échelle.	lien (sur un site web)
MarkLLM	Une boîte à outils open source pour le filigrane LLM.	lien (sur un site web)
LLMSanitize	Une bibliothèque open source pour la détection des contaminations dans les ensembles de données NLP et les grands modèles de langage (LLM).	lien (sur un site web)
Annotateai	Annoter automatiquement les documents à l'aide de LLM.	lien (sur un site web)
Raisonneur LLM	Soit un LLM comme OpenAI o1 et DeepSeek Pensez comme R1.	lien (sur un site web)