ChainForge : un environnement de programmation visuelle open source pour tester et évaluer l'efficacité de grands modèles de langue

Dernières ressources sur l'IAPosté il y a 10 mois Cercle de partage de l'IA

18.9K 00

Introduction générale

ChainForge est un environnement de programmation visuelle open source conçu pour tester et évaluer l'efficacité des messages-guides pour les grands modèles de langage (LLM). ChainForge supporte une variété de fournisseurs de modèles, y compris OpenAI, HuggingFace, Anthropic, etc. et permet aux utilisateurs de comparer et d'évaluer plusieurs modèles dans une interface unique. L'outil est particulièrement bien adapté à l'exploration des indices à un stade précoce et à l'itération rapide, aidant les utilisateurs à optimiser les paramètres des indices et des modèles pour une qualité de réponse optimale.

Liste des fonctions

Requêtes multi-modèlesLes LLM : Interroger plusieurs LLM en même temps pour tester rapidement des idées et des variantes d'indices.
Comparaison de la qualité des réponsesLe projet de loi sur l'égalité des chances pour les femmes et les hommes a été adopté par le Parlement européen.
Évaluation de la visualisationLes outils d'évaluation : Définissez des mesures d'évaluation et visualisez instantanément les résultats des messages-guides, des paramètres, des modèles et des réglages.
un dialogue à plusieurs niveauxLes résultats de chaque cycle de dialogue sont vérifiés et évalués.
Conseils modélisésLes messages de suivi : Vous pouvez non seulement créer des messages-guides, mais aussi des messages de suivi.
Exemples de flux d'évaluationLes résultats de l'évaluation doivent être présentés sous forme de plusieurs exemples de flux d'évaluation afin de démontrer les scénarios d'utilisation possibles.
Installation locale et en ligneLe logiciel de gestion de l'information est un outil d'aide à la décision qui permet d'installer le logiciel localement et de le tester en ligne, offrant ainsi une grande souplesse d'utilisation.
Prise en charge de plusieurs modèlesPrise en charge d'OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI et de nombreux autres fournisseurs de modèles.

Utiliser l'aide

Processus d'installation

installation locale

Assurez-vous que Python 3.8 ou une version ultérieure est installé.
Exécutez la commande suivante pour installer ChainForge :

   pip install chainforge

Une fois l'installation terminée, exécutez la commande suivante pour démarrer le serveur ChainForge :

   chainforge serve

Ouvrez votre navigateur et visitez localhost:8000Vous pouvez commencer à utiliser ChainForge dès maintenant.

Installation avec Docker

Construire l'image Docker :

   docker build -t chainforge .

Exécutez le conteneur Docker :

   docker run -p 8000:8000 chainforge

Ouvrez votre navigateur et visitez 127.0.0.1:8000Vous pouvez commencer à utiliser ChainForge dès maintenant.

Lignes directrices pour l'utilisation

Définition de la clé APICliquez sur l'icône Paramètres dans le coin supérieur droit et entrez la clé API pour OpenAI, Anthropic, Google PaLM, etc.
Créer un nouveau projetCliquez sur le bouton "Nouveau projet" et sélectionnez le modèle et le modèle d'invite souhaités.
Ajout de conseils et de modèlesLes tests d'efficacité : ajoutez des modèles au projet et définissez différents paramètres pour les tests.
Évaluation opérationnelleEn cliquant sur le bouton "Exécuter", ChainForge interrogera automatiquement tous les modèles sélectionnés et affichera les résultats de la réponse.
Comparaison et visualisationLes outils de visualisation permettent de comparer la qualité des réponses à différents messages-guides et modèles et de sélectionner les meilleurs paramètres pour le message-guide et le modèle.
Enregistrer et partagerUne fois le projet terminé, vous pouvez enregistrer les résultats de l'évaluation et créer un lien de partage avec d'autres personnes.

Exemples de flux d'évaluation

ChainForge fournit plusieurs exemples de flux d'évaluation pour aider les utilisateurs à démarrer rapidement. Par exemple, vous pouvez utiliser l'exemple "Comparaison de la longueur de réponse" pour comparer les longueurs de réponse de différents modèles avec le même indice. Vous pouvez également créer des flux d'évaluation personnalisés avec des mesures d'évaluation et des visualisations spécifiques.

Fonctionnalités avancées

Nœuds d'évaluation personnalisésLes utilisateurs peuvent écrire un code Python pour personnaliser les nœuds d'évaluation en vue d'une évaluation plus complexe des réponses.
Évaluation du dialogue à plusieurs voixL'évaluation du dialogue est possible à plusieurs reprises, ce qui permet aux utilisateurs de tester la qualité des réponses pour différents cycles de dialogue.
Exportation de donnéesLes résultats de l'évaluation peuvent être exportés vers un tableau Excel pour une analyse plus approfondie.

ChainForge est un outil puissant pour les chercheurs, les développeurs et les scientifiques des données, qui leur permet d'optimiser les paramètres des repères et des modèles et d'améliorer la qualité des réponses LLM.