ChainForge: Eine visuelle Open-Source-Programmierumgebung zum Testen und Evaluieren der Effektivität großer Sprachmodell-Hinweise

Neueste AI-RessourcenGeschrieben vor 10 Monaten AI-Austauschkreis

19.1K 00

Allgemeine Einführung

ChainForge ist eine visuelle Open-Source-Programmierumgebung zum Testen und Evaluieren der Effektivität von Prompts für Large Language Models (LLMs). ChainForge unterstützt eine Vielzahl von Modellanbietern, darunter OpenAI, HuggingFace, Anthropic usw., und ermöglicht es den Nutzern, mehrere Modelle über eine einzige Schnittstelle zu vergleichen und zu bewerten. Das Tool eignet sich besonders gut für die Erkundung von Cues in einem frühen Stadium und für die schnelle Iteration und hilft den Benutzern, Cue- und Modelleinstellungen für eine optimale Antwortqualität zu optimieren.

Funktionsliste

Multimodell-AbfragenAbfrage mehrerer LLMs gleichzeitig, um Ideen und Varianten für Hinweise schnell zu testen.
Vergleich der AntwortqualitätComparing response quality across cues, models, and model settings.
Bewertung der VisualisierungBewertung: Richten Sie Bewertungsmetriken ein und visualisieren Sie sofort die Ergebnisse von Aufforderungen, Parametern, Modellen und Einstellungen.
vielschichtiger DialogMehrere Dialogrunden zwischen den Vorlagenparametern und dem Chatmodell, Überprüfung und Bewertung des Ergebnisses jeder Dialogrunde.
Vorgefertigte TippsSie können nicht nur Eingabeaufforderungen vorbereiten, sondern auch Vorlagen für nachfolgende Chat-Nachrichten.
Beispiel für Bewertungsströme: Stellen Sie mehrere Beispiel-Bewertungsströme zur Verfügung, um mögliche Anwendungsszenarien zu demonstrieren.
Lokale und Online-InstallationUnterstützt die lokale Installation und die Online-Testversion, was eine flexible Nutzung ermöglicht.
Unterstützung mehrerer ModelleUnterstützung für OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI und viele andere Modellanbieter.

Hilfe verwenden

Einbauverfahren

lokale Installation

Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
Führen Sie den folgenden Befehl aus, um ChainForge zu installieren:

   pip install chainforge

Führen Sie nach Abschluss der Installation den folgenden Befehl aus, um den ChainForge-Server zu starten:

   chainforge serve

Öffnen Sie Ihren Browser und besuchen Sie localhost:8000Sie können ChainForge ab sofort nutzen.

Installieren mit Docker

Erstellen Sie das Docker-Image:

   docker build -t chainforge .

Starten Sie den Docker-Container:

   docker run -p 8000:8000 chainforge

Öffnen Sie Ihren Browser und besuchen Sie 127.0.0.1:8000Sie können ChainForge ab sofort nutzen.

Leitlinien für die Verwendung

Einstellen des API-SchlüsselsKlicken Sie auf das Symbol Einstellungen in der oberen rechten Ecke und geben Sie den API-Schlüssel für OpenAI, Anthropic, Google PaLM usw. ein.
Ein neues Projekt erstellenKlicken Sie auf die Schaltfläche "Neues Projekt" und wählen Sie das gewünschte Modell und die Prompt-Vorlage aus.
Hinzufügen von Tipps und ModellenHinzufügen von Eingabeaufforderungsvorlagen und Modellen zum Projekt und Festlegen verschiedener Parameter für die Prüfung.
Operative BewertungWenn Sie auf die Schaltfläche "Ausführen" klicken, fragt ChainForge automatisch alle ausgewählten Modelle ab und zeigt die Antwortergebnisse an.
Vergleich und VisualisierungVisualisierungstools verwenden, um die Antwortqualität verschiedener Prompts und Modelle zu vergleichen und die besten Prompt- und Modelleinstellungen auszuwählen.
Speichern und teilenSobald das Projekt abgeschlossen ist, können Sie die Bewertung speichern und einen Link erstellen, um sie mit anderen zu teilen.

Beispiel für Bewertungsströme

ChainForge bietet mehrere Beispielauswertungsabläufe, um den Benutzern einen schnellen Einstieg zu ermöglichen. Sie können beispielsweise das Beispiel "Vergleich der Antwortlänge" verwenden, um die Antwortlängen verschiedener Modelle mit denselben Stichwörtern zu vergleichen. Sie können auch benutzerdefinierte Bewertungsabläufe mit spezifischen Bewertungsmetriken und Visualisierungen erstellen.

Erweiterte Funktionen

Kundenspezifische AuswerteknotenBenutzer können Python-Code schreiben, um die Auswerteknoten für eine komplexere Antwortauswertung anzupassen.
Bewertung des Mehrrunden-DialogsMehrere Runden der Dialogauswertung werden unterstützt, so dass die Benutzer die Qualität der Antworten für verschiedene Dialogrunden testen können.
DatenexportDie Ergebnisse der Bewertung können zur weiteren Analyse in eine Excel-Tabelle exportiert werden.

ChainForge ist ein leistungsfähiges Tool für Forscher, Entwickler und Datenwissenschaftler, das sie bei der Optimierung von Cue- und Modelleinstellungen unterstützt und die Qualität der LLM-Antworten verbessert.