AI Personal Learning
und praktische Anleitung
讯飞绘镜

ChainForge: Eine visuelle Open-Source-Programmierumgebung zum Testen und Evaluieren der Effektivität großer Sprachmodell-Hinweise

Allgemeine Einführung

ChainForge ist eine visuelle Open-Source-Programmierumgebung zum Testen und Evaluieren der Effektivität von Prompts für Large Language Models (LLMs). ChainForge unterstützt eine Vielzahl von Modellanbietern, darunter OpenAI, HuggingFace, Anthropic usw., und ermöglicht es den Nutzern, mehrere Modelle über eine einzige Schnittstelle zu vergleichen und zu bewerten. Das Tool eignet sich besonders gut für die Erkundung von Cues in einem frühen Stadium und für die schnelle Iteration und hilft den Benutzern, Cue- und Modelleinstellungen für eine optimale Antwortqualität zu optimieren.

ChainForge:测试和评估大型语言模型提示效果的开源可视化编程环境-1


 

Funktionsliste

  • Multimodell-AbfragenAbfrage mehrerer LLMs gleichzeitig, um Ideen und Varianten für Hinweise schnell zu testen.
  • Vergleich der AntwortqualitätComparing response quality across cues, models, and model settings.
  • Bewertung der VisualisierungBewertung: Richten Sie Bewertungsmetriken ein und visualisieren Sie sofort die Ergebnisse von Aufforderungen, Parametern, Modellen und Einstellungen.
  • vielschichtiger DialogMehrere Dialogrunden zwischen den Vorlagenparametern und dem Chatmodell, Überprüfung und Bewertung des Ergebnisses jeder Dialogrunde.
  • Vorgefertigte TippsSie können nicht nur Eingabeaufforderungen vorbereiten, sondern auch Vorlagen für nachfolgende Chat-Nachrichten.
  • Beispiel für Bewertungsströme: Stellen Sie mehrere Beispiel-Bewertungsströme zur Verfügung, um mögliche Anwendungsszenarien zu demonstrieren.
  • Lokale und Online-InstallationUnterstützt die lokale Installation und die Online-Testversion, was eine flexible Nutzung ermöglicht.
  • Unterstützung mehrerer ModelleUnterstützung für OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI und viele andere Modellanbieter.

 

Hilfe verwenden

Einbauverfahren

lokale Installation

  1. Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
  2. Führen Sie den folgenden Befehl aus, um ChainForge zu installieren:
复制复制复制复制复制
复制
   pip install chainforge
  1. Führen Sie nach Abschluss der Installation den folgenden Befehl aus, um den ChainForge-Server zu starten:
复制复制复制复制
复制
   chainforge serve
  1. Öffnen Sie Ihren Browser und besuchen Sie localhost:8000Sie können ChainForge ab sofort nutzen.

Installieren mit Docker

  1. Erstellen Sie das Docker-Image:
复制复制复制
复制
   docker build -t chainforge .
  1. Starten Sie den Docker-Container:
复制复制
复制
   docker run -p 8000:8000 chainforge
  1. Öffnen Sie Ihren Browser und besuchen Sie 127.0.0.1:8000Sie können ChainForge ab sofort nutzen.

Leitlinien für die Verwendung

  1. Einstellen des API-SchlüsselsKlicken Sie auf das Symbol Einstellungen in der oberen rechten Ecke und geben Sie den API-Schlüssel für OpenAI, Anthropic, Google PaLM usw. ein.
  2. Ein neues Projekt erstellenKlicken Sie auf die Schaltfläche "Neues Projekt" und wählen Sie das gewünschte Modell und die Prompt-Vorlage aus.
  3. Hinzufügen von Tipps und ModellenHinzufügen von Eingabeaufforderungsvorlagen und Modellen zum Projekt und Festlegen verschiedener Parameter für die Prüfung.
  4. Operative BewertungWenn Sie auf die Schaltfläche "Ausführen" klicken, fragt ChainForge automatisch alle ausgewählten Modelle ab und zeigt die Antwortergebnisse an.
  5. Vergleich und VisualisierungVisualisierungstools verwenden, um die Antwortqualität verschiedener Prompts und Modelle zu vergleichen und die besten Prompt- und Modelleinstellungen auszuwählen.
  6. Speichern und teilenSobald das Projekt abgeschlossen ist, können Sie die Bewertung speichern und einen Link erstellen, um sie mit anderen zu teilen.

Beispiel für Bewertungsströme

ChainForge bietet mehrere Beispielauswertungsabläufe, um den Benutzern einen schnellen Einstieg zu ermöglichen. Sie können beispielsweise das Beispiel "Vergleich der Antwortlänge" verwenden, um die Antwortlängen verschiedener Modelle mit denselben Stichwörtern zu vergleichen. Sie können auch benutzerdefinierte Bewertungsabläufe mit spezifischen Bewertungsmetriken und Visualisierungen erstellen.

Erweiterte Funktionen

  • Kundenspezifische AuswerteknotenBenutzer können Python-Code schreiben, um die Auswerteknoten für eine komplexere Antwortauswertung anzupassen.
  • Bewertung des Mehrrunden-DialogsMehrere Runden der Dialogauswertung werden unterstützt, so dass die Benutzer die Qualität der Antworten für verschiedene Dialogrunden testen können.
  • DatenexportDie Ergebnisse der Bewertung können zur weiteren Analyse in eine Excel-Tabelle exportiert werden.

ChainForge ist ein leistungsfähiges Tool für Forscher, Entwickler und Datenwissenschaftler, das sie bei der Optimierung von Cue- und Modelleinstellungen unterstützt und die Qualität der LLM-Antworten verbessert.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " ChainForge: Eine visuelle Open-Source-Programmierumgebung zum Testen und Evaluieren der Effektivität großer Sprachmodell-Hinweise
de_DEDeutsch