WritingBench: ein Benchmark-Bewertungsinstrument zum Testen der Schreibfähigkeiten von großen Modellen

Neueste AI-RessourcenGeschrieben vor 4 Monaten AI-Austauschkreis

1.2K 00

Allgemeine Einführung

WritingBench ist ein Open-Source-Projekt, das vom X-PLUG-Team entwickelt und auf GitHub gehostet wird. Es ist ein Tool, das speziell dafür entwickelt wurde, die Schreibfähigkeiten großer Modelle zu testen und 1239 reale Schreibaufgaben bereitzustellen. Diese Aufgaben decken 6 Hauptbereiche und 100 Unterbereiche ab und kombinieren Stil-, Formatierungs- und Längenanforderungen mit einem Durchschnitt von 1546 Wörtern pro Aufgabe. Im Rahmen des Projekts werden die Aufgaben durch eine Kombination aus Modellgenerierung und manueller Optimierung erstellt, um Vielfalt und Nützlichkeit zu gewährleisten. Jede Aufgabe enthält 5 spezifische Bewertungskriterien, die entweder vom großen Modell oder von einem speziellen Bewertungsmodell bewertet werden können. Der Code und die Daten von WritingBench sind frei und offen und eignen sich für Entwickler, um die Schreibfähigkeiten des großen Modells zu optimieren. Beachten Sie, dass das Projekt keine requirements.txt Datei müssen die Benutzer ihre eigene Umgebung konfigurieren.

Funktionsliste

Bietet 1.239 authentische Schreibaufgaben in sechs Bereichen: Wissenschaft, Wirtschaft, Recht, Literatur, Bildung und Marketing.
Mit der Unterstützung von 100 Segmenten sind die Aufgaben nahe an den tatsächlichen Bedürfnissen.
Erstellen Sie 5 dynamische Bewertungskriterien für jede Aufgabe, um die Qualität des Schreibens zu beurteilen.
Unterstützt sowohl die automatische Bewertung von großen Modellen als auch die Bewertung von speziellen Bewertungsmodellen.
Enthält diverse Referenzmaterialien wie z. B. Jahresabschlüsse oder rechtliche Vorlagen.
Open-Source-Code, Datensätze und Auswertungsskripte werden zur Verfügung gestellt und können vom Nutzer frei heruntergeladen und verändert werden.

Hilfe verwenden

WritingBench ist ein Open-Source-Projekt, das auf GitHub basiert, und die Benutzer können https://github.com/X-PLUG/WritingBench für Ressourcen besuchen. Es erfordert keinen Online-Dienst, sondern kann einfach heruntergeladen und lokal ausgeführt werden. Nachfolgend finden Sie eine ausführliche Schritt-für-Schritt-Anleitung zur Verwendung der Software und zur Nutzung ihrer Funktionen:

Zugang zu Projektressourcen

Öffnen Sie Ihren Browser und geben Sie https://github.com/X-PLUG/WritingBench ein.
Klicken Sie auf die grüne Schaltfläche "Code" in der oberen rechten Ecke und wählen Sie "ZIP herunterladen", um es herunterzuladen, oder klonen Sie es mit dem Git-Befehl:

git clone https://github.com/X-PLUG/WritingBench.git

Entpacken Sie die Dateien lokal. Der Ordner enthält den Code, die Daten und die Dokumentation.

Vorbereiten der Laufzeitumgebung

WritingBench ist nicht verfügbar requirements.txt Daher müssen Sie die Python-Umgebung und die abhängigen Bibliotheken manuell installieren. Die Schritte sind wie folgt:

Stellen Sie sicher, dass Python 3.8 oder höher installiert ist, indem Sie im Terminal eingeben python --version Prüfen.
Wechseln Sie in den Projektordner:

cd WritingBench

Installieren Sie die grundlegenden abhängigen Bibliotheken. Offiziell sind nicht alle Abhängigkeiten explizit aufgeführt, aber die folgenden Bibliotheken werden aufgrund ihrer Funktionalität als erforderlich angesehen:

pip install torch(für die Beurteilung von Modellen ist möglicherweise GPU-Unterstützung erforderlich).
pip install transformers(für große Modelloperationen).
pip install requests(kann für die Datenverarbeitung verwendet werden).
Andere Bibliotheken, die eventuell benötigt werden, können anhand der Fehlermeldung zusätzlich installiert werden.

Wenn Sie ein spezielles Beurteilungsmodell verwenden, müssen PyTorch und CUDA installiert sein, siehe https://pytorch.org/get-started/locally/ für die jeweilige Version.

Beschreibung der Projektstruktur

Die Verzeichnisstruktur nach dem Herunterladen sieht folgendermaßen aus:

evaluate_benchmark.pyBewertungsskripte.
prompt.py: Tipp-Vorlage.
evaluator/Bewerten Sie den Schnittstellenkatalog.
critic.pyDedicated judgement model interface.
llm.pyGroße Modellbewertungsschnittstellen.
benchmark_query/Missionsdatenkatalog.
benchmark_all.jsonlVollständiger Datensatz von 1239 Aufgaben.
requirement/: Eine Teilmenge, die nach Stil, Format und Länge kategorisiert ist.

Verwendung von Schreibaufgabendaten

zeigen (eine Eintrittskarte) benchmark_query/benchmark_all.jsonl1239 Aufgaben anzeigen.
Jede Aufgabe enthält eine Beschreibung, Bereiche und Referenzmaterialien. Beispiel: "Schreiben Sie eine Zusammenfassung von 500 Wörtern für den Q3-Finanzbericht für 2023".
Generieren Sie Antworten mit Ihrem großen Modell und Beispielcode:

from your_model import Model
task = "为2023年Q3财务报告写500字总结"
model = Model()
response = model.generate(task)
with open("response.txt", "w") as f:
f.write(response)

Operative Bewertungsinstrumente

WritingBench unterstützt zwei Arten der Auswertung:

Großes Modell-Scoring

Compiler evaluator/llm.pyUm API-Konfigurationen hinzuzufügen:

self.api_key = "your_api_key_here"
self.url = "Your API endpoint"
self.model = "Your model name"

Führen Sie das Auswertungsskript aus:

python evaluate_benchmark.py --evaluator llm --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl

Die Ausgabe besteht aus den Punktzahlen und Begründungen für jedes der fünf Bewertungskriterien.

Dedizierte Urteilsmodell-Punktzahlen

Laden Sie das Urteilsmodell von https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B herunter.
Platzieren Sie das Modell im lokalen Pfad, bearbeiten Sie evaluator/critic.py::

self.model = LLM(model="path/to/critic_model", tensor_parallel_size=1)

Operative Bewertung:

python evaluate_benchmark.py --evaluator critic --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl

Die Ausgabe zeigt die Punktzahl (0-10) für jedes Kriterium.

Aufgaben und Punktevergabe individuell anpassen

existieren benchmark_query/ Fügen Sie der Aufgabenbeschreibung und den Materialien eine neue JSON-Datei hinzu.
Änderungen prompt.py oder Bewertungsskripte, um die Bewertungskriterien anzupassen.
Nach dem Testen können Sie es auf GitHub hochladen und freigeben.

Prozess der Datengenerierung

Aufgaben werden auf die folgenden Arten erzeugt:

Das große Modell generiert anfängliche Aufgaben aus 6 Hauptdomänen und 100 Unterdomänen.
Optimieren Sie Aufgaben durch Stilanpassungen, Formatierungsanforderungen usw.
30 Etikettierer zum Sammeln von Open-Source-Material.
5 Experten prüfen Aufgaben und Materialien, um die Relevanz sicherzustellen.

Diese Schritte helfen den Anwendern, sich schnell mit WritingBench vertraut zu machen und die Schreibfähigkeiten für große Modelle zu testen und zu optimieren.

Anwendungsszenario

Modellentwicklung
Die Entwickler nutzen WritingBench, um die Leistung des Modells in akademischen Arbeiten oder Werbetexten zu testen und Mängel zu verbessern.
Bildungsforschung
Die Forscher analysieren die Fähigkeit großer Modelle zur Erstellung von Unterrichtsmaterialien oder zur Korrektur von Aufsätzen.
Schreibhilfe
Die Nutzer können ihre Kreativität mit Aufgabendaten anregen oder die Qualität von Artikeln mit einem Bewertungstool überprüfen.

QA

Warum gibt es keine Datei requirements.txt?
Sie ist nicht offiziell verfügbar, wahrscheinlich um den Benutzern die Flexibilität zu geben, die Abhängigkeiten je nach Modell und Umgebung zu konfigurieren.
Brauche ich ein Netzwerk?
Es ist nicht notwendig, die Software herunterzuladen und lokal auszuführen, aber eine Internetverbindung ist erforderlich, um Modelle oder Abhängigkeiten herunterzuladen.
Wie wird das Beurteilungsmodell erstellt?
Heruntergeladen von https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.