WritingBench : un outil d'évaluation comparative pour tester les compétences d'écriture des grands modèles

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

18.3K 00

Introduction générale

WritingBench est un projet open source développé par l'équipe X-PLUG et hébergé sur GitHub. Il s'agit d'un outil spécialement conçu pour tester la capacité de rédaction de grands modèles, fournissant 1239 tâches de rédaction réelles. Ces tâches couvrent 6 domaines principaux et 100 sous-domaines, combinant des exigences de style, de formatage et de longueur avec une moyenne de 1546 mots par tâche. Le projet élabore des tâches en combinant la génération de modèles et l'optimisation manuelle afin de garantir leur variété et leur utilité. Chaque tâche est accompagnée de 5 critères de notation spécifiques, qui peuvent être notés soit par le grand modèle, soit par un modèle de jugement dédié. Le code et les données de WritingBench sont libres et ouverts, et conviennent aux développeurs pour optimiser les capacités d'écriture du grand modèle. Il convient de noter que le projet ne fournit pas requirements.txt les utilisateurs doivent configurer leur propre environnement.

Liste des fonctions

Propose 1 239 travaux d'écriture authentiques dans six domaines : université, affaires, droit, littérature, éducation et marketing.
En prenant en charge 100 segments, les tâches sont proches des besoins réels.
Générer 5 critères de notation dynamiques pour chaque tâche afin d'évaluer la qualité de l'écriture.
Il permet la notation automatique des grands modèles et la notation des modèles de jugement spécialisés.
Comprend divers documents de référence tels que des états financiers ou des modèles juridiques.
Le code source ouvert, les ensembles de données et les scripts d'évaluation sont fournis et peuvent être librement téléchargés et modifiés par l'utilisateur.

Utiliser l'aide

WritingBench est un projet open source basé sur GitHub et les utilisateurs peuvent visiter https://github.com/X-PLUG/WritingBench pour des ressources. Il ne nécessite pas de service en ligne, il suffit de le télécharger et de l'exécuter localement. Ce qui suit est un guide détaillé des étapes et des fonctionnalités :

Accès aux ressources du projet

Ouvrez votre navigateur et tapez https://github.com/X-PLUG/WritingBench.
Cliquez sur le bouton vert "Code" dans le coin supérieur droit et sélectionnez "Download ZIP" pour le télécharger, ou clonez-le avec la commande Git :

git clone https://github.com/X-PLUG/WritingBench.git

Extraire les fichiers localement, le dossier contient le code, les données et la documentation.

Préparation de l'environnement d'exécution

WritingBench n'est pas disponible requirements.txt vous devez donc installer manuellement l'environnement Python et les bibliothèques dépendantes. Les étapes sont les suivantes :

Assurez-vous que Python 3.8 ou plus est installé en tapant dans le terminal python --version Vérifier.
Allez dans le dossier du projet :

cd WritingBench

Installer les bibliothèques de base. Officiellement, toutes les dépendances ne sont pas explicitement listées, mais les bibliothèques suivantes sont présumées nécessaires sur la base de leur fonctionnalité :

pip install torch(pour les modèles de jugement, peut nécessiter la prise en charge du GPU).
pip install transformers(pour les opérations sur les grands modèles).
pip install requests(peut être utilisé pour le traitement des données).
D'autres bibliothèques éventuellement nécessaires peuvent être installées en plus en fonction du message d'erreur.

Si vous utilisez un modèle de jugement dédié, PyTorch et CUDA doivent être installés, voir https://pytorch.org/get-started/locally/ pour la version spécifique.

Description de la structure du projet

La structure du répertoire après le téléchargement est la suivante :

evaluate_benchmark.pyLes scripts d'évaluation : Les scripts d'évaluation.
prompt.py: Modèle de conseil.
evaluator/Les résultats de l'évaluation du catalogue d'interfaces : évaluer le catalogue d'interfaces.
critic.pyInterface dédiée au modèle de jugement.
llm.py: Interfaces d'évaluation de grands modèles.
benchmark_query/Catalogue des données de la mission.
benchmark_all.jsonlLes données sur les tâches sont complétées par l'ensemble des 1239 tâches.
requirement/Les textes sont classés selon leur style, leur format et leur longueur.

Utilisation des données relatives aux tâches d'écriture

spectacle (un billet) benchmark_query/benchmark_all.jsonlVoir 1239 tâches.
Chaque mission comprend une description, des domaines et des documents de référence. Par exemple, "Rédigez un résumé de 500 mots pour le rapport financier du troisième trimestre de 2023".
Générer des réponses à l'aide de votre grand modèle et d'un exemple de code :

from your_model import Model
task = "为2023年Q3财务报告写500字总结"
model = Model()
response = model.generate(task)
with open("response.txt", "w") as f:
f.write(response)

Outils d'évaluation opérationnelle

WritingBench prend en charge deux types d'évaluation :

Notation des grands modèles

compilateur evaluator/llm.pyVoici un exemple de configuration d'API que vous pouvez ajouter :

self.api_key = "your_api_key_here"
self.url = "Your API endpoint"
self.model = "Your model name"

Exécutez le script d'évaluation :

python evaluate_benchmark.py --evaluator llm --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl

Le résultat est constitué des notes et de la justification pour chacun des cinq critères de notation.

Notes du modèle de jugement dédié

Téléchargez le modèle de jugement sur le site https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.
Placer le modèle dans le chemin local, éditer evaluator/critic.py: :

self.model = LLM(model="path/to/critic_model", tensor_parallel_size=1)

Évaluation opérationnelle :

python evaluate_benchmark.py --evaluator critic --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl

Le résultat indique la note (0-10) pour chaque critère.

Personnalisation des tâches et de la notation

existent benchmark_query/ Ajouter un nouveau fichier JSON à la description de la tâche et aux matériaux.
modifications prompt.py ou les scripts d'évaluation pour ajuster les critères de notation.
Après l'avoir testé, vous pouvez le télécharger sur GitHub et le partager.

Processus de génération des données

Les tâches sont générées de la manière suivante :

Le Big Model génère des tâches initiales à partir de 6 domaines principaux et de 100 sous-domaines.
Optimiser les tâches par des ajustements de style, des exigences de formatage, etc.
30 étiqueteurs pour collecter du matériel de source ouverte.
5 experts examinent les tâches et le matériel pour s'assurer de leur pertinence.

Ces étapes aident les utilisateurs à se familiariser rapidement avec WritingBench, en testant et en optimisant les capacités d'écriture des grands modèles.

scénario d'application

développement de modèles
Les développeurs utilisent WritingBench pour tester les performances du modèle dans des travaux universitaires ou des textes publicitaires, et pour améliorer les lacunes.
Recherche en éducation
Les chercheurs analysent la capacité des grands modèles à générer du matériel pédagogique ou à corriger des dissertations.
aide à la rédaction
Les utilisateurs stimulent la créativité grâce à des données sur les tâches ou vérifient la qualité des articles à l'aide d'un outil de notation.

QA

Pourquoi n'y a-t-il pas de fichier requirements.txt ?
Elle n'est pas officiellement disponible, probablement pour laisser aux utilisateurs la possibilité de configurer les dépendances en fonction de leur modèle et de leur environnement.
Dois-je travailler en réseau ?
Pas besoin, il suffit de télécharger et d'exécuter localement, mais une connexion internet est nécessaire pour télécharger les modèles ou les dépendances.
Comment le modèle de jugement est-il obtenu ?
Téléchargé à partir de https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.