WritingBench: una herramienta de evaluación comparativa para comprobar la capacidad de redacción de grandes modelos

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

57.4K 00

Introducción general

WritingBench es un proyecto de código abierto desarrollado por el equipo X-PLUG y alojado en GitHub. Es una herramienta diseñada específicamente para poner a prueba la capacidad de redacción de grandes modelos, proporcionando 1239 tareas de redacción del mundo real. Estas tareas cubren 6 dominios principales y 100 subdominios, combinando requisitos de estilo, formato y longitud con una media de 1546 palabras por tarea. El proyecto crea tareas mediante una combinación de generación de modelos y optimización manual para garantizar la variedad y la utilidad. Cada tarea viene acompañada de 5 criterios de puntuación específicos, que pueden ser puntuados por el modelo grande o por un modelo de evaluación específico. El código y los datos de WritingBench son libres y abiertos, y son adecuados para que los desarrolladores optimicen las capacidades de escritura del modelo grande. Tenga en cuenta que el proyecto no proporciona requirements.txt los usuarios deben configurar su propio entorno.

Lista de funciones

Ofrece 1.239 tareas de redacción auténticas en seis ámbitos: académico, empresarial, jurídico, literario, educativo y de marketing.
Al admitir 100 segmentos, las tareas se acercan a las necesidades reales.
Genere 5 criterios de puntuación dinámicos para cada tarea con el fin de evaluar la calidad de la escritura.
Admite tanto la calificación automática de modelos de gran tamaño como la calificación de modelos de juicio especializados.
Incluye diversos materiales de referencia, como estados financieros o plantillas jurídicas.
Se proporciona código fuente abierto, conjuntos de datos y scripts de evaluación que el usuario puede descargar y modificar libremente.

Utilizar la ayuda

WritingBench es un proyecto de código abierto basado en GitHub y los usuarios pueden visitar https://github.com/X-PLUG/WritingBench para obtener recursos. No requiere un servicio en línea, basta con descargarlo y ejecutarlo localmente. A continuación se ofrece una guía detallada de los pasos y características:

Acceso a los recursos del proyecto

Abra su navegador y escriba https://github.com/X-PLUG/WritingBench.
Haz clic en el botón verde "Código" de la esquina superior derecha y selecciona "Descargar ZIP" para descargarlo, o clónalo con el comando Git:

git clone https://github.com/X-PLUG/WritingBench.git

Extraiga los archivos localmente, la carpeta contiene el código, los datos y la documentación.

Preparación del entorno de ejecución

WritingBench no está disponible requirements.txt por lo que es necesario instalar manualmente el entorno Python y las librerías dependientes. Los pasos son los siguientes:

Asegúrese de que Python 3.8 o posterior está instalado escribiendo en el terminal python --version Compruébalo.
Vaya a la carpeta del proyecto:

cd WritingBench

Instale las bibliotecas de dependencias básicas. Oficialmente, no todas las dependencias se enumeran explícitamente, pero las siguientes bibliotecas se supone que son necesarios sobre la base de la funcionalidad:

pip install torch(para los modelos que juzgan, puede requerir soporte de GPU).
pip install transformers(para operaciones con modelos grandes).
pip install requests(puede utilizarse para el tratamiento de datos).
Otras bibliotecas que puedan ser necesarias pueden instalarse adicionalmente en función del mensaje de error.

Si se utiliza un modelo de juicio dedicado, es necesario instalar PyTorch y CUDA; consulte https://pytorch.org/get-started/locally/ para conocer la versión específica.

Descripción de la estructura del proyecto

La estructura de directorios tras la descarga es la siguiente:

evaluate_benchmark.py: Guiones de evaluación.
prompt.pyPlantilla de consejos.
evaluator/: Evaluar el catálogo de interfaces.
critic.py: Interfaz dedicada al modelo de sentencia.
llm.py: Interfaces de evaluación de grandes modelos.
benchmark_query/Catálogo de datos de la misión.
benchmark_all.jsonl: Conjunto de datos completo de 1239 tareas.
requirement/: Un subconjunto clasificado por estilo, formato y longitud.

Utilización de los datos de las tareas de escritura

espectáculo (una entrada) benchmark_query/benchmark_all.jsonlVer 1239 tareas.
Cada tarea incluye una descripción, dominios y materiales de referencia. Por ejemplo, "Escriba un resumen de 500 palabras para el informe financiero del tercer trimestre de 2023".
Genera respuestas con tu gran modelo, código de ejemplo:

from your_model import Model
task = "为2023年Q3财务报告写500字总结"
model = Model()
response = model.generate(task)
with open("response.txt", "w") as f:
f.write(response)

Herramientas de evaluación operativa

WritingBench admite dos tipos de evaluación:

Puntuación de modelos grandes

compilador evaluator/llm.pyA continuación se muestra un ejemplo de configuración de API que puede añadir:

self.api_key = "your_api_key_here"
self.url = "Your API endpoint"
self.model = "Your model name"

Ejecute el script de evaluación:

python evaluate_benchmark.py --evaluator llm --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl

El resultado consiste en las puntuaciones y la justificación de cada uno de los 5 criterios de puntuación.

Puntuaciones del modelo de valoración dedicado

Descargue el modelo de sentencia de https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.
Coloca el modelo en la ruta local, edita evaluator/critic.py::

self.model = LLM(model="path/to/critic_model", tensor_parallel_size=1)

Evaluación operativa:

python evaluate_benchmark.py --evaluator critic --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl

El resultado muestra la puntuación (0-10) de cada criterio.

Personalizar las tareas y la puntuación

existe benchmark_query/ Añade un nuevo archivo JSON a la descripción de la tarea y los materiales.
modificaciones prompt.py o guiones de evaluación para ajustar los criterios de puntuación.
Después de probarlo, puedes subirlo a GitHub y compartirlo.

Proceso de generación de datos

Las tareas se generan de las siguientes maneras:

El Big Model genera tareas iniciales a partir de 6 dominios principales y 100 subdominios.
Optimice las tareas mediante ajustes de estilo, requisitos de formato, etc.
30 etiquetadoras para recoger material de fuentes abiertas.
5 expertos examinan las tareas y los materiales para garantizar su pertinencia.

Estos pasos ayudan a los usuarios a ponerse al día rápidamente con WritingBench, probando y optimizando las capacidades de escritura de grandes modelos.

escenario de aplicación

desarrollo de modelos
Los desarrolladores utilizan WritingBench para probar el rendimiento del modelo en trabajos académicos o textos publicitarios, y para mejorar las deficiencias.
Investigación educativa
Los investigadores analizan la capacidad de los grandes modelos para generar material didáctico o corregir ensayos.
ayuda para la redacción
Los usuarios inspiran la creatividad con datos de tareas o comprueban la calidad de los artículos con una herramienta de puntuación.

CONTROL DE CALIDAD

¿Por qué no hay un archivo requirements.txt?
No está disponible oficialmente, probablemente para dar a los usuarios la flexibilidad de configurar las dependencias según su modelo y entorno.
¿Necesito trabajar en red?
No es necesario, basta con descargar y ejecutar localmente, pero se requiere conexión a Internet para descargar modelos o dependencias.
¿Cómo se obtiene el modelo de juicio?
Descargado de https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.