WritingBench: бенчмаркинговый инструмент оценки для проверки способности к написанию больших моделей

Общее введение

WritingBench - это проект с открытым исходным кодом, разработанный командой X-PLUG и размещенный на GitHub. Это инструмент, специально разработанный для проверки способности к написанию больших моделей, предоставляющий 1239 реальных письменных заданий. Эти задания охватывают 6 основных доменов и 100 поддоменов, сочетая требования к стилю, форматированию и объему, в среднем 1546 слов на задание. Проект создает задания путем комбинации генерации моделей и ручной оптимизации, чтобы обеспечить разнообразие и полезность. Каждое задание имеет 5 специфических критериев оценки, которые могут быть оценены либо большой моделью, либо специальной моделью оценки. Код и данные WritingBench являются свободными и открытыми и подходят для разработчиков, чтобы оптимизировать возможности большой модели. Обратите внимание, что проект не предоставляет requirements.txt файл, пользователям необходимо настроить свое собственное окружение.

WritingBench:测试大模型写作能力的基准评估工具

 

Список функций

  • Предлагает 1239 аутентичных письменных заданий в шести областях: наука, бизнес, право, литература, образование и маркетинг.
  • Поддерживая 100 сегментов, задания приближены к реальным потребностям.
  • Создайте 5 динамических критериев оценки для каждого задания, чтобы оценить качество письма.
  • Поддерживает как автоматическую оценку больших моделей, так и оценку специализированных судейских моделей.
  • Включает в себя различные справочные материалы, такие как финансовые отчеты или юридические шаблоны.
  • Предоставляется открытый исходный код, наборы данных и сценарии оценки, которые могут быть свободно загружены и изменены пользователем.

 

Использование помощи

WritingBench - это проект с открытым исходным кодом на GitHub, и пользователи могут посетить сайт https://github.com/X-PLUG/WritingBench для поиска ресурсов. Он не требует использования онлайн-сервиса, просто загрузите его и запустите локально. Ниже приводится подробное руководство по шагам и функциям:

Доступ к ресурсам проекта

  1. Откройте браузер и введите https://github.com/X-PLUG/WritingBench.
  2. Нажмите зеленую кнопку "Code" в правом верхнем углу и выберите "Download ZIP", чтобы загрузить его, или клонируйте его с помощью команды Git:
git clone https://github.com/X-PLUG/WritingBench.git
  1. Распакуйте файлы в локальную папку, содержащую код, данные и документацию.

Подготовка среды выполнения

WritingBench недоступен requirements.txt файл, поэтому вам нужно будет установить окружение Python и зависимые библиотеки вручную. Это можно сделать следующим образом:

  1. Убедитесь, что установлен Python 3.8 или более поздней версии, набрав в терминале python --version Проверьте.
  2. Перейдите в папку с проектом:
cd WritingBench
  1. Установите основные библиотеки зависимостей. Официально не все зависимости перечислены в явном виде, но следующие библиотеки считаются необходимыми, исходя из их функциональности:
  • pip install torch(для судейских моделей может потребоваться поддержка GPU).
  • pip install transformers(для больших модельных операций).
  • pip install requests(может использоваться для обработки данных).
  • Другие библиотеки, которые могут понадобиться, могут быть установлены дополнительно в зависимости от сообщения об ошибке.
  1. Если используется выделенная модель суждения, необходимо установить PyTorch и CUDA, конкретную версию см. на сайте https://pytorch.org/get-started/locally/.

Описание структуры проекта

После загрузки структура каталогов выглядит следующим образом:

  • evaluate_benchmark.py: Оценочные сценарии.
  • prompt.py: Шаблон совета.
  • evaluator/: Оцените каталог интерфейсов.
  • critic.py: Выделенный интерфейс модели суждения.
  • llm.py: Интерфейсы оценки больших моделей.
  • benchmark_query/: Каталог данных миссии.
  • benchmark_all.jsonl: Полный набор данных 1239 задач.
  • requirement/: Подмножество, классифицированное по стилю, формату и длине.

Использование данных письменных заданий

  1. показать (билет) benchmark_query/benchmark_all.jsonlПросмотрите 1239 заданий.
  2. Каждое задание включает в себя описание, домены и справочные материалы. Например, "Напишите резюме в 500 слов для финансового отчета за 3 квартал 2023 года".
  3. Генерируйте ответы с помощью вашей большой модели и примера кода:
from your_model import Model
task = "为2023年Q3财务报告写500字总结"
model = Model()
response = model.generate(task)
with open("response.txt", "w") as f:
f.write(response)

Инструменты оперативной оценки

WritingBench поддерживает два типа оценки:

Крупный модельный скоринг

  1. компилятор evaluator/llm.pyНиже приведен пример конфигурации API, которую вы можете добавить:
self.api_key = "your_api_key_here"
self.url = "Your API endpoint"
self.model = "Your model name"
  1. Запустите сценарий оценки:
python evaluate_benchmark.py --evaluator llm --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl
  1. На выходе получаются оценки и обоснования для каждого из пяти критериев оценки.

Оценки по специализированной модели суждений

  1. Загрузите модель суждения с сайта https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.
  2. Поместите модель в локальный путь, отредактируйте evaluator/critic.py::
self.model = LLM(model="path/to/critic_model", tensor_parallel_size=1)
  1. Оперативная оценка:
python evaluate_benchmark.py --evaluator critic --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl
  1. На выходе выводится оценка (0-10) по каждому критерию.

Настройка заданий и оценок

  1. существовать benchmark_query/ Добавьте новый JSON-файл к описанию задания и материалам.
  2. модификации prompt.py или оценочные сценарии для корректировки критериев оценки.
  3. После тестирования вы можете загрузить его на GitHub и поделиться им.

Процесс генерации данных

Задания создаются следующими способами:

  1. Большая модель генерирует начальные задания из 6 основных доменов и 100 поддоменов.
  2. Оптимизируйте задачи с помощью корректировки стилей, требований к форматированию и т. д.
  3. 30 этикеток для сбора материалов из открытых источников.
  4. 5 экспертов проверяют задания и материалы на актуальность.

Эти шаги помогут пользователям быстро освоить WritingBench, протестировать и оптимизировать возможности написания больших моделей.

 

сценарий применения

  1. разработка модели
    Разработчики используют WritingBench для проверки работы модели в научных статьях или рекламных текстах, а также для устранения недостатков.
  2. Образовательные исследования
    Исследователи анализируют способность больших моделей генерировать учебные материалы или корректировать эссе.
  3. письменная помощь
    Пользователи вдохновляют на творчество с помощью данных о задачах или проверяют качество статей с помощью инструмента оценки.

 

QA

  1. Почему нет файла requirements.txt?
    Официально он не доступен, вероятно, чтобы дать пользователям возможность гибко настраивать зависимости в соответствии с их моделью и окружением.
  2. Нужна ли мне сеть?
    Нет необходимости, просто загрузите и запустите локально, но для загрузки моделей или зависимостей требуется подключение к Интернету.
  3. Как получается модель суждения?
    Загружено с сайта https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...