WritingBench: 대형 모델의 쓰기 능력을 테스트하는 벤치마킹 평가 도구

최신 AI 리소스5개월 전에 게시 됨 AI 공유 서클
1.5K 00

일반 소개

WritingBench는 X-PLUG 팀이 개발한 오픈 소스 프로젝트로 GitHub에서 호스팅됩니다. 대규모 모델의 작문 능력을 테스트하기 위해 특별히 고안된 도구로, 1239개의 실제 작문 과제를 제공합니다. 이러한 과제는 6개의 주요 도메인과 100개의 하위 도메인을 포함하며, 과제당 평균 1546단어의 스타일, 서식 및 길이 요구 사항이 결합되어 있습니다. 이 프로젝트는 다양성과 유용성을 보장하기 위해 모델 생성과 수동 최적화의 조합을 통해 과제를 구축합니다. 각 작업에는 5가지 구체적인 채점 기준이 있으며, 빅 모델 또는 전용 심사 모델로 채점할 수 있습니다. WritingBench의 코드와 데이터는 무료로 공개되어 있으며 개발자가 빅 모델의 작문 기능을 최적화하는 데 적합합니다. 이 프로젝트는 다음을 제공하지 않습니다. requirements.txt 파일은 사용자가 직접 환경을 구성해야 합니다.

WritingBench:测试大模型写作能力的基准评估工具

 

기능 목록

  • 학계, 비즈니스, 법률, 문학, 교육, 마케팅 등 6개 분야의 1,239개의 실제 글쓰기 과제를 제공합니다.
  • 100개의 세그먼트를 지원하는 작업은 실제 요구사항에 가깝습니다.
  • 각 과제에 대해 5개의 동적 채점 기준을 생성하여 글쓰기의 질을 평가합니다.
  • 대형 모델의 자동 채점과 전문 심사 모델의 채점을 모두 지원합니다.
  • 재무제표나 법률 템플릿 등 다양한 참고 자료가 포함되어 있습니다.
  • 오픈 소스 코드, 데이터 세트 및 평가 스크립트가 제공되며 사용자가 자유롭게 다운로드하여 수정할 수 있습니다.

 

도움말 사용

WritingBench는 GitHub를 기반으로 하는 오픈 소스 프로젝트이며, https://github.com/X-PLUG/WritingBench 에서 리소스를 확인할 수 있습니다. 온라인 서비스가 필요하지 않으며 다운로드하여 로컬에서 실행하기만 하면 됩니다. 다음은 단계와 기능에 대한 자세한 가이드입니다:

프로젝트 리소스에 액세스

  1. 브라우저를 열고 https://github.com/X-PLUG/WritingBench 을 입력합니다.
  2. 오른쪽 상단의 녹색 '코드' 버튼을 클릭하고 'ZIP 다운로드'를 선택하여 다운로드하거나 Git 명령으로 복제합니다:
git clone https://github.com/X-PLUG/WritingBench.git
  1. 파일을 로컬로 추출하면 폴더에 코드, 데이터 및 문서가 들어 있습니다.

런타임 환경 준비하기

쓰기 벤치를 사용할 수 없습니다. requirements.txt 파일에 설치되어 있지 않으므로 파이썬 환경과 종속 라이브러리를 수동으로 설치해야 합니다. 단계는 다음과 같습니다:

  1. 터미널에 다음을 입력하여 Python 3.8 이상이 설치되어 있는지 확인합니다. python --version 확인.
  2. 프로젝트 폴더로 이동합니다:
cd WritingBench
  1. 기본 종속성 라이브러리를 설치합니다. 공식적으로 모든 종속성이 명시적으로 나열되어 있지는 않지만 기능에 따라 다음 라이브러리가 필요한 것으로 추정됩니다:
  • pip install torch(모델 심사를 위해 GPU 지원이 필요할 수 있음).
  • pip install transformers(대규모 모델 작업의 경우).
  • pip install requests(데이터 처리에 사용될 수 있음).
  • 오류 메시지에 따라 필요할 수 있는 다른 라이브러리를 추가로 설치할 수 있습니다.
  1. 전용 판정 모델을 사용하는 경우 PyTorch 및 CUDA를 설치해야 하며, 구체적인 버전은 https://pytorch.org/get-started/locally/ 을 참조하세요.

프로젝트 구조에 대한 설명

다운로드 후 디렉터리 구조는 다음과 같습니다:

  • evaluate_benchmark.py평가 스크립트.
  • prompt.py: 팁 템플릿.
  • evaluator/: 인터페이스 카탈로그를 평가합니다.
  • critic.py전용 판단 모델 인터페이스.
  • llm.py대규모 모델 평가 인터페이스.
  • benchmark_query/미션 데이터 카탈로그.
  • benchmark_all.jsonl1239개 작업 데이터 집합을 완료합니다.
  • requirement/스타일, 형식 및 길이별로 분류된 하위 집합입니다.

작업 데이터 쓰기 사용

  1. 쇼(티켓) benchmark_query/benchmark_all.jsonl1239개 작업 보기.
  2. 각 과제에는 설명, 영역 및 참고 자료가 포함됩니다. 예를 들어, "2023년 3분기 재무 보고서에 대한 500단어 요약 작성"이 있습니다.
  3. 빅 모델, 샘플 코드로 답변을 생성하세요:
from your_model import Model
task = "为2023年Q3财务报告写500字总结"
model = Model()
response = model.generate(task)
with open("response.txt", "w") as f:
f.write(response)

운영 평가 도구

WritingBench는 두 가지 유형의 평가를 지원합니다:

대형 모델 채점

  1. 컴파일러 evaluator/llm.pyAPI 구성을 추가하려면
self.api_key = "your_api_key_here"
self.url = "Your API endpoint"
self.model = "Your model name"
  1. 평가 스크립트를 실행합니다:
python evaluate_benchmark.py --evaluator llm --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl
  1. 결과는 5가지 채점 기준 각각에 대한 점수와 근거로 구성됩니다.

전용 판단 모델 점수

  1. 판단 모델은 https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B 에서 다운로드하세요.
  2. 모델을 로컬 경로에 배치하고 evaluator/critic.py::
self.model = LLM(model="path/to/critic_model", tensor_parallel_size=1)
  1. 운영 평가:
python evaluate_benchmark.py --evaluator critic --query_criteria_file benchmark_query/benchmark_all.jsonl --input_file response.txt --output_file scores.jsonl
  1. 출력에는 각 기준에 대한 점수(0~10점)가 표시됩니다.

작업 및 채점 사용자 지정

  1. 존재 benchmark_query/ 작업 설명 및 자료에 새 JSON 파일을 추가합니다.
  2. 수정 prompt.py 또는 평가 스크립트를 사용하여 채점 기준을 조정할 수 있습니다.
  3. 테스트가 끝나면 GitHub에 업로드하여 공유할 수 있습니다.

데이터 생성 프로세스

작업은 다음과 같은 방식으로 생성됩니다:

  1. 빅 모델은 6개의 주요 도메인과 100개의 하위 도메인에서 초기 작업을 생성합니다.
  2. 스타일 조정, 서식 요구 사항 등을 통해 작업을 최적화하세요.
  3. 30명의 라벨러가 오픈 소스 자료를 수집합니다.
  4. 5명의 전문가가 작업과 자료를 심사하여 관련성을 확인합니다.

이러한 단계를 통해 사용자는 WritingBench를 빠르게 사용하여 대규모 모델 작성 기능을 테스트하고 최적화할 수 있습니다.

 

애플리케이션 시나리오

  1. 모델 개발
    개발자는 학술 논문이나 광고 카피에서 모델의 성능을 테스트하고 부족한 부분을 개선하기 위해 WritingBench를 사용합니다.
  2. 교육 연구
    연구자들은 대형 모델이 교육 자료를 생성하거나 에세이를 교정하는 능력을 분석합니다.
  3. 글쓰기 지원
    사용자는 작업 데이터로 창의력을 자극하거나 채점 도구로 문서의 품질을 확인합니다.

 

QA

  1. 요구사항.txt 파일이 없는 이유는 무엇인가요?
    사용자가 모델과 환경에 따라 종속성을 유연하게 구성할 수 있도록 하기 위해 공식적으로 제공되지는 않습니다.
  2. 네트워크가 필요한가요?
    로컬에서 다운로드하여 실행하면 되지만 모델이나 종속 요소를 다운로드하려면 인터넷 연결이 필요합니다.
  3. 판단 모델은 어떻게 얻나요?
    https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B 에서 다운로드.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...