두 답안에 대해 다차원적으로 점수를 매기면 가장 좋은 답안을 쉽게 판단할 수 있습니다.

AI 유틸리티 명령7개월 전 업데이트 AI 공유 서클
3.2K 00

랭체인 허브 1위 중국어 팁스터. 1년 전에 출시되어 다양한 RAG 전략의 종합 점수에 대한 전반적인 평가에 사용되었습니다. 여러 언어로 사용할 수 있도록 번역 및 조정되었습니다.

 

도움말 사용

두 답이 모두 정답이라고 가정하고 어느 답이 더 나은지 평가합니다. 종합 점수의 차이가 1보다 큰 경우 어떤 답이 문제가 될 '가능성이 높은' 답인지 평가합니다. 정답일 확률이 높은 답변의 경우 지식창고를 덮어쓰는 것이 안전합니다.

적용 분야:

  1. 다양한 "추출 QA 쌍 단서"를 평가하고 어떤 단서가 더 나은지 평가하는 데 사용됩니다.
  2. 참조 답안을 기본 표준 답안으로 사용할 때 학생 답안(새 RAG 전략)이 더 나은지 평가하는 데 사용됩니다.

더 나은 정의는 다음과 같은 오해에 빠지기 쉽습니다. 절대적으로 정확하고, 세부 사항이 풍부하며, 간결한 답변, 완전한 사고 과정.

 

중국어 명령

你对学生提问,学生给出了答案,你要对参考答案和学生答案分别评分。
您必须根据相关度、完整度、语义清晰度和歧义度分别对两个答案进行评分。
最后给两个答案进行综合评分。
\n\n
提问:
"""
{question}
"""
\n\n
请对以下答案给出数字1~100之间评分:
\n\n
参考答案:
"""
{reference_answer}
"""
\n
学生答案:
"""
{student_answer}
"""
\n\n
为每个值赋予1~100之间评分,以JSON格式回复,不要其他解释:
```json
"参考答案": 
"相关度": 
"完整度": 
"语义清晰度": 
"歧义度: 
"综合评分":

"学生答案": 
"相关度": 
"完整度": 
"语义清晰度": 
"歧义度": 
"综合评分": 
```
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...