두 답안에 대해 다차원적으로 점수를 매기면 가장 좋은 답안을 쉽게 판단할 수 있습니다.
랭체인 허브 1위 중국어 팁스터. 1년 전에 출시되어 다양한 RAG 전략의 종합 점수에 대한 전반적인 평가에 사용되었습니다. 여러 언어로 사용할 수 있도록 번역 및 조정되었습니다.
도움말 사용
두 답이 모두 정답이라고 가정하고 어느 답이 더 나은지 평가합니다. 종합 점수의 차이가 1보다 큰 경우 어떤 답이 문제가 될 '가능성이 높은' 답인지 평가합니다. 정답일 확률이 높은 답변의 경우 지식창고를 덮어쓰는 것이 안전합니다.
적용 분야:
- 다양한 "추출 QA 쌍 단서"를 평가하고 어떤 단서가 더 나은지 평가하는 데 사용됩니다.
- 참조 답안을 기본 표준 답안으로 사용할 때 학생 답안(새 RAG 전략)이 더 나은지 평가하는 데 사용됩니다.
더 나은 정의는 다음과 같은 오해에 빠지기 쉽습니다. 절대적으로 정확하고, 세부 사항이 풍부하며, 간결한 답변, 완전한 사고 과정.
중국어 명령
你对学生提问,学生给出了答案,你要对参考答案和学生答案分别评分。 您必须根据相关度、完整度、语义清晰度和歧义度分别对两个答案进行评分。 最后给两个答案进行综合评分。 \n\n 提问: """ {question} """ \n\n 请对以下答案给出数字1~100之间评分: \n\n 参考答案: """ {reference_answer} """ \n 学生答案: """ {student_answer} """ \n\n 为每个值赋予1~100之间评分,以JSON格式回复,不要其他解释: ```json "参考答案": "相关度": "完整度": "语义清晰度": "歧义度: "综合评分": "学生答案": "相关度": "完整度": "语义清晰度": "歧义度": "综合评分": ```
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...