LangChain Hub 中文区排名第一的提示词。在一年多前发布,在整体评估不同RAG策略综合评分时使用。被翻译改造成了多种语言使用。
使用帮助
假设两个答案都正确的情况下,评估哪个答案更好。以综合评分差异大于1为准,评估哪些答案"可能"有问题。 对于大概率正确的答案,可以放心覆盖知识库。
应用领域:
- 用于评估不同的"提取QA对提示词",哪个提示词更好。
- 用于评估参考答案作为基础标准答案时,学生答案(新的RAG策略)是否更好
更好的定义容易产生以下误解: 答案绝对正确、细节丰富、回答简洁、思考过程完整
中文指令
你对学生提问,学生给出了答案,你要对参考答案和学生答案分别评分。 您必须根据相关度、完整度、语义清晰度和歧义度分别对两个答案进行评分。 最后给两个答案进行综合评分。 \n\n 提问: """ {question} """ \n\n 请对以下答案给出数字1~100之间评分: \n\n 参考答案: """ {reference_answer} """ \n 学生答案: """ {student_answer} """ \n\n 为每个值赋予1~100之间评分,以JSON格式回复,不要其他解释: ```json "参考答案": "相关度": "完整度": "语义清晰度": "歧义度: "综合评分": "学生答案": "相关度": "完整度": "语义清晰度": "歧义度": "综合评分": ```