中国語のLangChain Hub #1チップスター。1年以上前にリリースされ、様々なRAG戦略の総合得点の総合評価に使用。多言語で使用できるように翻訳され、適応されています。
ヘルプの使用
両方の答えが正しいと仮定して、どちらの答えが良いかを評価する。複合スコアの差が1より大きい場合、どの答えが問題がある「可能性が高い」かを評価する。 正しい可能性が高い答えについては、知識ベースを上書きしても安全です。
応用分野
- さまざまな「QAペアキューを抽出」し、どのキューがより優れているかを評価するために使用される。
- 基準解答を基準標準解答として使用した場合に、生徒の解答(新しいRAG戦略)がより良いかどうかを評価するために使用される。
より良い定義は、次のような誤解を招きやすい:答えは絶対的に正しい、詳細が豊富、簡潔な答え、完全な思考プロセスである。
中国語コマンド
あなたが学生に質問し、学生が答えを出し、あなたは参考解答と学生の答えを別々に採点しなければなりません。 あなたは関連性、完全性、意味の明確さ、曖昧さに基づいて、両方の答えを別々に採点しなければなりません。 最後に両方の解答の合計点を出してください。 \回答 質問をします: """ 質問 """ \質問する 以下の答えを1から100までの数字で評価してください: \回答 参考回答 """ {参考回答} """ \n 生徒の答え """ {生徒の答え}" """ \N 各値に 1~100 の間の評価を割り当て、JSON 形式で回答する: Ÿ "Ÿ "Ÿ "Ÿ "Ÿ "json "reference_answer". 「関連性 "完全性" 「意味上の明確さ "曖昧さ" "総合評価" 「学生の回答 「関連性 「完全性 「意味上の明確さ 「曖昧さ 「総合評価 ``