LangChain Hub #1 tipster em chinês. Lançado há mais de um ano e usado na avaliação geral das pontuações combinadas de diferentes estratégias RAG. Traduzido e adaptado para uso em vários idiomas.
Usando a Ajuda
Avalie qual resposta é melhor, supondo que ambas as respostas estejam corretas. Avaliar quais respostas são "prováveis" de serem problemáticas, considerando que a diferença nas pontuações compostas é maior que 1. Para respostas com alta probabilidade de estarem corretas, é seguro substituir a base de conhecimento.
Áreas de aplicação:
- Usado para avaliar diferentes "dicas de extração de pares de controle de qualidade" e qual dica é melhor.
- Usado para avaliar se as respostas dos alunos (nova estratégia RAG) são melhores quando a resposta de referência é usada como resposta padrão de base
Uma definição melhor é propensa aos seguintes equívocos: as respostas são absolutamente corretas, ricas em detalhes, respostas sucintas e um processo de pensamento completo
Comandos em chinês
Você faz uma pergunta ao aluno, o aluno dá uma resposta e você deve avaliar a resposta de referência e a resposta do aluno separadamente. Você deve avaliar as duas respostas separadamente com base na relevância, integridade, clareza semântica e ambiguidade. Por fim, dê uma pontuação combinada para as duas respostas. \n\n Faça uma pergunta: """ {question} """ \n\n Avalie as seguintes respostas dando um número entre 1 e 100: \n\n Resposta de referência: """ {reference_answer} """ \n Resposta do aluno: """ {resposta_do_aluno} """ \n\n Atribua uma classificação entre 1 e 100 a cada valor, responda no formato JSON, sem outras explicações: ðŸ "ðŸ "ðŸ "ðŸ "ðŸ "json "reference_answer". "Relevância". "Completude". "Semantic Clarity" (clareza semântica). "Ambiguidade". "Classificação geral". "Respostas dos alunos". "Relevância". "Completude". "Clareza semântica". "Ambiguidade". "Classificação geral". ``