Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Desvendando a ilusão do grande modelo: as classificações do HHEM fornecem informações sobre o estado da consistência factual no LLM

Embora os recursos dos Modelos de Linguagem Ampla (LLMs) estejam em constante evolução, o fenômeno de erros factuais ou "ilusões" de informações não relacionadas ao texto original em seus resultados sempre foi um grande desafio que impediu seu uso mais amplo e uma confiança mais profunda. Para avaliar quantitativamente esse problema, oClassificação do Modelo de Avaliação de Alucinação de Hughes (HHEM)foi criado com o objetivo de medir a frequência de fantasmas em LLMs convencionais ao gerar resumos de documentos.

O termo "ilusão" refere-se ao fato de que o modelo introduz "fatos" no resumo que não estão contidos no documento original, ou até mesmo contraditórios. Esse é um gargalo crítico de qualidade para cenários de processamento de informações que dependem do LLM, especialmente aqueles baseados na Geração Aumentada de Recuperação (RAG). Afinal, se o modelo não for fiel às informações fornecidas, a credibilidade de seu resultado será bastante reduzida.


 

Como o HHEM funciona?

A classificação usa o modelo de avaliação de alucinação HHEM-2.1 desenvolvido pela Vectara. Funciona assim: para um documento de origem e um resumo gerado por um LLM específico, o modelo HHEM gera uma pontuação de alucinação entre 0 e 1. Quanto mais próxima de 1 for a pontuação, maior será a consistência factual do resumo com o documento de origem; quanto mais próxima de 0, mais grave será a alucinação, ou até mesmo o conteúdo completamente fabricado. A Vectara também fornece uma versão de código aberto, o HHEM-2.1-Open, para que pesquisadores e desenvolvedores realizem a avaliação localmente, e seus cartões de modelo são publicados na plataforma Hugging Face.

 

Referências de avaliação

A avaliação utilizou um conjunto de dados de 1006 documentos, principalmente de conjuntos de dados disponíveis publicamente, como o clássico CNN/Daily Mail Corpus. A equipe do projeto gerou um resumo para cada documento usando os LLMs individuais envolvidos na avaliação e, em seguida, calculou a pontuação HHEM para cada par (documento de origem, resumo gerado). Para garantir a padronização da avaliação, todas as chamadas de modelo foram definidas como temperature O parâmetro é 0 e tem o objetivo de obter o resultado mais determinístico do modelo.

Os indicadores de avaliação incluem, entre outros:

  • Taxa de alucinação. Porcentagem de resumos com pontuações HHEM abaixo de 0,5. Quanto menor o valor, melhor.
  • Taxa de consistência factual. 100% menos a taxa de alucinações, refletindo a proporção de resumos cujo conteúdo é fiel ao original.
  • Taxa de resposta. Porcentagem de modelos que geram resumos não vazios com sucesso. Alguns modelos podem se recusar a responder ou cometer erros devido a políticas de segurança de conteúdo ou outros motivos.
  • Duração média do resumo. O número médio de palavras nos resumos gerados fornece uma visão lateral do estilo de saída do modelo.

 

Explicação das classificações do LLM Illusion

Abaixo estão as classificações de alucinação do LLM com base na avaliação do modelo HHEM-2.1 (dados de 25 de março de 2025, consulte a atualização atual):

 

Modelo Taxa de alucinação Taxa de consistência dos fatos Taxa de resposta Tamanho médio do resumo (palavras)
Google Gemini-2.0-Flash-001 0.7 % 99.3 % 100.0 % 65.2
Google Gemini-2.0-Pro-Exp 0.8 % 99.2 % 99.7 % 61.5
OpenAI-o3-mini-high-reasoning 0.8 % 99.2 % 100.0 % 79.5
Google Gemini-2.5-Pro-Exp-0325 1.1 % 98.9 % 95.1 % 72.9
Google Gemini-2.0-Flash-Lite-Preview 1.2 % 98.8 % 99.5 % 60.9
OpenAI-GPT-4.5-Preview 1.2 % 98.8 % 100.0 % 77.0
Zhipu AI GLM-4-9B-Chat 1.3 % 98.7 % 100.0 % 58.1
Google Gemini-2.0-Flash-Exp 1.3 % 98.7 % 99.9 % 60.0
OpenAI-o1-mini 1.4 % 98.6 % 100.0 % 78.3
GPT-4o 1.5 % 98.5 % 100.0 % 77.8
Amazon Nova-Micro-V1 1.6 % 98.4 % 100.0 % 90.0
GPT-4o-mini 1.7 % 98.3 % 100.0 % 76.3
GPT-4-Turbo 1.7 % 98.3 % 100.0 % 86.2
Google Gemini-2.0-Flash-Thinking-Exp 1.8 % 98.2 % 99.3 % 73.2
Amazon Nova-Lite-V1 1.8 % 98.2 % 99.9 % 80.7
GPT-4 1.8 % 98.2 % 100.0 % 81.1
Amazon Nova-Pro-V1 1.8 % 98.2 % 100.0 % 85.5
GPT-3.5-Turbo 1.9 % 98.1 % 99.6 % 84.1
XAI-2 1.9 % 98.1 100.0 % 86.5
AI21 Jamba-1.6-Grande 2.3 % 97.7 % 99.9 % 85.6
OpenAI O1-Pro 2.4 % 97.6 % 100.0 % 81.0
OpenAI-o1 2.4 % 97.6 % 99.9 % 73.0
DeepSeek-V2.5 2.4 % 97.6 % 100.0 % 83.2
Microsoft Orca-2-13b 2.5 % 97.5 % 100.0 % 66.2
Microsoft Phi-3.5-MoE-instruct 2.5 % 97.5 % 96.3 % 69.7
Intel Neural-Chat-7B-v3-3 2.6 % 97.4 % 100.0 % 60.7
Google Gemma-3-12B-Instruct 2.8 % 97.2 % 100.0 % 69.6
Qwen2.5-7B-Instrução 2.8 % 97.2 % 100.0 % 71.0
AI21 Jamba-1.5-Mini 2.9 % 97.1 % 95.6 % 74.5
XAI-2-Visão 2.9 % 97.1 100.0 % 79.8
Qwen2.5-Max 2.9 % 97.1 % 88.8 % 90.4
Google Gemma-3-27B-Instruct 3.0 % 97.0 % 100.0 % 62.5
Floco de Neve-Arctic-Instruct 3.0 % 97.0 % 100.0 % 68.7
Qwen2.5-32B-Instrução 3.0 % 97.0 % 100.0 % 67.9
Microsoft Phi-3-mini-128k-instruct 3.1 % 96.9 % 100.0 % 60.1
Mistral Pequeno3 3.1 % 96.9 % 100.0 % 74.9
OpenAI-o1-preview 3.3 % 96.7 % 100.0 % 119.3
Google Gemini-1.5-Flash-002 3.4 % 96.6 % 99.9 % 59.4
Microsoft Phi-4-mini-instrução 3.4 % 96.6 % 100.0 % 69.7
Google Gemma-3-4B-Instruct 3.7 % 96.3 % 100.0 % 63.7
01-AI Yi-1.5-34B-Chat 3.7 % 96.3 % 100.0 % 83.7
Llama-3.1-405B-Instruct 3.9 % 96.1 % 99.6 % 85.7
DeepSeek-V3 3.9 % 96.1 % 100.0 % 88.2
Microsoft Phi-3-mini-4k-instruct 4.0 % 96.0 % 100.0 % 86.8
Llama-3.3-70B-Instruct 4.0 % 96.0 % 100.0 % 85.3
InternLM3-8B-Instruct 4.0 % 96.0 % 100.0 % 97.5
Microsoft Phi-3.5-mini-instrução 4.1 % 95.9 % 100.0 % 75.0
Mistral-Large2 4.1 % 95.9 % 100.0 % 77.4
Llama-3-70B-Chat-hf 4.1 % 95.9 % 99.2 % 68.5
Qwen2-VL-7B-Instrução 4.2 % 95.8 % 100.0 % 73.9
Qwen2.5-14B-Instrução 4.2 % 95.8 % 100.0 % 74.8
Qwen2.5-72B-Instrução 4.3 % 95.7 % 100.0 % 80.0
Llama-3.2-90B-Vision-Instruct 4.3 % 95.7 % 100.0 % 79.8
Claude-3.7-Sonnet 4.4 % 95.6 % 100.0 % 97.8
Claude-3.7-Sonnet-Think 4.5 % 95.5 % 99.8 % 99.9
Coesão Comando-A 4.5 % 95.5 % 100.0 % 77.3
AI21 Jamba-1.6-Mini 4.6 % 95.4 % 100.0 % 82.3
XAI Grok 4.6 % 95.4 % 100.0 % 91.0
Antrópica Claude-3-5-sonnet 4.6 % 95.4 % 100.0 % 95.9
Qwen2-72B-Instrução 4.7 % 95.3 % 100.0 % 100.1
Microsoft Phi-4 4.7 % 95.3 % 100.0 % 100.3
Mixtral-8x22B-Instruct-v0.1 4.7 % 95.3 % 99.9 % 92.0
Anthropic Claude-3-5-haiku 4.9 % 95.1 % 100.0 % 92.9
01-AI Yi-1.5-9B-Chat 4.9 % 95.1 % 100.0 % 85.7
Cohere Command-R 4.9 % 95.1 % 100.0 % 68.7
Llama-3.1-70B-Instruct 5.0 % 95.0 % 100.0 % 79.6
Google Gemma-3-1B-Instruct 5.3 % 94.7 % 99.9 % 57.9
Llama-3.1-8B-Instrução 5.4 % 94.6 % 100.0 % 71.0
Cohere Command-R-Plus 5.4 % 94.6 % 100.0 % 68.4
Mistral-Small-3.1-24B-Instruct 5.6 % 94.4 % 100.0 % 73.1
Llama-3.2-11B-Vision-Instruct 5.5 % 94.5 % 100.0 % 67.3
Llama-2-70B-Chat-hf 5.9 % 94.1 % 99.9 % 84.9
IBM Granite-3.0-8B-Instruct 6.5 % 93.5 % 100.0 % 74.2
Google Gemini-1.5-Pro-002 6.6 % 93.7 % 99.9 % 62.0
Google Gemini-1.5-Flash 6.6 % 93.4 % 99.9 % 63.3
Mistral-Pixtral 6.6 % 93.4 % 100.0 % 76.4
Microsoft phi-2 6.7 % 93.3 % 91.5 % 80.8
Google Gemma-2-2B-it 7.0 % 93.0 % 100.0 % 62.2
Qwen2.5-3B-Instruct 7.0 % 93.0 % 100.0 % 70.4
Llama-3-8B-Chat-hf 7.4 % 92.6 % 99.8 % 79.7
Mistral-Ministral-8B 7.5 % 92.5 % 100.0 % 62.7
Google Gemini-Pro 7.7 % 92.3 % 98.4 % 89.5
01-AI Yi-1.5-6B-Chat 7.9 % 92.1 % 100.0 % 98.9
Llama-3.2-3B-Instrução 7.9 % 92.1 % 100.0 % 72.2
DeepSeek-V3-0324 8.0 % 92.0 % 100.0 % 78.9
Mistral-Ministral-3B 8.3 % 91.7 % 100.0 % 73.2
dbrx-instruct da databricks 8.3 % 91.7 % 100.0 % 85.9
Qwen2-VL-2B-Instrução 8.3 % 91.7 % 100.0 % 81.8
Cohere Aya Expanse 32B 8.5 % 91.5 % 99.9 % 81.9
IBM Granite-3.1-8B-Instruct 8.6 % 91.4 % 100.0 % 107.4
Mistral-Small2 8.6 % 91.4 % 100.0 % 74.2
IBM Granite-3.2-8B-Instruct 8.7 % 91.3 % 100.0 % 120.1
IBM Granite-3.0-2B-Instruct 8.8 % 91.2 % 100.0 % 81.6
Mistral-7B-Instruct-v0.3 9.5 % 90.5 % 100.0 % 98.4
Google Gemini-1.5-Pro 9.1 % 90.9 % 99.8 % 61.6
Claude-3-opus antrópico 10.1 % 89.9 % 95.5 % 92.1
Google Gemma-2-9B-it 10.1 % 89.9 % 100.0 % 70.2
Llama-2-13B-Chat-hf 10.5 % 89.5 % 99.8 % 82.1
AllenAI-OLMo-2-13B-Instruct 10.8 % 89.2 % 100.0 % 82.0
AllenAI-OLMo-2-7B-Instruct 11.1 % 88.9 % 100.0 % 112.6
Mistral-Nemo-Instruct 11.2 % 88.8 % 100.0 % 69.9
Llama-2-7B-Chat-hf 11.3 % 88.7 % 99.6 % 119.9
Microsoft WizardLM-2-8x22B 11.7 % 88.3 % 99.9 % 140.8
Cohere Aya Expanse 8B 12.2 % 87.8 % 99.9 % 83.9
Amazon Titan-Express 13.5 % 86.5 % 99.5 % 98.4
Google PaLM-2 14.1 % 85.9 % 99.8 % 86.6
DeepSeek-R1 14.3 % 85.7 % 100.0% 77.1
Google Gemma-7B-it 14.8 % 85.2 % 100.0 % 113.0
IBM Granite-3.1-2B-Instruct 15.7 % 84.3 % 100.0 % 107.7
Qwen2.5-1.5B-Instrução 15.8 % 84.2 % 100.0 % 70.7
Qwen-QwQ-32B-Preview 16.1 % 83.9 % 100.0 % 201.5
Claude-3-sonnet antrópico 16.3 % 83.7 % 100.0 % 108.5
IBM Granite-3.2-2B-Instruct 16.5 % 83.5 % 100.0 % 117.7
Google Gemma-1.1-7B-it 17.0 % 83.0 % 100.0 % 64.3
Cláusula antrópica-2 17.4 % 82.6 % 99.3 % 87.5
Google Flan-T5-grande 18.3 % 81.7 % 99.3 % 20.9
Mixtral-8x7B-Instruct-v0.1 20.1 % 79.9 % 99.9 % 90.7
Llama-3.2-1B-Instrução 20.7 % 79.3 % 100.0 % 71.5
Apple OpenELM-3B-Instruct 24.8 % 75.2 % 99.3 % 47.2
Qwen2.5-0.5B-Instrução 25.2 % 74.8 % 100.0 % 72.6
Google Gemma-1.1-2B-it 27.8 % 72.2 % 100.0 % 66.8
TII falcon-7B-instruct 29.9 % 70.1 % 90.0 % 75.5

Observação: os modelos são classificados em ordem decrescente com base na taxa de phantom. A lista completa e os detalhes de acesso ao modelo podem ser visualizados no repositório original do GitHub do HHEM Leaderboard.

Uma olhada na tabela de classificação mostra que o Google Gemini e alguns dos modelos mais recentes da OpenAI (por exemplo, o o3-mini-high-reasoning) teve um desempenho impressionante, com a taxa de alucinações mantida em um nível muito baixo. Isso mostra o progresso feito pelos fornecedores de cabeçotes no aprimoramento da fatorialidade de seus modelos. Ao mesmo tempo, diferenças significativas podem ser observadas entre modelos de diferentes tamanhos e arquiteturas. Alguns modelos menores, como o Microsoft's Phi ou a série Gemma também obteve bons resultados, o que implica que o número de parâmetros do modelo não é o único determinante da consistência factual. Alguns modelos iniciais ou especificamente otimizados, no entanto, apresentam taxas relativamente altas de ilusões.

 

Incompatibilidade entre modelos de inferência fortes e bases de conhecimento: o caso do DeepSeek-R1

as paradas (de best-sellers) DeepSeek-R1 A taxa relativamente alta de alucinações (14,31 TP3T) levanta uma questão que vale a pena explorar: por que alguns modelos com bom desempenho em tarefas de raciocínio são propensos a alucinações em tarefas de resumo baseadas em fatos?

DeepSeek-R1 Esses modelos costumam ser projetados para lidar com raciocínio lógico complexo, seguir comandos e pensar em várias etapas. Sua força principal está na "dedução" e na "dedução" em vez de simplesmente "repetição" ou "parafraseamento". Entretanto, as bases de conhecimento (especialmente RAG (base de conhecimento em cenários), o requisito principal é exatamente o último: o modelo precisa responder ou resumir estritamente com base nas informações textuais fornecidas, minimizando a introdução de conhecimento externo ou a extração excessiva.

Quando um modelo de raciocínio forte se restringe a resumir apenas um determinado documento, seu instinto de "raciocínio" pode ser uma faca de dois gumes. Ele pode:

  1. Interpretação excessiva. Extrapolar informações do texto original de forma desnecessariamente profunda e tirar conclusões que não estão explicitamente declaradas no texto original.
  2. Informações sobre a costura. Tentativas de vincular as informações fragmentadas no texto original por meio de uma cadeia lógica "razoável" que pode não ser apoiada pelo texto original.
  3. Conhecimento externo padrão. Mesmo quando solicitado a confiar apenas no texto original, o vasto conhecimento do mundo adquirido em seu treinamento ainda pode se infiltrar inconscientemente, levando a desvios dos fatos do texto original.

Simplificando, esses modelos podem "pensar demais" e, em cenários que exigem a reprodução precisa e fiel das informações, eles tendem a ser "inteligentes demais para seu próprio bem", criando conteúdo que parece ser razoável, mas que, na verdade, é uma ilusão. Isso mostra que a capacidade de raciocínio dos modelos e a consistência factual (especialmente no caso de fontes de informação restritas) são duas dimensões de capacidade diferentes. Em cenários como bases de conhecimento e RAGs, pode ser mais importante selecionar modelos com uma baixa taxa de alucinação que reflitam fielmente as informações de entrada do que simplesmente buscar uma pontuação de raciocínio.

 

Metodologia e histórico

A classificação HHEM não surgiu do nada e se baseia em vários esforços anteriores no campo da pesquisa de consistência factual, como os seguintes SUMMACTRUETrueTeacher A metodologia estabelecida nos artigos de et al. A ideia central é treinar um modelo específico para a detecção de alucinações que atinja um alto nível de correlação com avaliadores humanos em termos de julgamento da consistência do resumo com o texto original.

A tarefa de resumo foi selecionada pelo processo de avaliação como um indicador da factualidade do LLM. Isso se deve não apenas ao fato de a tarefa de resumo em si exigir um alto grau de consistência factual, mas também por ser muito semelhante ao modelo de trabalho do sistema RAG - no RAG, é o LLM que desempenha a função de integrar e resumir as informações recuperadas. Os resultados dessa classificação são, portanto, informativos para avaliar a confiabilidade do modelo nos aplicativos RAG.

É importante observar que a equipe de avaliação excluiu os documentos que os modelos se recusaram a responder ou que deram respostas muito curtas e inválidas e, por fim, usou os 831 documentos (dos 1006 originais) para os quais todos os modelos conseguiram gerar resumos para o cálculo da classificação final, a fim de garantir a imparcialidade. As métricas de taxa de resposta e comprimento médio do resumo também refletem os padrões de comportamento dos modelos ao processar essas solicitações.

O modelo de prompt usado para a avaliação é o seguinte:

You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question 'Provide a concise summary of the following passage, covering the core pieces of information described.' <PASSAGE>'

No momento da chamada real, o<PASSAGE> será substituído pelo conteúdo do documento de origem específico.

 

olhando para frente

O programa de classificação HHEM indicou que planeja ampliar o escopo da avaliação no futuro:

  • Precisão das citações. Adicione uma avaliação da precisão da citação de fontes do LLM nos cenários RAG.
  • Outras tarefas RAG. Cobrir mais tarefas relacionadas ao RAG, como o resumo de vários documentos.
  • Suporte a vários idiomas. Ampliar a avaliação para outros idiomas além do inglês.

A classificação do HHEM oferece uma janela valiosa para observar e comparar a capacidade de diferentes LLMs de controlar ilusões e manter a consistência factual. Embora não seja a única medida de qualidade do modelo, nem abranja todos os tipos de ilusões, ela certamente chamou a atenção do setor para a questão da confiabilidade do LLM e oferece um ponto de referência importante para os desenvolvedores selecionarem e otimizarem os modelos. À medida que os modelos e os métodos de avaliação continuam a ser iterados, podemos esperar um progresso ainda maior no fornecimento de informações precisas e confiáveis dos LLMs.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Desvendando a ilusão do grande modelo: as classificações do HHEM fornecem informações sobre o estado da consistência factual no LLM
pt_BRPortuguês do Brasil