resumos
Os sistemas de recuperação de informações são essenciais para o acesso eficiente a grandes coleções de documentos. Abordagens recentes utilizam modelos de linguagem grandes (LLMs) para melhorar o desempenho da recuperação por meio do aprimoramento da consulta, mas geralmente dependem de técnicas caras de aprendizado supervisionado ou destilação que exigem recursos computacionais significativos e dados rotulados manualmente. Neste artigo, apresentamos o DeepRetrieval, uma nova abordagem baseada em aprendizagem por reforço para treinar diretamente LLMs para aprimoramento de consultas por meio de tentativa e erro, sem a necessidade de dados supervisionados. Ao usar o recall de recuperação como um sinal de recompensa, nosso sistema aprende a gerar consultas eficazes para maximizar o desempenho da recuperação de documentos. Nossos resultados preliminares mostram que o DeepRetrieval alcança uma recuperação de 60,821 TP3T na tarefa de pesquisa de publicações e 70,841 TP3T na tarefa de pesquisa experimental, usando um modelo menor (3B vs. 7B parâmetros) e sem nenhum dado supervisionado. Esses resultados sugerem que nossa abordagem de aprendizado por reforço oferece um paradigma mais eficiente e eficaz para a recuperação de informações que pode mudar o cenário dos sistemas de recuperação de documentos.
Autor: Chengjiang Peng (Departamento de Ciência da Computação, UIUC)
Original: https://arxiv.org/pdf/2503.00223
Endereço do código: https://github.com/pat-jj/DeepRetrieval
1. introdução
Os sistemas de Recuperação de Informações (RI) desempenham um papel fundamental para ajudar os usuários a encontrar documentos relevantes em coleções de documentos em grande escala. As abordagens tradicionais de RI dependem da correspondência de palavras-chave e de métodos estatísticos, que muitas vezes têm dificuldade para entender o significado semântico por trás das consultas dos usuários. Avanços recentes em Modelos de Linguagem Ampla (LLMs) têm se mostrado promissores para lidar com essas limitações por meio do aumento de consultas (Bonifacio et al., 2022), em que os LLMs estendem ou reformulam as consultas dos usuários para capturar melhor os documentos relevantes.
No entanto, os métodos atuais de aprimoramento de consultas baseados em LLM geralmente empregam técnicas de aprendizado supervisionado ou de destilação, que têm várias limitações significativas:
- Eles exigem recursos computacionais caros para gerar dados de treinamento, geralmente custando milhares de dólares.
- A qualidade das consultas aprimoradas depende da qualidade dos dados de vigilância.
- Eles dependem de modelos maiores para gerar dados para modelos menores, o que introduz possíveis vieses e limitações.
Neste trabalho, apresentamos o DeepRetrieval, uma nova abordagem que usa o aprendizado por reforço (RL) para treinar LLMs para aprimoramento de consultas. Diferentemente das abordagens que dependem de dados supervisionados, o DeepRetrieval permite que os modelos aprendam por meio de tentativa e erro diretos, usando a recuperação como sinal de recompensa. Essa abordagem tem várias vantagens importantes:
- Não há necessidade de geração de dados supervisionados caros
Figura 1: DeepRetrieval: o LLM gera consultas aprimoradas para a recuperação de documentos. O recall é calculado e usado como recompensa para atualizar o modelo.
- Otimizado diretamente para o objetivo final (desempenho de recall)
- Capacidade de aprender estratégias eficazes sem demonstração humana
Nossos resultados preliminares mostram que o DeepRetrieval supera significativamente os métodos existentes de última geração, incluindo o recente sistema LEADS (Wang et al., 2025), alcançando uma recuperação de 60,821 TP3T na tarefa de pesquisa de publicações e 70,841 TP3T na tarefa de pesquisa de estudos. É importante observar que esses resultados foram obtidos com um modelo menor (parâmetros 3B) em comparação com o LEADS (parâmetros 7B) e sem nenhum dado supervisionado, o que destaca a eficiência e a eficácia da nossa abordagem.
2. metodologia
Nossa abordagem DeepRetrieval se baseia nos recentes avanços no aprendizado por reforço para LLMs, aplicando esse paradigma a uma tarefa específica de recuperação de informações - aprimoramento de consultas. Nossa abordagem é diretamente inspirada no DeepSeek-R1-Zero (DeepSeek-AI et al., 2025), que demonstrou que a RL pode ser usada para treinar modelos com recursos avançados de raciocínio sem depender de dados supervisionados. A Figura 1 ilustra a arquitetura geral do nosso sistema.
2.1 Formulação do problema
encontrado D é uma coleção de documentos.q para consultas de usuários. O objetivo de um sistema de recuperação de informações é retornar as mesmas informações que o usuário. q Um subconjunto de documentos relacionados Dq⊂ D . No aumento da consulta, a consulta original q Convertido em uma consulta aprimorada q'A consulta é mais eficaz na recuperação de documentos relevantes.
Tradicionalmente, esse processo de aumento é aprendido por meio de aprendizado supervisionado, em que (q,q') são fornecidos como dados de treinamento. Em contrapartida, nossa abordagem usa o aprendizado por reforço, em que o modelo aprende a gerar consultas aumentadas válidas por meio de tentativa e erro, semelhante à forma como o DeepSeek-R1-Zero aprende a resolver problemas de inferência.
2.2 Estrutura de aprendizagem aprimorada
Formulamos a tarefa de aprimoramento da consulta como um problema de aprendizado por reforço:
- estado das coisasConsulta original do usuário q
- movimentoConsultas aprimoradas geradas pelo modelo q'
- incentivos: Uso q' Recall obtido na recuperação de documentos
Os modelos são treinados para maximizar a recompensa esperada, ou seja, para gerar consultas aumentadas que alcancem alta recuperação. Essa otimização direta do objetivo final difere das abordagens supervisionadas, que otimizam aprimoramentos semelhantes aos gerados por modelos maiores ou gerados artificialmente.
2.3 Arquitetura do modelo e estrutura de saída
Usamos o Qwen-2.5-3B-Instruct (Yang et al., 2024) como LLM de linha de base para o nosso sistema. O modelo recebe as consultas do usuário como entrada e gera consultas aumentadas. O modelo é estruturado para gerar primeiro etapas de raciocínio em seções e, em seguida, gerar a consulta final aumentada no formato JSON em seções. Essa geração estruturada permite que o modelo considere todos os aspectos da consulta e explore diferentes estratégias de aprimoramento antes de finalizar sua resposta.
Em nossos experimentos preliminares, nos concentramos na pesquisa de literatura médica usando prompts profissionais com base na estrutura PICO (consulte o Apêndice A para obter detalhes). Para ser compatível com o sistema de pesquisa, o formato JSON requer agrupamento usando operadores booleanos (AND, OR) e colchetes apropriados. No entanto, nossa abordagem é genérica e pode ser aplicada a conjuntos de dados de RI tradicionais com as devidas modificações nos formatos de solicitação e consulta.
2.4 Mecanismos de incentivo
Nossa função de recompensa visa otimizar diretamente o desempenho da recuperação. O processo é o seguinte:
- O modelo gera consultas aprimoradas em resposta às consultas da estrutura PICO.
- Realizar consultas aprimoradas em coleções de documentos (PubMed ou ClinicalTrials.gov).
- Calcule o recall como a porcentagem de documentos relevantes recuperados.
- Os prêmios compostos são calculados com base no seguinte:
- Correção da formatação (estrutura JSON, rotulagem adequada)
- Recupere a taxa de recuperação, quanto maior a taxa de recuperação, maior a recompensa.
Especificamente, nossa função de recompensa usa um sistema de pontuação hierárquico baseado em recall, conforme mostrado na Tabela 1.
taxa de recall | ≥ 0.7 | ≥ 0.5 | ≥ 0.4 | ≥ 0.3 | ≥ 0.1 | ≥ 0.05 | < 0.05 |
---|---|---|---|---|---|---|---|
incentivos | +5.0 | +4.0 | +3.0 | +1.0 | +0.5 | +0.1 | -3.5 |
Tabela 1: Níveis de recompensa com base no desempenho de recuperação. Valores de recuperação mais altos recebem recompensas significativamente maiores, incentivando o modelo a gerar consultas mais eficientes.
Além disso, a formatação correta receberá +1 ponto, enquanto a formatação incorreta receberá -4 pontos. É importante ressaltar que, se o formato estiver incorreto (tags ausentes, estrutura JSON incorreta, etc.), o bônus de resposta não será calculado e apenas uma penalidade de formato será incorrida. Essa estrutura de recompensa incentiva fortemente o modelo a gerar consultas bem formatadas que maximizem a recuperação e, ao mesmo tempo, respeitem o formato de saída desejado.
2.5 Processo de treinamento
Nosso processo de treinamento segue estas etapas:
- Inicialize o modelo usando os pesos pré-treinados.
- Para cada consulta no conjunto de treinamento:
- Gerar consultas aprimoradas.
- Executar consultas no sistema de pesquisa.
- Calcule a taxa de recuperação (a porcentagem de documentos relevantes recuperados).
- Use recompensas baseadas em recall para atualizar o modelo.
- Repita até a convergência.
Esse processo permite que o modelo aprenda estratégias eficazes de aprimoramento de consultas diretamente do desempenho da recuperação sem supervisão explícita. O modelo melhora gradualmente sua capacidade de converter as consultas da estrutura PICO em termos de pesquisa válidos para maximizar a recuperação da literatura médica relevante.
3. experimentos
3.1 Conjuntos de dados
Avaliamos nossa abordagem em duas tarefas de pesquisa de literatura médica:
- Pesquisa de publicaçõesRecuperação de publicações médicas relevantes do PubMed com base em consultas de usuários expressas na estrutura PICO.
- Pesquisa de testePesquisa de ensaios clínicos relevantes do ClinicalTrials.gov com base em uma consulta de estrutura PICO semelhante.
Esses conjuntos de dados são particularmente desafiadores para os sistemas de recuperação de informações devido à terminologia especializada e às relações complexas na literatura médica. Para cada consulta, temos um conjunto de documentos relacionados à verdade básica (identificados por seus PMIDs) que devem ser recuperados de forma ideal pela consulta aumentada.
3.2 Avaliação dos indicadores
Usamos a recuperação como nossa principal métrica de avaliação, que mede a proporção de documentos relevantes recuperados. Especificamente, relatamos:
- Taxa de recuperação (pesquisa de publicações)Porcentagem de publicações relevantes recuperadas.
- Recall (pesquisa de tentativas)Porcentagem de estudos clínicos relevantes recuperados.
3.3 Linha de base
Comparamos nossa abordagem com várias linhas de base:
- GPT-4oVárias configurações (zero amostra, menos amostra, ICL, ICL + menos amostra).
- GPT-3.5Várias configurações (zero amostra, menos amostra, ICL, ICL + menos amostra).
- Haiku-3Várias configurações (zero amostra, menos amostra, ICL, ICL + menos amostra).
- Mistral-7B (Jiang et al., 2023)Configuração de amostra zero.
- LEADS (Wang et al., 2025)MITRAL-7B: Um método de pesquisa de literatura médica de última geração para treinamento de destilação usando o Mistral-7B.
3.4 Detalhes da implementação
Usamos a estrutura VERL1Implementou o DeepRetrieval, uma implementação de código aberto da estrutura HybridFlow RLHF (Sheng et al., 2024).
Nossa configuração de treinamento usa a Otimização de Política Proximal (PPO) com os seguintes parâmetros principais:
- modelo de linha de baseQwen-2.5-3B-Instruct (Yang et al., 2024).
Figura 2: Dinâmica de treinamento do DeepRetrieval. O cálculo do recall é baseado em pesquisas no PubMed durante o treinamento.
- Tamanho de lote pequeno de PPO: 16.
- Tamanho do micro lote de PPO: 8.
- taxa de aprendizado: Ator 1e-6, Crítico 1e-5.
- Fator KL:: 0.001.
- Comprimento máximo da sequência: Tanto os prompts quanto as respostas têm 500 tokens.
Treinamos o modelo em dois NVIDIA A100 80GB PCIe usando a estratégia FSDP com pontos de verificação de gradiente ativados para otimizar o uso da memória. O processo de treinamento foi executado por 5 ciclos.
Conforme mostrado na Figura 2, a dinâmica do treinamento mostra uma melhoria constante nas métricas de desempenho à medida que o treinamento avança. A recompensa média (canto superior esquerdo) mostra uma tendência consistente de aumento, começando com valores negativos, mas rapidamente se tornando positiva e continuando a melhorar durante o treinamento. Ao mesmo tempo, a taxa de respostas incorretas (parte superior central) e a taxa de erros de formatação (parte superior direita) diminuem drasticamente, indicando que o modelo está aprendendo a gerar consultas bem estruturadas para recuperar documentos relevantes.
A melhoria mais notável foi um aumento consistente em todos os limites de recuperação. A proporção de consultas que atingiram valores altos de recuperação (≥0,5, ≥0,7) aumentou constantemente, com o nível de recuperação mais alto (≥0,7) crescendo de quase zero para ~0,25 no final do treinamento. A taxa de recuperação média (≥0,4, ≥0,3) apresentou um crescimento ainda mais forte para ~0,6-0,7, enquanto os limites de recuperação mais baixos (≥0,1, ≥0,05) se aproximaram rapidamente e se estabilizaram em torno de 0,8- 0,9 de vizinhança. Esse progresso demonstra claramente como o aprendizado por reforço pode aumentar progressivamente a capacidade do modelo de gerar aprimoramentos de consulta eficazes, otimizando diretamente o desempenho da recuperação.
4. resultados
4.1 Principais resultados
A Tabela 2 mostra os principais resultados dos experimentos. O DeepRetrieval obteve uma recuperação de 60,821 TP3T na tarefa de pesquisa de publicações e de 70,841 TP3T na tarefa de pesquisa de estudos, superando significativamente todas as linhas de base, inclusive o sistema LEADS de última geração.
4.2 Análises
Várias observações importantes emergem de nossos resultados:
- desempenho superiorO DeepRetrieval supera o LEADS por uma grande margem na tarefa de pesquisa de publicações (60,821 TP3T vs. 24,681 TP3T) e na tarefa de pesquisa de ensaios (70,841 TP3T vs. 32,111 TP3T), embora usando um modelo menor (3B vs. 7B parâmetros).
- custo-benefícioDiferentemente do LEADS, que requer uma destilação cara (estimada em mais de US$ 10.000 para a geração de dados de treinamento), o DeepRecallal não requer dados supervisionados, o que o torna significativamente mais econômico.
- versatilidadeDesempenho sustentado em tarefas de publicação e pesquisa experimental mostra que nossa abordagem tem boa generalidade em diferentes cenários de recuperação.
- Eficiência da geração estruturadaUso de /structure: usando /structure, o modelo é capaz de raciocinar por meio de consultas complexas antes de finalizar sua resposta, melhorando assim a qualidade geral.
5) Discussão
5.1 Por que o aprendizado por reforço funciona
O desempenho superior do DeepRetrieval pode ser atribuído a vários fatores:
- Otimização diretaO modelo aprende a gerar consultas que são válidas para recuperação, em vez de consultas que correspondem a algum padrão predefinido.
- exploraçõesOs modelos de aprendizado por reforço permitem que os modelos explorem uma ampla variedade de estratégias de aprimoramento de consultas, possivelmente descobrindo métodos eficazes que podem não estar presentes em dados supervisionados.
- aprendizagem adaptativaEm vez de uma abordagem única, o modelo pode adaptar sua estratégia de aprimoramento às características específicas da consulta e da coleção de documentos.
- raciocínio estruturadoUma abordagem de geração em dois estágios usando componentes separados de pensamento e resposta permite que o modelo trabalhe no espaço da pergunta antes de enviar a consulta final.
5.2 Limitações e trabalhos futuros
Embora nossos resultados iniciais sejam promissores, ainda existem algumas limitações e direções para trabalhos futuros:
- Avaliação em conjuntos de dados clássicos de IRNossos experimentos atuais se concentram na recuperação de literatura médica usando a estrutura PICO. Uma próxima etapa importante é avaliar o DeepRecallal em testes de referência de IR padrão (por exemplo, MS MARCO, TREC e BEIR) para testar sua eficácia em cenários de recuperação mais gerais.
- Comparação com métodos mais avançadosComparações adicionais com métodos recentes de aprimoramento de consultas validarão ainda mais nossas descobertas.
- Extensões de modeloAnálise de como o desempenho varia com modelos maiores: a análise de como o desempenho varia com modelos maiores fornece informações sobre a compensação entre o tamanho do modelo e o desempenho da recuperação.
- Trabalhos de incentivoExplorar funções de recompensa mais complexas que incorporem outras métricas além da recuperação (por exemplo, precisão, nDCG) pode levar a melhorias adicionais.
- Integração com o pipeline de recuperaçãoExplore como o DeepRecallal pode ser integrado aos pipelines de recuperação existentes, incluindo abordagens híbridas que combinam métodos de recuperação neurais e tradicionais.
6. conclusão
Neste artigo, apresentamos o DeepRecallal, um novo método de aprimoramento de consulta baseado em aprendizado por reforço para recuperação de informações. Ao treinar um modelo de linguagem de 3B parâmetros para otimizar diretamente a recuperação de recuperação, alcançamos um desempenho de última geração em uma tarefa de recuperação de literatura médica que supera significativamente os métodos existentes que dependem de aprendizado supervisionado ou destilação.
A principal inovação de nossa abordagem é sua capacidade de aprender estratégias eficazes de aprimoramento de consultas por meio de tentativa e erro, sem a necessidade de dados supervisionados caros. Isso torna o DeepRecallal não apenas mais eficiente, mas também mais econômico do que as abordagens existentes.
Nossos resultados mostram que o aprendizado por reforço oferece um paradigma promissor para a recuperação de informações que pode mudar o cenário dos sistemas de recuperação de documentos. Acreditamos que essa abordagem pode ser estendida a outras tarefas e domínios de recuperação de informações, fornecendo uma estrutura geral para melhorar o desempenho da recuperação em uma variedade de aplicativos.
Apêndice A Dicas PICO
Em nossos experimentos de recuperação de literatura médica, usamos as seguintes solicitações de entrada profissionais:
Assistant é um especialista clínico. Ele está realizando pesquisas e revisões da literatura médica. Sua tarefa é criar termos de consulta para pesquisar URLs para encontrar literatura relevante no PubMed ou no ClinicalTrials.gov.
O estudo se baseia na definição da estrutura PICO:
P: Paciente, problema ou população - Quem ou o que é a população do estudo?
I: Intervenções - Quais são as principais intervenções ou fatores de exposição considerados?
C: Controle - Com o que a intervenção é comparada?
O: Outcomes (Resultados) - Quais são as descobertas relevantes ou os efeitos medidos?
O Assistente deve mostrar seu processo de pensamento dentro da tag .
O Assistente deve retornar a resposta final dentro da tag e usar a formatação JSON, por exemplo:
,,
[processo de pensamento].
<answer>
{
"query": "...."
}
</answer>
Observação: as consultas devem usar operadores booleanos (AND, OR) e parênteses para agrupar os termos adequadamente.
Esse prompt de entrada profissional é especificamente para pesquisa de literatura médica, mas pode ser aplicado a outros domínios de recuperação de informações (IR) modificando a descrição da tarefa e a orientação da estrutura da consulta.