DeepRetrieval: generación eficiente de consultas de recuperación de información mediante aprendizaje por refuerzo

Base de conocimientos de IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial

32.9K 00

resúmenes

Los sistemas de recuperación de información son fundamentales para acceder con eficacia a grandes colecciones de documentos. Los enfoques recientes aprovechan los modelos de lenguaje de gran tamaño (LLM) para mejorar el rendimiento de la recuperación mediante la mejora de las consultas, pero normalmente se basan en costosas técnicas de aprendizaje supervisado o destilación que requieren importantes recursos informáticos y datos etiquetados manualmente. En este artículo, presentamos DeepRetrieval, un novedoso enfoque basado en el aprendizaje por refuerzo para entrenar directamente LLMs para la mejora de la consulta a través de ensayo y error sin necesidad de datos supervisados. Utilizando la recuperación como señal de recompensa, nuestro sistema aprende a generar consultas eficaces para maximizar el rendimiento de la recuperación de documentos. Nuestros resultados preliminares muestran que DeepRetrieval logra una recuperación de 60,821 TP3T en la tarea de búsqueda de publicaciones y 70,841 TP3T en la tarea de búsqueda experimental, utilizando un modelo más pequeño (3B frente a 7B parámetros) y sin ningún dato supervisado. Estos resultados sugieren que nuestro enfoque de aprendizaje reforzado proporciona un paradigma más eficiente y eficaz para la recuperación de información que puede cambiar el panorama de los sistemas de recuperación de documentos.

Autor: Chengjiang Peng (Departamento de Informática, UIUC)

Original: https://arxiv.org/pdf/2503.00223

Dirección del código: https://github.com/pat-jj/DeepRetrieval

1. Introducción

Los sistemas de recuperación de información (IR) desempeñan un papel crucial a la hora de ayudar a los usuarios a encontrar documentos relevantes en colecciones de documentos a gran escala. Los enfoques tradicionales se basan en la concordancia de palabras clave y en métodos estadísticos, que a menudo tienen dificultades para comprender el significado semántico de las consultas de los usuarios. Los recientes avances en los modelos de lenguaje amplio (LLM, Large Language Models) han demostrado ser prometedores a la hora de abordar estas limitaciones mediante el aumento de consultas (Bonifacio et al., 2022), donde los LLM amplían o reformulan las consultas de los usuarios para captar mejor los documentos relevantes.

Sin embargo, los métodos actuales de mejora de consultas basados en LLM suelen emplear técnicas de aprendizaje supervisado o destilación, que presentan varias limitaciones importantes:

Requieren costosos recursos informáticos para generar datos de entrenamiento, que a menudo cuestan miles de dólares.
La calidad de las consultas mejoradas depende de la calidad de los datos de vigilancia.
Se basan en modelos más grandes para generar datos para modelos más pequeños, lo que introduce posibles sesgos y limitaciones.

En este trabajo, presentamos DeepRetrieval, un nuevo enfoque que utiliza el aprendizaje por refuerzo (RL) para entrenar LLMs para la mejora de la consulta. A diferencia de los enfoques que se basan en datos supervisados, DeepRetrieval permite que los modelos aprendan mediante ensayo y error directo, utilizando la recuperación como señal de recompensa. Este enfoque tiene varias ventajas clave:

Sin necesidad de generar costosos datos supervisados

DeepRetrieval：强化学习驱动的高效信息检索查询生成 Figura 1: DeepRetrieval: el LLM genera consultas mejoradas para recuperar documentos. Se calcula la recuperación y se utiliza como recompensa para actualizar el modelo.

Optimizado directamente para el objetivo final (rendimiento de recuperación)
Capacidad para aprender estrategias eficaces sin demostración humana

Nuestros resultados preliminares muestran que DeepRetrieval supera significativamente a los métodos de vanguardia existentes, incluido el reciente sistema LEADS (Wang et al., 2025), logrando una recuperación de 60,821 TP3T en la tarea de búsqueda de publicaciones y 70,841 TP3T en la tarea de búsqueda de ensayos. Cabe destacar que estos resultados se obtuvieron con un modelo más pequeño (3B parámetros) en comparación con LEADS (7B parámetros) y sin ningún dato supervisado, lo que pone de relieve la eficiencia y eficacia de nuestro enfoque.

2. Metodología

Nuestro enfoque DeepRetrieval se basa en los recientes avances en el aprendizaje por refuerzo para LLM aplicando este paradigma a una tarea específica de la recuperación de información: la mejora de consultas. Nuestro enfoque se inspira directamente en DeepSeek-R1-Zero (DeepSeek-AI et al., 2025), que demostró que el RL puede utilizarse para entrenar modelos con capacidades de razonamiento avanzadas sin depender de datos supervisados. La figura 1 ilustra la arquitectura general de nuestro sistema.

2.1 Formulación del problema

encontrado D es una colección de documentos.q para las consultas de los usuarios. El objetivo de un sistema de recuperación de información es devolver la misma información que q Un subconjunto de documentos relacionados D_q⊂ D . En el aumento de consultas, la consulta original q Convertido en una consulta mejorada q'La consulta es más eficaz para recuperar los documentos pertinentes.

Tradicionalmente, este proceso de aumento se aprende mediante aprendizaje supervisado, donde (q,q') como datos de entrenamiento. En cambio, nuestro enfoque utiliza el aprendizaje por refuerzo, en el que el modelo aprende a generar consultas aumentadas válidas mediante ensayo y error, de forma similar a como DeepSeek-R1-Zero aprende a resolver problemas de inferencia.

2.2 Marco de aprendizaje reforzado

Formulamos la tarea de mejora de consultas como un problema de aprendizaje por refuerzo:

situaciónConsulta original del usuario q
movimientoConsultas mejoradas generadas por el modelo q'
incentivos: Uso q' Recuperación de documentos

Los modelos se entrenan para maximizar la recompensa esperada, es decir, para generar consultas aumentadas que consigan una alta recuperación. Esta optimización directa del objetivo final difiere de los enfoques supervisados, que optimizan aumentos similares a los generados por modelos generados artificialmente o de mayor tamaño.

2.3 Arquitectura del modelo y estructura de los resultados

Utilizamos Qwen-2.5-3B-Instruct (Yang et al., 2024) como LLM de referencia para nuestro sistema, que toma las consultas del usuario como entrada y genera consultas aumentadas. El modelo está estructurado para generar primero los pasos de razonamiento en secciones y luego generar la consulta aumentada final en formato JSON en secciones. Esta generación estructurada permite al modelo considerar todos los aspectos de la consulta y explorar distintas estrategias de mejora antes de finalizar su respuesta.

En nuestros experimentos iniciales, nos centramos en la búsqueda de bibliografía médica utilizando indicaciones profesionales basadas en el marco PICO (para más detalles, véase el Apéndice A). Para ser compatible con el sistema de búsqueda, el formato JSON requiere la agrupación mediante operadores booleanos (AND, OR) y los corchetes adecuados. Sin embargo, nuestro planteamiento es genérico y puede aplicarse a los conjuntos de datos de RI tradicionales con las modificaciones adecuadas en los formatos de las instrucciones y las consultas.

2.4 Mecanismos de incentivación

Nuestra función de recompensa pretende optimizar directamente el rendimiento de la recuperación. El proceso es el siguiente:

El modelo genera consultas mejoradas en respuesta a las consultas del marco PICO.
Realice consultas mejoradas en colecciones de documentos (PubMed o ClinicalTrials.gov).
Calcule la recuperación como el porcentaje de documentos relevantes recuperados.
Los premios compuestos se calculan en función de lo siguiente:
- Corrección del formato (estructura JSON, etiquetado adecuado)
- Recuperar el índice de recuerdo, cuanto mayor sea el índice de recuerdo, mayor será la recompensa.

En concreto, nuestra función de recompensa utiliza un sistema de puntuación jerárquico basado en el recuerdo, como se muestra en la Tabla 1.

tasa de retirada	≥ 0.7	≥ 0.5	≥ 0.4	≥ 0.3	≥ 0.1	≥ 0.05	< 0.05
incentivos	+5.0	+4.0	+3.0	+1.0	+0.5	+0.1	-3.5

Tabla 1: Niveles de recompensa en función de la recuperación. Los valores de recuperación más altos reciben recompensas significativamente mayores, lo que incentiva al modelo a generar consultas más eficientes.

Además, el formato correcto recibirá +1 punto, mientras que el formato incorrecto recibirá -4 puntos. Además, si el formato es incorrecto (falta de etiquetas, estructura JSON incorrecta, etc.), la bonificación por respuesta no se calcula en absoluto y sólo se incurre en una penalización por formato. Esta estructura de recompensas anima al modelo a generar consultas bien formateadas que maximicen la recuperación y se ajusten al formato de salida deseado.

2.5 Proceso de formación

Nuestro proceso de formación sigue estos pasos:

Inicializar el modelo utilizando los pesos preentrenados.
Para cada consulta del conjunto de entrenamiento:
1. Generar consultas mejoradas.
2. Ejecutar consultas en el sistema de búsqueda.
3. Calcule la tasa de recuperación (el porcentaje de documentos relevantes recuperados).
4. Utilizar recompensas basadas en el recuerdo para actualizar el modelo.
Repetir hasta la convergencia.

Este proceso permite al modelo aprender estrategias eficaces de mejora de las consultas directamente a partir del rendimiento de la recuperación sin supervisión explícita. El modelo mejora gradualmente su capacidad de convertir las consultas del marco PICO en términos de búsqueda válidos para maximizar la recuperación de la literatura médica relevante.

3. Experimentos

3.1 Conjuntos de datos

Evaluamos nuestro enfoque en dos tareas de búsqueda de literatura médica:

Búsqueda de publicacionesRecuperación de publicaciones médicas relevantes de PubMed a partir de consultas de usuario expresadas en el marco PICO.
Búsqueda de pruebasRecuperar ensayos clínicos relevantes de ClinicalTrials.gov basándose en una consulta similar del marco PICO.

Estos conjuntos de datos suponen un reto especial para los sistemas de recuperación de información debido a la terminología especializada y a las complejas relaciones existentes en la literatura médica. Para cada consulta, disponemos de un conjunto de documentos relacionados (identificados por sus PMID) que deberían ser recuperados por la consulta aumentada.

3.2 Evaluación de los indicadores

La principal métrica de evaluación es la recuperación, que mide la proporción de documentos relevantes recuperados. En concreto, informamos de:

Tasa de recuperación (búsqueda de publicaciones)Porcentaje de publicaciones pertinentes recuperadas.
Recuperación (búsqueda de pruebas)Porcentaje de ensayos clínicos pertinentes recuperados.

3.3 Situación de partida

Comparamos nuestro enfoque con varias líneas de base:

GPT-4oVarias configuraciones (muestra cero, menos muestra, ICL, ICL + menos muestra).
GPT-3.5Varias configuraciones (muestra cero, menos muestra, ICL, ICL + menos muestra).
Haiku-3Varias configuraciones (muestra cero, menos muestra, ICL, ICL + menos muestra).
Mistral-7B (Jiang et al., 2023)Cero configuración de muestra.
LEADS (Wang et al., 2025): Un método puntero de búsqueda de literatura médica para la formación en destilación utilizando el Mistral-7B.

3.4 Detalles de la aplicación

Utilizamos el marco VERL¹Implementación de DeepRetrieval, una implementación de código abierto del marco HybridFlow RLHF (Sheng et al., 2024).

Nuestra configuración de entrenamiento utiliza la Optimización de Política Proximal (PPO) con los siguientes parámetros clave:

modelo baseQwen-2.5-3B-Instruct (Yang et al., 2024).

DeepRetrieval：强化学习驱动的高效信息检索查询生成 Figura 2: Dinámica de entrenamiento de DeepRetrieval. El cálculo de la recuperación se basa en las búsquedas en PubMed durante el entrenamiento.

PPO tamaño de lote pequeño: 16.
Tamaño del microlote PPO: 8.
ritmo de aprendizajeActor 1e-6, Crítico 1e-5.
Factor KL:: 0.001.
Longitud máxima de la secuenciaTanto las preguntas como las respuestas tienen 500 fichas.

Entrenamos el modelo en dos NVIDIA A100 80GB PCIe utilizando la estrategia FSDP con los puntos de control de gradiente activados para optimizar el uso de memoria. El proceso de entrenamiento se ejecutó durante 5 ciclos.

Como muestra la Figura 2, la dinámica de entrenamiento muestra una mejora constante de las métricas de rendimiento a medida que avanza el entrenamiento. La recompensa media (arriba a la izquierda) muestra una tendencia ascendente constante, que comienza con valores negativos pero rápidamente se vuelve positiva y sigue mejorando a lo largo del entrenamiento. Al mismo tiempo, la proporción de respuestas incorrectas (arriba en el centro) y la proporción de errores de formato (arriba a la derecha) disminuyen drásticamente, lo que indica que el modelo está aprendiendo a generar consultas bien estructuradas para recuperar documentos relevantes.

La mejora más notable fue el aumento constante de todos los umbrales de recuperación. La proporción de consultas que alcanzaron valores de recuperación altos (≥0,5, ≥0,7) aumentó de forma constante, con el nivel de recuperación más alto (≥0,7) creciendo desde casi cero hasta ~0,25 al final del entrenamiento.El ratio de recuperación medio (≥0,4, ≥0,3) mostró un crecimiento aún mayor hasta ~0,6-0,7, mientras que los umbrales de recuperación más bajos (≥0,1, ≥0,05) se acercaron rápidamente y se estabilizaron en torno a 0,8- 0,9 de vecindad. Este progreso demuestra claramente cómo el aprendizaje por refuerzo puede mejorar progresivamente la capacidad del modelo para generar mejoras eficaces de la consulta optimizando directamente el rendimiento de la recuperación.

4. Resultados

4.1 Principales resultados

La Tabla 2 muestra los principales resultados de los experimentos.DeepRetrieval alcanzó un recall de 60,821 TP3T en la tarea de búsqueda de publicaciones y 70,841 TP3T en la tarea de búsqueda de ensayos, superando significativamente todas las líneas de base, incluyendo el sistema LEADS de última generación.

4.2 Análisis

De nuestros resultados se desprenden varias observaciones clave:

rendimiento superiorDeepRetrieval supera a LEADS por un amplio margen en la tarea de búsqueda de publicaciones (60,821 TP3T frente a 24,681 TP3T), y en la tarea de búsqueda de ensayos (70,841 TP3T frente a 32,111 TP3T), aunque utilizando un modelo más pequeño (3B frente a 7B parámetros).
rentabilidad: A diferencia de LEADS, que requiere una costosa destilación (estimada en más de 10.000 dólares para la generación de datos de entrenamiento), DeepRecallal no requiere datos supervisados, lo que lo hace significativamente más rentable.
versatilidadEl rendimiento sostenido en tareas de búsqueda de publicaciones y experimentales demuestra que nuestro enfoque tiene una buena generalidad en distintos escenarios de recuperación.
Eficacia de la generación estructuradaGracias a /structure, el modelo es capaz de razonar consultas complejas antes de finalizar su respuesta, lo que mejora la calidad global.

5. Debate

5.1 Por qué funciona el aprendizaje por refuerzo

El rendimiento superior de DeepRetrieval puede atribuirse a varios factores:

Optimización directaAl optimizar directamente la recuperación, el modelo aprende a generar consultas que son válidas para la recuperación, en lugar de consultas que coinciden con algún patrón predefinido.
exploracionesEl aprendizaje por refuerzo permite a los modelos explorar una amplia gama de estrategias de mejora de las consultas, lo que puede revelar métodos eficaces que tal vez no estén presentes en los datos supervisados.
aprendizaje adaptativoEn lugar de un enfoque único, el modelo puede adaptar su estrategia de mejora a las características específicas de la consulta y la colección de documentos.
razonamiento estructuradoGeneración en dos etapas: un enfoque de generación en dos etapas que utiliza componentes separados de pensamiento y respuesta permite al modelo trabajar a través del espacio de preguntas antes de enviar la consulta final.

5.2 Limitaciones y trabajos futuros

Aunque nuestros resultados iniciales son prometedores, aún existen algunas limitaciones y orientaciones para el trabajo futuro:

Evaluación en el conjunto de datos IR clásicoDeepRecallal: Nuestros experimentos actuales se centran en la recuperación de literatura médica utilizando el marco PICO. Un próximo paso clave es evaluar DeepRecallal en pruebas de referencia de RI estándar (por ejemplo, MS MARCO, TREC y BEIR) para comprobar su eficacia en escenarios de recuperación más generales.
Comparación con métodos más avanzadosLa comparación con métodos recientes de mejora de las consultas confirmará nuestros resultados.
Extensiones de modelosEl examen de cómo varía el rendimiento con modelos más grandes permite comprender mejor la relación entre el tamaño del modelo y el rendimiento de la recuperación.
IncentivosLa exploración de funciones de recompensa más complejas que incorporen métricas distintas de recall (por ejemplo, precisión, nDCG) puede conducir a nuevas mejoras.
Integración con la cadena de recuperaciónExplore cómo puede integrarse DeepRecallal en los procesos de recuperación existentes, incluidos los enfoques híbridos que combinan métodos de recuperación neuronales y tradicionales.

6. Conclusión

En este artículo presentamos DeepRecallal, un nuevo método de mejora de consultas para la recuperación de información basado en el aprendizaje por refuerzo. Mediante el entrenamiento de un modelo de lenguaje de 3B parámetros para optimizar directamente la recuperación, logramos un rendimiento de vanguardia en una tarea de recuperación de literatura médica que supera significativamente los métodos existentes que se basan en el aprendizaje supervisado o la destilación.

La innovación clave de nuestro enfoque es su capacidad para aprender estrategias eficaces de mejora de las consultas mediante ensayo y error sin necesidad de costosos datos supervisados. Esto hace que DeepRecallal no solo sea más eficiente, sino también más rentable que los enfoques existentes.

Nuestros resultados muestran que el aprendizaje por refuerzo ofrece un paradigma prometedor para la recuperación de información que puede cambiar el panorama de los sistemas de recuperación de documentos. Creemos que este enfoque puede extenderse a otras tareas y dominios de recuperación de información, proporcionando un marco general para mejorar el rendimiento de la recuperación para una variedad de aplicaciones.

Apéndice A Consejos PICO

En nuestros experimentos de recuperación de bibliografía médica, utilizamos las siguientes instrucciones profesionales:
Asistente es especialista clínico. Lleva a cabo investigaciones y revisiones de la literatura médica. Su tarea consiste en crear términos de consulta para buscar URL con el fin de encontrar bibliografía relevante en PubMed o ClinicalTrials.gov.

El estudio se basa en la definición del marco PICO:
P: Paciente, problema o población - ¿Quién o qué es la población de estudio?
I: Intervenciones - ¿Cuáles son las principales intervenciones o factores de exposición considerados?
C: Control - ¿Con qué se compara la intervención?
O: Resultados - ¿Cuáles son los resultados relevantes o los efectos medidos?

El Asistente debe mostrar su proceso de pensamiento dentro de la etiqueta .
Assistant debe devolver la respuesta final dentro de la etiqueta y utilizar el formato JSON, por ejemplo:

[Proceso de pensamiento]

{
"consulta": "...."
}

Nota: Las consultas deben utilizar operadores booleanos (AND, OR), así como paréntesis para agrupar los términos adecuadamente.

Esta solicitud de entrada profesional está destinada específicamente a la búsqueda de bibliografía médica, pero puede aplicarse a otros ámbitos de la recuperación de información (RI) modificando la descripción de la tarea y la orientación de la estructura de la consulta.