DeepRetrieval : génération efficace de requêtes de recherche d'information par apprentissage par renforcement

résumés

Les systèmes de recherche d'informations sont essentiels pour un accès efficace à de grandes collections de documents. Les approches récentes s'appuient sur de grands modèles de langage (LLM) pour améliorer les performances de recherche par le biais de l'amélioration des requêtes, mais elles reposent généralement sur des techniques coûteuses d'apprentissage supervisé ou de distillation qui nécessitent d'importantes ressources informatiques et des données étiquetées manuellement. Dans cet article, nous présentons DeepRetrieval, une nouvelle approche basée sur l'apprentissage par renforcement qui permet d'entraîner directement les LLMs pour l'amélioration des requêtes par essais et erreurs sans avoir besoin de données supervisées. En utilisant le rappel de recherche comme signal de récompense, notre système apprend à générer des requêtes efficaces pour maximiser la performance de recherche de documents. Nos résultats préliminaires montrent que DeepRetrieval atteint un rappel de 60,821 TP3T sur la tâche de recherche de publications et 70,841 TP3T sur la tâche de recherche expérimentale, tout en utilisant un modèle plus petit (3B vs. 7B paramètres) et sans aucune donnée supervisée. Ces résultats suggèrent que notre approche d'apprentissage par renforcement fournit un paradigme plus efficace pour la recherche d'information qui pourrait changer le paysage des systèmes de recherche de documents.

Auteur : Chengjiang Peng (Département d'informatique, UIUC)

Original : https://arxiv.org/pdf/2503.00223

Adresse du code : https://github.com/pat-jj/DeepRetrieval

 

1. introduction

Les systèmes de recherche d'information (RI) jouent un rôle crucial en aidant les utilisateurs à trouver des documents pertinents dans des collections de documents à grande échelle. Les approches traditionnelles de la RI reposent sur l'appariement de mots-clés et sur des méthodes statistiques, qui peinent souvent à comprendre le sens sémantique des requêtes des utilisateurs. Les avancées récentes dans le domaine des grands modèles de langage (LLM) se sont révélées prometteuses pour remédier à ces limitations grâce à l'augmentation des requêtes (Bonifacio et al., 2022), où les LLM étendent ou reformulent les requêtes des utilisateurs afin de mieux capturer les documents pertinents.

Cependant, les méthodes actuelles d'amélioration des requêtes basées sur le LLM utilisent généralement des techniques d'apprentissage supervisé ou de distillation, qui présentent plusieurs limites importantes :

  • Ils nécessitent des ressources informatiques coûteuses pour générer des données de formation, ce qui coûte souvent des milliers de dollars.
  • La qualité des requêtes améliorées dépend de la qualité des données de surveillance.
  • Ils s'appuient sur des modèles plus importants pour générer des données pour des modèles plus petits, ce qui introduit des biais et des limitations potentiels.

Dans ce travail, nous présentons DeepRetrieval, une nouvelle approche qui utilise l'apprentissage par renforcement (RL) pour former les LLM à l'amélioration des requêtes. Contrairement aux approches qui s'appuient sur des données supervisées, DeepRetrieval permet aux modèles d'apprendre par essais et erreurs directs, en utilisant le rappel de recherche comme signal de récompense. Cette approche présente plusieurs avantages clés :

  • Pas besoin de générer des données supervisées coûteuses

DeepRetrieval:强化学习驱动的高效信息检索查询生成 Figure 1 : DeepRetrieval : le LLM génère des requêtes améliorées pour récupérer des documents. Le rappel est calculé et utilisé comme récompense pour mettre à jour le modèle.

  • Optimisé directement pour l'objectif final (performance de rappel)
  • Capacité à apprendre des stratégies efficaces sans démonstration humaine

Nos résultats préliminaires montrent que DeepRetrieval surpasse de manière significative les méthodes de pointe existantes, y compris le récent système LEADS (Wang et al., 2025), atteignant un rappel de 60,821 TP3T sur la tâche de recherche de publications et 70,841 TP3T sur la tâche de recherche d'essais. Il convient de noter que ces résultats ont été obtenus avec un modèle plus petit (3B paramètres) comparé à LEADS (7B paramètres) et sans aucune donnée supervisée, ce qui souligne l'efficacité et l'efficience de notre approche.

 

2. la méthodologie

Notre approche DeepRetrieval s'appuie sur les avancées récentes de l'apprentissage par renforcement pour les LLM en appliquant ce paradigme à la tâche spécifique de la recherche d'information - l'amélioration des requêtes. Notre approche s'inspire directement de DeepSeek-R1-Zero (DeepSeek-AI et al., 2025), qui a démontré que l'apprentissage par renforcement peut être utilisé pour former des modèles dotés de capacités de raisonnement avancées sans s'appuyer sur des données supervisées. La figure 1 illustre l'architecture globale de notre système.

2.1 Formulation du problème

trouvé D est une collection de documents.q pour les requêtes des utilisateurs. L'objectif d'un système de recherche d'informations est de renvoyer les mêmes informations que celles qui ont été obtenues par l'utilisateur. q Un sous-ensemble de documents connexes Dq⊂ D . Lors de l'augmentation de la requête, la requête originale q Convertie en une requête améliorée q'La requête est plus efficace pour récupérer les documents pertinents.

Traditionnellement, ce processus d'augmentation est appris par le biais de l'apprentissage supervisé, où (q,q') sont fournies comme données d'entraînement. En revanche, notre approche utilise l'apprentissage par renforcement, où le modèle apprend à générer des requêtes augmentées valides par essais et erreurs, de la même manière que DeepSeek-R1-Zero apprend à résoudre des problèmes d'inférence.

2.2 Cadre d'apprentissage renforcé

Nous formulons la tâche d'amélioration des requêtes comme un problème d'apprentissage par renforcement :

  • état des lieuxRequête de l'utilisateur : Requête originale de l'utilisateur q
  • mouvementsLes requêtes : Requêtes améliorées générées par le modèle q'
  • incitations: Utilisation q' Rappel obtenu lors de l'extraction de documents

Les modèles sont formés pour maximiser la récompense attendue, c'est-à-dire pour générer des requêtes augmentées qui atteignent un taux de rappel élevé. Cette optimisation directe de l'objectif final diffère des approches supervisées, qui optimisent des améliorations similaires à celles générées par des modèles artificiels ou plus grands.

2.3 Architecture du modèle et structure de sortie

Nous utilisons Qwen-2.5-3B-Instruct (Yang et al., 2024) comme LLM de base pour notre système. Le modèle prend les requêtes de l'utilisateur comme entrée et génère des requêtes augmentées. Le modèle est structuré de manière à générer d'abord les étapes de raisonnement dans des sections, puis la requête augmentée finale au format JSON dans des sections. Cette génération structurée permet au modèle de prendre en compte tous les aspects de la requête et d'explorer différentes stratégies d'amélioration avant de finaliser sa réponse.

Dans nos premières expériences, nous nous sommes concentrés sur la recherche de littérature médicale en utilisant des invites professionnelles basées sur le cadre PICO (voir l'annexe A pour plus de détails). Pour être compatible avec le système de recherche, le format JSON nécessite un regroupement à l'aide d'opérateurs booléens (AND, OR) et de parenthèses appropriées. Toutefois, notre approche est générique et peut être appliquée à des ensembles de données de RI traditionnels en apportant les modifications appropriées aux formats d'invite et d'interrogation.

2.4 Mécanismes d'incitation

Notre fonction de récompense vise à optimiser directement les performances de recherche. Le processus est le suivant :

  1. Le modèle génère des requêtes améliorées en réponse aux requêtes du cadre PICO.
  2. Effectuer des requêtes améliorées sur des collections de documents (PubMed ou ClinicalTrials.gov).
  3. Calculer le rappel comme le pourcentage de documents pertinents retrouvés.
  4. Les primes composées sont calculées sur la base des éléments suivants :
    • Formatage correct (structure JSON, étiquetage correct)
    • Le taux de rappel doit être élevé, plus le taux de rappel est élevé, plus la récompense est élevée.

Plus précisément, notre fonction de récompense utilise un système de notation hiérarchique basé sur le rappel, comme indiqué dans le tableau 1.

taux de rappel≥ 0.7≥ 0.5≥ 0.4≥ 0.3≥ 0.1≥ 0.05< 0.05
incitations+5.0+4.0+3.0+1.0+0.5+0.1-3.5

Tableau 1 : Niveaux de récompense basés sur la performance de rappel. Les valeurs de rappel les plus élevées donnent lieu à des récompenses nettement plus importantes, ce qui incite le modèle à générer des requêtes plus efficaces.

En outre, une mise en forme correcte recevra +1 point, tandis qu'une mise en forme incorrecte recevra -4 points. Il est important de noter que si le format est incorrect (balises manquantes, structure JSON incorrecte, etc.), le bonus de réponse n'est pas calculé du tout et seule une pénalité de format est encourue. Cette structure de récompense encourage fortement le modèle à générer des requêtes bien formatées qui maximisent le rappel tout en respectant le format de sortie souhaité.

2.5 Processus de formation

Notre processus de formation suit les étapes suivantes :

  1. Initialiser le modèle en utilisant les poids pré-entraînés.
  2. Pour chaque requête de l'ensemble de formation :
    1. Générer des requêtes améliorées.
    2. Exécuter des requêtes dans le système de recherche.
    3. Calculer le taux de rappel (le pourcentage de documents pertinents retrouvés).
    4. Utiliser des récompenses basées sur le rappel pour mettre à jour le modèle.
  3. Répéter jusqu'à convergence.

Ce processus permet au modèle d'apprendre des stratégies efficaces d'amélioration des requêtes directement à partir des performances de recherche sans supervision explicite. Le modèle améliore progressivement sa capacité à convertir les requêtes du cadre PICO en termes de recherche valides afin de maximiser le rappel de la littérature médicale pertinente.

 

3. expériences

3.1 Ensembles de données

Nous évaluons notre approche sur deux tâches de recherche de littérature médicale :

  • Recherche de publications: Récupérer des publications médicales pertinentes dans PubMed en fonction des requêtes de l'utilisateur exprimées dans le cadre du PICO.
  • Recherche de testRecherche d'essais cliniques : Recherche d'essais cliniques pertinents sur ClinicalTrials.gov sur la base d'une requête similaire dans le cadre du PICO.

Ces ensembles de données représentent un défi particulier pour les systèmes de recherche d'informations en raison de la terminologie spécialisée et des relations complexes qui existent dans la littérature médicale. Pour chaque requête, nous disposons d'un ensemble de documents liés à la vérité de base (identifiés par leur PMID) qui devraient être idéalement retrouvés par la requête augmentée.

3.2 Évaluation des indicateurs

Nous utilisons le rappel comme principale mesure d'évaluation, qui mesure la proportion de documents pertinents retrouvés. Plus précisément, nous indiquons :

  • Taux de rappel (recherche de publications)Pourcentage de publications pertinentes retrouvées.
  • Rappel (recherche d'essai)Pourcentage d'essais cliniques pertinents retrouvés.

3.3 Situation de référence

Nous comparons notre approche à plusieurs lignes de base :

  • GPT-4oLes résultats de l'analyse de l'échantillon sont présentés dans le tableau suivant : diverses configurations (zéro échantillon, moins d'échantillon, ICL, ICL + moins d'échantillon).
  • GPT-3.5Les résultats de l'analyse de l'échantillon sont présentés dans le tableau suivant : diverses configurations (zéro échantillon, moins d'échantillon, ICL, ICL + moins d'échantillon).
  • Haiku-3Les résultats de l'analyse de l'échantillon sont présentés dans le tableau suivant : diverses configurations (zéro échantillon, moins d'échantillon, ICL, ICL + moins d'échantillon).
  • Mistral-7B (Jiang et al., 2023)La configuration de l'échantillon zéro : Zero sample configuration.
  • LEADS (Wang et al., 2025)Mistral-7B : Une méthode de recherche de littérature médicale de pointe pour la formation à la distillation à l'aide du Mistral-7B.

3.4 Détails de la mise en œuvre

Nous utilisons le cadre VERL1Mise en œuvre de DeepRetrieval, une mise en œuvre open source du cadre HybridFlow RLHF (Sheng et al., 2024).

Notre configuration de formation utilise l'optimisation de la politique proximale (PPO) avec les paramètres clés suivants :

  • modèle de base: Qwen-2.5-3B-Instruct (Yang et al., 2024).

DeepRetrieval:强化学习驱动的高效信息检索查询生成 Figure 2 : Dynamique d'entraînement de DeepRetrieval. Le calcul du rappel est basé sur les recherches PubMed pendant l'entraînement.

  • OPP petits lots: 16.
  • Taille du micro-lot de l'OPP: 8.
  • taux d'apprentissage: Acteur 1e-6, Critique 1e-5.
  • Facteur KL: : 0.001.
  • Longueur maximale de la séquenceLes questions et les réponses sont de 500 jetons.

Nous avons entraîné le modèle sur deux NVIDIA A100 80GB PCIe en utilisant la stratégie FSDP avec des points de contrôle du gradient activés pour optimiser l'utilisation de la mémoire. Le processus d'entraînement s'est déroulé sur 5 cycles.

Comme le montre la figure 2, la dynamique de la formation fait apparaître une amélioration constante des mesures de performance au fur et à mesure de la formation. La récompense moyenne (en haut à gauche) affiche une tendance constante à la hausse, commençant par des valeurs négatives mais devenant rapidement positive et continuant à s'améliorer tout au long de la formation. Parallèlement, le taux de réponses incorrectes (en haut au milieu) et le taux d'erreurs de formatage (en haut à droite) diminuent considérablement, ce qui indique que le modèle apprend à générer des requêtes bien structurées pour extraire des documents pertinents.

L'amélioration la plus notable a été une augmentation constante de tous les seuils de rappel. La proportion de requêtes atteignant des valeurs de rappel élevées (≥0,5, ≥0,7) a régulièrement augmenté, le niveau de rappel le plus élevé (≥0,7) passant de près de zéro à ~0,25 à la fin de l'entraînement.Le ratio de rappel moyen (≥0,4, ≥0,3) a montré une croissance encore plus forte à ~0,6-0,7, tandis que les seuils de rappel inférieurs (≥0,1, ≥0,05) ont rapidement approché et se sont stabilisés autour de 0,8-. 0,9. Ces progrès démontrent clairement comment l'apprentissage par renforcement peut progressivement améliorer la capacité du modèle à générer des améliorations de requêtes efficaces en optimisant directement les performances de recherche.

 

4. résultats

4.1 Principaux résultats

DeepRetrieval a obtenu un rappel de 60,821 TP3T pour la tâche de recherche de publications et de 70,841 TP3T pour la tâche de recherche de procès, surpassant de manière significative toutes les références, y compris le système LEADS de pointe.

4.2 Analyses

Plusieurs observations clés ressortent de nos résultats :

  • performance supérieureDeepRetrieval surpasse LEADS par une grande marge sur la tâche de recherche de publications (60.821 TP3T vs. 24.681 TP3T), et sur la tâche de recherche d'essais (70.841 TP3T vs. 32.111 TP3T), bien qu'en utilisant un modèle plus petit (3B vs. 7B paramètres).
  • rentabilitéContrairement à LEADS, qui nécessite une distillation coûteuse (estimée à plus de 10 000 dollars pour la génération de données d'entraînement), DeepRecallal n'a pas besoin de données supervisées, ce qui le rend nettement plus rentable.
  • polyvalenceLa performance soutenue sur les publications et les tâches de recherche expérimentale montre que notre approche a une bonne généralité à travers différents scénarios de recherche.
  • Efficacité de la production structuréeLe modèle est capable de raisonner à travers des requêtes complexes avant de finaliser sa réponse, améliorant ainsi la qualité globale.

 

5. discussion

5.1 Pourquoi l'apprentissage par renforcement fonctionne-t-il ?

Les performances supérieures de DeepRetrieval peuvent être attribuées à plusieurs facteurs :

  • Optimisation directeEn optimisant directement le rappel, le modèle apprend à générer des requêtes qui sont valables pour la recherche, plutôt que des requêtes qui correspondent à un modèle prédéfini.
  • explorationsLes cadres d'apprentissage par renforcement permettent aux modèles d'explorer un large éventail de stratégies d'amélioration des requêtes, découvrant potentiellement des méthodes efficaces qui peuvent ne pas être présentes dans les données supervisées.
  • l'apprentissage adaptatifAu lieu d'une approche unique, le modèle peut adapter sa stratégie d'amélioration aux caractéristiques spécifiques de la requête et de la collection de documents.
  • raisonnement structuréLe modèle de génération en deux étapes, avec des éléments de réflexion et de réponse distincts, permet au modèle de parcourir l'espace de la question avant de soumettre l'interrogation finale.

5.2 Limites et travaux futurs

Bien que nos premiers résultats soient prometteurs, il existe encore certaines limites et orientations pour les travaux futurs :

  • Évaluation sur des ensembles de données IR classiquesLes expériences actuelles se concentrent sur la recherche de littérature médicale à l'aide du cadre PICO. L'étape suivante consistera à évaluer DeepRecallal sur des tests de référence standard en RI (par exemple, MS MARCO, TREC et BEIR) afin de tester son efficacité dans des scénarios de recherche plus généraux.
  • Comparaison avec des méthodes plus avancéesLes comparaisons supplémentaires avec des méthodes récentes d'amélioration des requêtes permettront de valider davantage nos résultats.
  • Extension des modèlesLes résultats de l'étude de la performance varient en fonction de la taille du modèle, ce qui permet de mieux comprendre le compromis entre la taille du modèle et la performance de la recherche.
  • Les mesures d'incitation fonctionnentL'étude de fonctions de récompense plus complexes intégrant des mesures autres que le rappel (par exemple, la précision, le nDCG) peut conduire à des améliorations supplémentaires.
  • Intégration dans le pipeline de rechercheLes résultats de l'étude de DeepRecallal sont les suivants : explorer la façon dont DeepRecallal peut être intégré dans les pipelines de recherche existants, y compris les approches hybrides qui combinent les méthodes de recherche neuronales et traditionnelles.

 

6. conclusion

Dans cet article, nous présentons DeepRecallal, une nouvelle méthode d'amélioration des requêtes basée sur l'apprentissage par renforcement pour la recherche d'informations. En entraînant un modèle de langage à 3B paramètres pour optimiser directement le rappel de recherche, nous obtenons des performances de pointe sur une tâche de recherche de littérature médicale qui surpassent de manière significative les méthodes existantes qui reposent sur l'apprentissage supervisé ou la distillation.

La principale innovation de notre approche est sa capacité à apprendre des stratégies efficaces d'amélioration des requêtes par essais et erreurs sans avoir besoin de données supervisées coûteuses. DeepRecallal est ainsi non seulement plus efficace, mais aussi plus rentable que les approches existantes.

Nos résultats montrent que l'apprentissage par renforcement offre un paradigme prometteur pour la recherche d'informations qui pourrait changer le paysage des systèmes de recherche de documents. Nous pensons que cette approche peut être étendue à d'autres tâches et domaines de recherche d'information, fournissant un cadre général pour améliorer les performances de recherche pour une variété d'applications.

 

Annexe A Conseils PICO

Dans nos expériences de recherche de littérature médicale, nous avons utilisé les invites professionnelles suivantes :
L'assistant est un spécialiste clinique. Il effectue des recherches et des analyses de la littérature médicale. Sa tâche consiste à créer des termes de requête pour rechercher des URL afin de trouver la littérature pertinente sur PubMed ou ClinicalTrials.gov.

L'étude est basée sur la définition du cadre PICO :
P : Patient, problème ou population - Qui ou quelle est la population étudiée ?
I : Interventions - Quelles sont les principales interventions ou les principaux facteurs d'exposition pris en compte ?
C : Contrôle - A quoi l'intervention est-elle comparée ?
O : Résultats - Quels sont les résultats pertinents ou les effets mesurés ?

L'assistant doit montrer son processus de réflexion dans la balise .
L'assistant doit renvoyer la réponse finale dans la balise et utiliser le formatage JSON, par exemple :

penser>
[Processus de réflexion]
<Réponse
{
"query" : "...."
}

Remarque : les requêtes doivent utiliser des opérateurs booléens (ET, OU) ainsi que des parenthèses pour regrouper les termes de manière appropriée.

Cette invite professionnelle est spécifiquement destinée à la recherche de littérature médicale, mais peut être appliquée à d'autres domaines de recherche d'information (RI) en modifiant la description de la tâche et l'orientation de la structure de la requête.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...