Abstracts
Informationssuchsysteme sind für den effizienten Zugang zu großen Dokumentensammlungen von entscheidender Bedeutung. Jüngste Ansätze nutzen große Sprachmodelle (LLMs), um die Suchleistung durch Abfrageverbesserung zu verbessern, verlassen sich aber in der Regel auf teure überwachte Lern- oder Destillationstechniken, die erhebliche Rechenressourcen und manuell gelabelte Daten erfordern. In diesem Beitrag stellen wir DeepRetrieval vor, einen neuartigen, auf Verstärkungslernen basierenden Ansatz, um LLMs für die Verbesserung von Suchanfragen direkt durch Versuch und Irrtum zu trainieren, ohne dass überwachte Daten benötigt werden. Durch die Verwendung von Retrieval Recall als Belohnungssignal lernt unser System, effektive Abfragen zu generieren, um die Leistung beim Abrufen von Dokumenten zu maximieren. Unsere vorläufigen Ergebnisse zeigen, dass DeepRetrieval einen Recall von 60,821 TP3T bei der Publikationssuche und 70,841 TP3T bei der experimentellen Suche erreicht, während ein kleineres Modell (3B vs. 7B Parameter) und keine überwachten Daten verwendet werden. Diese Ergebnisse deuten darauf hin, dass unser Ansatz des verstärkten Lernens ein effizienteres und effektiveres Paradigma für die Informationssuche bietet, das die Landschaft der Dokumentensuchsysteme verändern könnte.
Autor: Chengjiang Peng (Fakultät für Informatik, UIUC)
Original: https://arxiv.org/pdf/2503.00223
Code-Adresse: https://github.com/pat-jj/DeepRetrieval
1. einleitung
Information-Retrieval-Systeme (IR) spielen eine entscheidende Rolle bei der Suche nach relevanten Dokumenten in großen Dokumentensammlungen. Herkömmliche IR-Ansätze stützen sich auf den Abgleich von Schlüsselwörtern und statistische Methoden, die oft nicht in der Lage sind, die semantische Bedeutung von Benutzeranfragen zu verstehen. Jüngste Fortschritte im Bereich der Large Language Models (LLMs) haben gezeigt, dass diese Einschränkungen durch die Erweiterung von Suchanfragen (Bonifacio et al., 2022) überwunden werden können, wobei LLMs die Suchanfragen der Nutzer erweitern oder umformulieren, um relevante Dokumente besser zu erfassen.
Derzeitige LLM-basierte Methoden zur Verbesserung von Suchanfragen verwenden jedoch in der Regel überwachte Lern- oder Destillationstechniken, die mehrere erhebliche Einschränkungen aufweisen:
- Sie erfordern teure Rechenressourcen zur Erzeugung von Trainingsdaten, die oft Tausende von Dollar kosten.
- Die Qualität der erweiterten Abfragen hängt von der Qualität der Überwachungsdaten ab.
- Sie stützen sich auf größere Modelle, um Daten für kleinere Modelle zu generieren, was zu möglichen Verzerrungen und Einschränkungen führt.
In dieser Arbeit stellen wir DeepRetrieval vor, einen neuartigen Ansatz, der Reinforcement Learning (RL) verwendet, um LLMs für die Verbesserung von Abfragen zu trainieren. Im Gegensatz zu Ansätzen, die sich auf überwachte Daten stützen, ermöglicht DeepRetrieval den Modellen, durch direktes Ausprobieren zu lernen, wobei der Abruf als Belohnungssignal dient. Dieser Ansatz hat mehrere entscheidende Vorteile:
- Keine teure überwachte Datenerstellung erforderlich
Abbildung 1: DeepRetrieval: Das LLM generiert erweiterte Abfragen zum Abrufen von Dokumenten. Der Rückruf wird berechnet und als Belohnung für die Aktualisierung des Modells verwendet.
- Direkt auf das Endziel (Rückrufleistung) optimiert
- Fähigkeit, wirksame Strategien ohne menschliche Vorführung zu erlernen
Unsere vorläufigen Ergebnisse zeigen, dass DeepRetrieval bestehende State-of-the-Art-Methoden, einschließlich des aktuellen LEADS-Systems (Wang et al., 2025), signifikant übertrifft, indem es einen Recall von 60,821 TP3T bei der Publikationssuche und 70,841 TP3T bei der Studiensuche erreicht. Es ist erwähnenswert, dass diese Ergebnisse mit einem kleineren Modell (3B Parameter) im Vergleich zu LEADS (7B Parameter) und ohne überwachte Daten erzielt wurden, was die Effizienz und Effektivität unseres Ansatzes unterstreicht.
2. die Methodik
Unser DeepRetrieval-Ansatz baut auf den jüngsten Fortschritten im Bereich des Reinforcement Learning für LLMs auf, indem er dieses Paradigma auf eine spezifische Aufgabe des Information Retrieval anwendet - die Verbesserung von Abfragen. Unser Ansatz ist direkt von DeepSeek-R1-Zero (DeepSeek-AI et al., 2025) inspiriert, das gezeigt hat, dass RL verwendet werden kann, um Modelle mit fortgeschrittenen Argumentationsfähigkeiten zu trainieren, ohne auf überwachte Daten angewiesen zu sein. Abbildung 1 veranschaulicht die Gesamtarchitektur unseres Systems.
2.1 Formulierung des Problems
gefunden D ist eine Sammlung von Dokumenten.q für Benutzeranfragen. Das Ziel eines Information Retrieval Systems ist es, die gleichen Informationen zu liefern wie q Eine Teilmenge der verwandten Dokumente Dq⊂ D . Bei der Abfrageerweiterung wird die ursprüngliche Abfrage q Umgewandelt in eine erweiterte Abfrage q'Die Abfrage ist effektiver bei der Suche nach relevanten Dokumenten.
Traditionell wird dieser Erweiterungsprozess durch überwachtes Lernen erlernt, wobei (q,q') Paare werden als Trainingsdaten zur Verfügung gestellt. Im Gegensatz dazu verwendet unser Ansatz das Verstärkungslernen, bei dem das Modell lernt, durch Versuch und Irrtum gültige erweiterte Abfragen zu erzeugen, ähnlich wie DeepSeek-R1-Zero lernt, Inferenzprobleme zu lösen.
2.2 Erweiterter Lernrahmen
Wir formulieren die Aufgabe der Anfrageverbesserung als ein Problem des verstärkten Lernens:
- Stand der Dinge: Ursprüngliche Benutzeranfrage q
- BewegungEnhanced queries generated by the model q'
- Anreize: Verwendung q' Erreichter Rückruf beim Abrufen von Dokumenten
Die Modelle werden so trainiert, dass die erwartete Belohnung maximiert wird, d. h. dass sie erweiterte Abfragen erzeugen, die eine hohe Trefferquote erzielen. Diese direkte Optimierung des Endziels unterscheidet sich von überwachten Ansätzen, die Erweiterungen optimieren, die denen ähneln, die von künstlich generierten oder größeren Modellen erzeugt werden.
2.3 Modellarchitektur und Ausgabestruktur
Wir verwenden Qwen-2.5-3B-Instruct (Yang et al., 2024) als Basis-LLM für unser System. Das Modell nimmt Benutzeranfragen als Eingabe und erzeugt erweiterte Anfragen. Das Modell ist so strukturiert, dass es zunächst abschnittsweise Argumentationsschritte und dann abschnittsweise die endgültige erweiterte Anfrage im JSON-Format generiert. Diese strukturierte Generierung ermöglicht es dem Modell, alle Aspekte der Abfrage zu berücksichtigen und verschiedene Erweiterungsstrategien zu untersuchen, bevor es seine Antwort fertigstellt.
In unseren ersten Experimenten konzentrierten wir uns auf die Suche nach medizinischer Literatur unter Verwendung professioneller Eingabeaufforderungen auf der Grundlage des PICO-Frameworks (siehe Anhang A für weitere Einzelheiten). Um mit dem Suchsystem kompatibel zu sein, erfordert das JSON-Format eine Gruppierung mit booleschen Operatoren (AND, OR) und entsprechenden Klammern. Unser Ansatz ist jedoch generisch und kann mit entsprechenden Modifikationen der Eingabeaufforderungen und Abfrageformate auf herkömmliche IR-Datensätze angewendet werden.
2.4 Anreizmechanismen
Unsere Belohnungsfunktion zielt darauf ab, die Abrufleistung direkt zu optimieren. Der Prozess läuft wie folgt ab:
- Das Modell generiert erweiterte Abfragen als Antwort auf PICO-Rahmenabfragen.
- Erweiterte Abfragen gegen Dokumentensammlungen (PubMed oder ClinicalTrials.gov) durchführen.
- Berechnen Sie den Recall als den Prozentsatz der gefundenen relevanten Dokumente.
- Composite Awards werden auf der Grundlage der folgenden Faktoren berechnet:
- Korrekte Formatierung (JSON-Struktur, korrekte Beschriftung)
- Ermitteln Sie die Wiedererkennungsrate. Je höher die Wiedererkennungsrate, desto höher die Belohnung.
Unsere Belohnungsfunktion verwendet ein hierarchisches Punktesystem auf der Grundlage des Abrufs, wie in Tabelle 1 dargestellt.
Rückrufquote | ≥ 0.7 | ≥ 0.5 | ≥ 0.4 | ≥ 0.3 | ≥ 0.1 | ≥ 0.05 | < 0.05 |
---|---|---|---|---|---|---|---|
Anreize | +5.0 | +4.0 | +3.0 | +1.0 | +0.5 | +0.1 | -3.5 |
Tabelle 1: Belohnungsstufen auf der Grundlage der Rückrufleistung. Höhere Recall-Werte werden mit deutlich höheren Belohnungen belohnt, wodurch das Modell einen Anreiz erhält, effizientere Abfragen zu generieren.
Darüber hinaus gibt es für eine korrekte Formatierung +1 Punkt, für eine falsche Formatierung -4 Punkte. Wichtig ist, dass bei falscher Formatierung (fehlende Tags, falsche JSON-Struktur usw.) der Antwortbonus überhaupt nicht berechnet wird und nur ein Formatabzug erfolgt. Diese Belohnungsstruktur ist ein starker Anreiz für das Modell, gut formatierte Abfragen zu erstellen, die die Wiedererkennung maximieren und gleichzeitig das gewünschte Ausgabeformat einhalten.
2.5 Ausbildungsprozess
Unser Ausbildungsprozess verläuft in folgenden Schritten:
- Initialisieren Sie das Modell mit den zuvor trainierten Gewichten.
- Für jede Abfrage im Trainingssatz:
- Erzeugen Sie erweiterte Abfragen.
- Ausführen von Abfragen an das Suchsystem.
- Berechnen Sie die Wiederfindungsrate (den Prozentsatz der gefundenen relevanten Dokumente).
- Aktualisieren Sie das Modell mit Hilfe von Belohnungen auf der Grundlage von Rückrufen.
- Wiederholen Sie den Vorgang bis zur Konvergenz.
Dieser Prozess ermöglicht es dem Modell, effektive Strategien zur Verbesserung von Suchanfragen direkt aus der Suchleistung zu lernen, ohne explizite Überwachung. Das Modell verbessert schrittweise seine Fähigkeit, PICO-Rahmenanfragen in gültige Suchbegriffe umzuwandeln, um den Abruf relevanter medizinischer Literatur zu maximieren.
3 Experimente
3.1 Datensätze
Wir evaluieren unseren Ansatz anhand von zwei Suchaufgaben in medizinischer Literatur:
- Suche nach VeröffentlichungenAbrufen relevanter medizinischer Publikationen aus PubMed auf der Grundlage von Benutzeranfragen, die im PICO-Rahmen formuliert sind.
- Test-SucheAbruf relevanter klinischer Studien von ClinicalTrials.gov auf der Grundlage einer ähnlichen PICO-Rahmenabfrage.
Diese Datensätze stellen aufgrund der Fachterminologie und der komplexen Beziehungen in der medizinischen Literatur eine besondere Herausforderung für Information Retrieval Systeme dar. Für jede Abfrage gibt es eine Reihe von verwandten Dokumenten (identifiziert durch ihre PMIDs), die idealerweise durch die erweiterte Abfrage gefunden werden sollten.
3.2 Bewertung der Indikatoren
Wir verwenden den Recall als primären Bewertungsmaßstab, der den Anteil der gefundenen relevanten Dokumente misst. Im Einzelnen berichten wir:
- Rückrufquote (Publikationssuche)Prozentualer Anteil der gefundenen relevanten Veröffentlichungen.
- Rückruf (Probesuche)Prozentualer Anteil der gefundenen relevanten klinischen Studien.
3.3 Grundlinie
Wir vergleichen unseren Ansatz mit mehreren Grundmodellen:
- GPT-4oVerschiedene Konfigurationen (Nullprobe, weniger Probe, ICL, ICL + weniger Probe).
- GPT-3.5Verschiedene Konfigurationen (Nullprobe, weniger Probe, ICL, ICL + weniger Probe).
- Haiku-3Verschiedene Konfigurationen (Nullprobe, weniger Probe, ICL, ICL + weniger Probe).
- Mistral-7B (Jiang et al., 2023)Beispielkonfiguration: Null.
- LEADS (Wang et al., 2025)A state of the art medical literature search method for distillation training using the Mistral-7B.
3.4 Einzelheiten der Durchführung
Wir verwenden den VERL-Rahmen1Implementierung von DeepRetrieval, einer Open-Source-Implementierung des HybridFlow RLHF-Frameworks (Sheng et al., 2024).
Unsere Trainingskonfiguration verwendet Proximal Policy Optimisation (PPO) mit den folgenden Schlüsselparametern:
- BasismodellQwen-2.5-3B-Instruct (Yang et al., 2024).
Abbildung 2: Trainingsdynamik von DeepRetrieval. Die Rückrufberechnung basiert auf PubMed-Suchen während des Trainings.
- PPO kleine Losgröße: 16.
- PPO Micro Batch Größe: 8.
- Lernrate: Schauspieler 1e-6, Kritiker 1e-5.
- KL-Faktor:: 0.001.
- Maximale SequenzlängeSowohl Aufforderungen als auch Antworten bestehen aus 500 Token.
Wir trainierten das Modell auf zwei NVIDIA A100 80GB PCIe unter Verwendung der FSDP-Strategie mit aktivierten Gradient Checkpoints, um die Speichernutzung zu optimieren. Der Trainingsprozess lief über 5 Zyklen.
Wie in Abbildung 2 dargestellt, zeigt die Trainingsdynamik eine stetige Verbesserung der Leistungsmetriken im Laufe des Trainings. Die durchschnittliche Belohnung (oben links) zeigt einen konsistenten Aufwärtstrend, der mit negativen Werten beginnt, sich aber schnell ins Positive wendet und sich im Laufe des Trainings weiter verbessert. Gleichzeitig nehmen der Anteil der falschen Antworten (oben Mitte) und der Formatierungsfehler (oben rechts) drastisch ab, was darauf hindeutet, dass das Modell lernt, gut strukturierte Abfragen zu generieren, um relevante Dokumente zu finden.
Die bemerkenswerteste Verbesserung war ein konsistenter Anstieg aller Rückrufschwellenwerte. Der Anteil der Abfragen, die hohe Recall-Werte (≥0,5, ≥0,7) erreichten, nahm stetig zu, wobei die höchste Recall-Stufe (≥0,7) bis zum Ende des Trainings von nahezu Null auf ~0,25 anstieg. Die mittlere Recall-Quote (≥0,4, ≥0,3) wuchs sogar noch stärker auf ~0,6-0,7 an, während die niedrigeren Recall-Schwellenwerte (≥0,1, ≥0,05) sich rasch näherten und sich um 0,8- 0,9 näherten. Dieser Fortschritt zeigt deutlich, wie das Verstärkungslernen die Fähigkeit des Modells, effektive Abfrageverbesserungen zu generieren, durch direkte Optimierung der Retrievalleistung schrittweise verbessern kann.
4. ergebnisse
4.1 Wichtigste Ergebnisse
Tabelle 2 zeigt die Hauptergebnisse der Experimente: DeepRetrieval erreichte einen Recall von 60.821 TP3T bei der Publikationssuche und 70.841 TP3T bei der Versuchssuche und übertraf damit signifikant alle Baselines, einschließlich des State-of-the-Art LEADS-Systems.
4.2 Auswertungen
Aus unseren Ergebnissen lassen sich mehrere wichtige Feststellungen ableiten:
- überragende LeistungDeepRetrieval übertrifft LEADS bei der Suche nach Publikationen (60.821 TP3T vs. 24.681 TP3T) und bei der Suche nach Versuchen (70.841 TP3T vs. 32.111 TP3T), wenn auch mit einem kleineren Modell (3B vs. 7B Parameter).
- KostenwirksamkeitIm Gegensatz zu LEADS, das eine teure Destillation erfordert (schätzungsweise über 10.000 $ für die Erzeugung von Trainingsdaten), benötigt DeepRecallal keine überwachten Daten und ist damit wesentlich kostengünstiger.
- VielseitigkeitNachhaltige Leistung bei Publikations- und experimentellen Suchaufgaben zeigt, dass unser Ansatz eine gute Allgemeingültigkeit für verschiedene Abfrageszenarien besitzt.
- Effizienz der strukturierten ErzeugungMit /structure ist das Modell in der Lage, komplexe Abfragen zu durchdenken, bevor es seine Antwort fertigstellt, was die Gesamtqualität verbessert.
5. die Diskussion
5.1 Warum Reinforcement Learning funktioniert
Die überragende Leistung von DeepRetrieval lässt sich auf mehrere Faktoren zurückführen:
- Direkte OptimierungDurch die direkte Optimierung der Wiederauffindbarkeit lernt das Modell, Abfragen zu generieren, die für die Abfrage gültig sind, und nicht Abfragen, die einem vordefinierten Muster entsprechen.
- ErkundungenReinforcement Learning Frameworks ermöglichen es den Modellen, eine breite Palette von Strategien zur Verbesserung von Abfragen zu erforschen und möglicherweise effektive Methoden zu entdecken, die in überwachten Daten nicht vorhanden sind.
- adaptives LernenAnstelle eines Einheitsansatzes kann das Modell seine Erweiterungsstrategie an die spezifischen Merkmale der Anfrage und der Dokumentensammlung anpassen.
- strukturiertes DenkenEin zweistufiger Generierungsansatz mit separaten Denk- und Antwortkomponenten ermöglicht es dem Modell, den Frageraum zu durchlaufen, bevor die endgültige Anfrage gestellt wird.
5.2 Beschränkungen und zukünftige Arbeiten
Obwohl unsere ersten Ergebnisse vielversprechend sind, gibt es noch einige Einschränkungen und Richtungen für zukünftige Arbeiten:
- Bewertung auf klassischen IR-DatensätzenUnsere derzeitigen Experimente konzentrieren sich auf die Suche nach medizinischer Literatur unter Verwendung des PICO-Frameworks. Ein wichtiger nächster Schritt ist die Evaluierung von DeepRecallal in Standard-IR-Benchmark-Tests (z.B. MS MARCO, TREC und BEIR), um seine Effektivität in allgemeineren Retrieval-Szenarien zu testen.
- Vergleich mit fortgeschritteneren MethodenZusätzliche Vergleiche mit neueren Methoden zur Verbesserung von Abfragen werden unsere Ergebnisse weiter validieren.
- Modell ErweiterungenDie Untersuchung, wie die Leistung bei größeren Modellen variiert, gibt Aufschluss über den Kompromiss zwischen Modellgröße und Abrufleistung.
- Anreiz wirktDie Erforschung komplexerer Belohnungsfunktionen, die andere Metriken als Recall (z. B. Präzision, nDCG) einbeziehen, kann zu weiteren Verbesserungen führen.
- Integration in die AbrufpipelineErkunden Sie, wie DeepRecallal in bestehende Retrieval-Pipelines integriert werden kann, einschließlich hybrider Ansätze, die neuronale und traditionelle Retrieval-Methoden kombinieren.
6. schlussfolgerung
In diesem Beitrag stellen wir DeepRecallal vor, eine neuartige, auf Verstärkungslernen basierende Abfrageverbesserungsmethode für das Information Retrieval. Durch das Trainieren eines 3B-Parameter-Sprachmodells zur direkten Optimierung des Abrufs erreichen wir eine Spitzenleistung bei der Suche nach medizinischer Literatur, die bestehende Methoden, die auf überwachtem Lernen oder Destillation basieren, deutlich übertrifft.
Die wichtigste Innovation unseres Ansatzes ist die Fähigkeit, effektive Strategien zur Verbesserung von Abfragen durch Versuch und Irrtum zu erlernen, ohne dass teure überwachte Daten benötigt werden. Dies macht DeepRecallal nicht nur effizienter, sondern auch kostengünstiger als bestehende Ansätze.
Unsere Ergebnisse zeigen, dass das Verstärkungslernen ein vielversprechendes Paradigma für die Informationssuche darstellt, das die Landschaft der Dokumentensuchsysteme verändern könnte. Wir sind davon überzeugt, dass dieser Ansatz auf andere Aufgaben und Bereiche der Informationsbeschaffung ausgedehnt werden kann und so einen allgemeinen Rahmen für die Verbesserung der Abrufleistung für eine Vielzahl von Anwendungen bietet.
Anhang A PICO-Tipps
In unseren Experimenten zur Suche nach medizinischer Literatur verwendeten wir die folgenden professionellen Eingabeaufforderungen:
Assistent ist ein klinischer Spezialist. Er betreibt Forschung und führt medizinische Literaturrecherchen durch. Seine Aufgabe ist es, Abfragebegriffe für die Suche nach URLs zu erstellen, um relevante Literatur auf PubMed oder ClinicalTrials.gov zu finden.
Die Studie basiert auf der Definition des PICO-Rahmens:
P: Patient, Problem oder Population - Wer oder was ist die Studienpopulation?
I: Interventionen - Was sind die wichtigsten betrachteten Interventionen oder Expositionsfaktoren?
C: Kontrolle - Mit was wird die Intervention verglichen?
O: Outcomes - Was sind die relevanten Ergebnisse oder gemessenen Effekte?
Der Assistent sollte seinen Gedankengang innerhalb des -Tags darstellen.
Der Assistent sollte die endgültige Antwort innerhalb des -Tags zurückgeben und z. B. JSON-Formatierung verwenden:
[Gedankengang]
{
"Abfrage": "...."
}
Hinweis: In Abfragen sollten boolesche Operatoren (AND, OR) sowie Klammern verwendet werden, um die Begriffe entsprechend zu gruppieren.
Diese professionelle Eingabeaufforderung ist speziell für die Suche nach medizinischer Literatur gedacht, kann aber auch auf andere Bereiche des Information Retrieval (IR) angewandt werden, indem die Aufgabenbeschreibung und die Anleitung zur Abfragestruktur geändert werden.