Anwendungsevaluierung des Einsatzes von Inferenzmodellen in modularen RAG-Systemen

AI-WissensdatenbankAktualisiert vor 2 Monaten AI-Austauschkreis

1.8K 00

In diesem Papier stellen wir die jüngste Arbeit von Kapa.ai an OpenAIs Retrieval-Augmented Generation (RAG) System im Zusammenhang mit dem o3-mini Ein zusammenfassender Bericht über die Erforschung des etymologischen Modells der Argumentation.

Kapa.ai ist ein KI-Assistent, der auf einem groß angelegten Sprachmodell (LLM) basiert, das RAG Der Prozess ist in die Wissensdatenbank integriert, so dass technische Fragen von Benutzern beantwortet und Arbeitsaufträge für den technischen Support bearbeitet werden können.

Der Aufbau und die Pflege eines stabilen und vielseitigen RAG-Systems ist keine leichte Aufgabe. Viele Parameter und Einstellungen beeinflussen die Qualität der endgültigen Ausgabe, und es gibt komplexe Wechselwirkungen zwischen diesen Faktoren:

Cue word-Vorlagen
Größe des Kontexts
Abfrage-Erweiterung
Stückchen
Nachbestellung
Moment mal!

Bei der Anpassung eines RAG-Systems, insbesondere bei der Integration eines neuen Modells, ist die Überprüfung und Optimierung dieser Parameter unerlässlich, um eine gute Leistung zu erhalten. Diese Aufgabe ist jedoch nicht nur zeitaufwendig, sondern erfordert auch ein hohes Maß an Erfahrung, um sie gut zu erledigen.

ähneln DeepSeek-R1 Neuartige Denkmodelle wie das o3-mini von OpenAI haben beeindruckende Ergebnisse erzielt, indem sie eingebaute Denkketten (Chain-of-Thought, CoT) nutzen, um über ein Problem "nachzudenken", Schritt für Schritt zu denken und sich bei Bedarf sogar selbst zu korrigieren. Die Modelle erbringen Berichten zufolge bessere Leistungen bei komplexen Aufgaben, die logisches Denken und überprüfbare Antworten erfordern. Weiterführende Lektüre:DeepSeek R1 in RAG: Eine Zusammenfassung der praktischen Erfahrungen undDie Ergebnisse der Code-Generierung auf Projektebene liegen vor! o3/Claude 3.7 ist führend, R1 ist in der Spitzengruppe!

Kapa.ai schlägt daher eine Idee vor: Wenn Inferenzmodelle komplexe Probleme zerlegen und sich selbst korrigieren können, könnten sie dann auf RAG-Prozesse angewendet werden, um Aufgaben wie die Erweiterung von Abfragen, das Abrufen von Dokumenten und die Neuordnung zu bewältigen? Durch den Aufbau eines Information-Retrieval-Toolkits und dessen Übergabe an die Inferenzmodelle könnte es möglich sein, ein anpassungsfähigeres System zu entwickeln, das die Notwendigkeit der manuellen Abstimmung von Parametern reduziert.

Dieses Paradigma wird manchmal als Modular Retrieval-Augmented Generation (Modular RAG) bezeichnet. In diesem Beitrag stellen wir die jüngsten Forschungsergebnisse von Kapa.ai bei der Umgestaltung des Standard-RAG-Prozesses in einen Inferenzmodell-basierten Prozess vor.

Nehmen wir an, dass...

Das Hauptziel von Kapa.ai bei der Erforschung dieser Idee ist es, den RAG-Prozess zu vereinfachen und die Abhängigkeit von der manuellen Feinabstimmung der Parameter zu verringern. Die Kernkomponenten des RAG-Prozesses sind die dichte Einbettung und das Abrufen von Dokumenten. Ein typischer RAG-Prozess auf hoher Ebene sieht wie folgt aus:

Empfangen Sie Benutzeraufforderungen.
Vorverarbeitung von Suchanfragen zur Verbesserung der Informationsbeschaffung.
Relevante Dokumente werden durch Ähnlichkeitssuche in Vektordatenbanken gefunden.
Ordnen Sie die Ergebnisse neu und verwenden Sie die relevantesten Dokumente.
Generieren Sie eine Antwort.

Jeder Schritt im Prozess wird durch Heuristiken wie Filterregeln und Sortieranpassungen optimiert, um die relevanten Daten zu priorisieren. Diese fest programmierten Optimierungen bestimmen das Verhalten des Prozesses, schränken aber auch seine Anpassungsfähigkeit ein.

Damit das Inferenzmodell die verschiedenen Komponenten des RAG-Prozesses nutzen kann, musste Kapa.ai das System anders aufsetzen. Anstatt eine lineare Abfolge von Schritten zu definieren, wird jede Komponente als ein separates Modul behandelt, das vom Modell aufgerufen wird.

In dieser Architektur können Modelle mit Argumentationsfähigkeiten ihren eigenen Arbeitsablauf dynamischer steuern, anstatt einem festen Prozess zu folgen. Durch den Einsatz von Werkzeugen können Modelle entscheiden, wann und wie oft sie vollständige oder vereinfachte Suchen durchführen und welche Suchparameter sie verwenden. Wenn dieser Ansatz erfolgreich ist, hat er das Potenzial, traditionelle RAG-Orchestrierungs-Frameworks wie LangGraph zu ersetzen.

Darüber hinaus bietet ein modulareres System einige zusätzliche Vorteile:

Einzelne Module können ausgetauscht oder aufgerüstet werden, ohne den gesamten Prozess komplett zu überarbeiten.
Eine klarere Aufgabentrennung erleichtert das Debuggen und Testen.
Verschiedene Module (z. B. Retriever mit unterschiedlichen Einbettungen) können getestet und ersetzt werden, um die Leistung zu vergleichen.
Module können unabhängig voneinander für verschiedene Datenquellen erweitert werden.
Dies könnte es Kapa.ai ermöglichen, verschiedene Module zu entwickeln, die für bestimmte Aufgaben oder Bereiche maßgeschneidert sind.

Schließlich möchte Kapa.ai auch erforschen, ob dieser Ansatz dazu beitragen kann, missbräuchliche oder themenfremde Anfragen effektiver "kurzzuschließen". Die schwierigsten Fälle sind in der Regel mehrdeutig, d. h. es ist nicht klar, ob die Anfrage für das Produkt relevant ist. Missbräuchliche Abfragen werden oft absichtlich so gestaltet, dass sie nicht erkannt werden. Während einfachere Fälle bereits effektiv behandelt werden können, hofft Kapa.ai, dass das Inferenzmodell helfen wird, komplexere Probleme früher zu erkennen und zu beenden.

Testaufbau

Um mit diesem Arbeitsablauf zu experimentieren, hat Kapa.ai ein RAG-System in einer Sandbox aufgebaut, das die notwendigen Komponenten, statische Daten und eine Evaluierungssuite mit LLM als Schiedsrichter enthält. In einer Konfiguration verwendete Kapa.ai einen typischen festen linearen Prozess mit fest eingebauten Optimierungen.

Für den modularen RAG-Prozess verwendete Kapa.ai das o3-mini-Modell als Inferenzmodell und führte verschiedene Konfigurationen des Prozesses unter verschiedenen Richtlinien durch, um zu bewerten, welche Ansätze funktionierten und welche nicht:

Verwendung der Werkzeuge: Kapa.ai versucht, dem Modell vollen Zugang zu allen Werkzeugen und dem gesamten Prozess zu geben und die Werkzeugnutzung auf die Kombination eines einzigen Werkzeugs mit einem festen linearen Prozess zu beschränken.
Hinweise und Parametrisierung: Kapa.ai testete sowohl offene Hinweise mit minimalen Anweisungen als auch stark strukturierte Hinweise. Kapa.ai experimentierte auch mit verschiedenen Graden von vorparametrisierten Werkzeugaufrufen, anstatt das Modell seine eigenen Parameter bestimmen zu lassen.

Bei allen von Kapa.ai durchgeführten Tests war die Anzahl der Toolaufrufe auf maximal 20 begrenzt - das Modell erlaubt für jede beliebige Abfrage nur maximal 20 Toolaufrufe.Kapa.ai führte alle Tests auch bei mittlerer und hoher Inferenzstärke durch:

Medium: Kürzere CoT-Schritte (Chain of Thought)
Höher: Längere CoT-Schritte mit detaillierteren Begründungen

Insgesamt hat Kapa.ai 58 Evaluierungen verschiedener modularer RAG-Konfigurationen durchgeführt.

am Ende

Die Ergebnisse der Experimente waren gemischt. In einigen Konfigurationen beobachtete Kapa.ai einige bescheidene Verbesserungen, vor allem bei der Codegenerierung und, in begrenztem Umfang, beim Factoring. Schlüsselkennzahlen wie die Qualität der Informationsbeschaffung und der Wissensextraktion blieben jedoch im Vergleich zum traditionellen, manuell abgestimmten Arbeitsablauf von Kapa.ai weitgehend unverändert.

Ein immer wiederkehrendes Problem während des gesamten Testprozesses ist die Tatsache, dass die Gedankenkette (Chain of Thought, CoT) zusätzliche Latenzzeiten verursacht. Während tieferes Reasoning es dem Modell ermöglicht, komplexe Abfragen zu zerlegen und sich selbst zu korrigieren, geht dies auf Kosten zusätzlicher Zeit, die für iterative Toolaufrufe benötigt wird.

Die größte Herausforderung, die Kapa.ai identifiziert hat, ist der "Inferenz ≠ Erfahrungsfehler": Das Inferenzmodell ist zwar in der Lage, Schritt für Schritt zu denken, aber es fehlt ihm die a priori Erfahrung mit der Verwendung eines Retrieval-Tools. Selbst mit rigorosen Hinweisen fiel es ihm schwer, qualitativ hochwertige Ergebnisse abzurufen und zwischen guten und schlechten Ergebnissen zu unterscheiden. Das Modell zögerte oft, die von Kapa.ai zur Verfügung gestellten Werkzeuge zu benutzen, ähnlich wie bei den Experimenten, die Kapa.ai letztes Jahr mit dem o1-Modell durchgeführt hat. Dies verdeutlicht ein breiteres Problem: Inferenzmodelle sind gut in der abstrakten Problemlösung, aber die Optimierung der Nutzung von Werkzeugen ohne vorherige Schulung bleibt eine große Herausforderung.

Wichtigste Ergebnisse

Das Experiment offenbarte einen offensichtlichen "Denkfehler ≠ Erfahrungsfehler": Das Denkmodell selbst "versteht" das Abrufwerkzeug nicht. Es versteht die Funktion und den Zweck des Werkzeugs, weiß aber nicht, wie es zu benutzen ist, während der Mensch dieses stillschweigende Wissen besitzt, nachdem er das Werkzeug benutzt hat. Im Gegensatz zu traditionellen Verfahren, bei denen die Erfahrung in Heuristiken und Optimierungen kodiert ist, muss dem Denkmodell explizit beigebracht werden, wie es das Werkzeug effektiv nutzen kann.
Obwohl das o3-mini-Modell in der Lage ist, größere Kontexte zu verarbeiten, stellt Kapa.ai fest, dass es im Hinblick auf die Wissensextraktion keine signifikante Verbesserung gegenüber Modellen wie 4o oder Sonnet darstellt. Die einfache Vergrößerung des Kontexts ist kein Allheilmittel zur Verbesserung der Abrufleistung.
Eine Erhöhung der Inferenzstärke des Modells wird die faktische Genauigkeit nur geringfügig verbessern. Der Datensatz von kapa.ai konzentriert sich auf technische Inhalte, die für reale Anwendungsfälle relevant sind, und nicht auf Probleme aus Mathematikwettbewerben oder fortgeschrittene Codierungsaufgaben. Die Auswirkung der Inferenzstärke kann je nach Bereich variieren und kann bei Datensätzen mit strukturierteren oder rechnerisch komplexeren Abfragen zu anderen Ergebnissen führen.
Ein Bereich, in dem sich das Modell auszeichnet, ist die Codegenerierung, was darauf hindeutet, dass sich Inferenzmodelle besonders gut für Bereiche eignen, die eher eine strukturierte, logische Ausgabe als eine reine Abfrage erfordern.
Reasoning-Modelle verfügen nicht über werkzeugbezogenes Wissen.

Argumentation ≠ empirischer Fehlschluss

Die wichtigste Schlussfolgerung aus den Experimenten ist, dass das Inferenzmodell nicht von Natur aus über werkzeugspezifisches Wissen verfügt. Im Gegensatz zu fein abgestimmten RAG-Prozessen, die die Abfragelogik in vordefinierten Schritten kodieren, verarbeiten Inferenzmodelle jeden Abfrageaufruf von Grund auf. Dies führt zu Ineffizienz, Unentschlossenheit und suboptimaler Werkzeugnutzung.

Um dies abzumildern, können mehrere mögliche Strategien in Betracht gezogen werden. Eine weitere Verfeinerung der Cueing-Strategie, d. h. die Erstellung von werkzeugspezifischen Anweisungen, die dem Modell explizitere Anleitungen geben, könnte hilfreich sein. Ein Vortraining oder eine Feinabstimmung der Modelle für die Verwendung von Werkzeugen könnte sie auch mit spezifischen Abrufmechanismen vertraut machen.

Darüber hinaus kann auch ein hybrider Ansatz in Betracht gezogen werden, bei dem vordefinierte Heuristiken bestimmte Aufgaben übernehmen und Inferenzmodelle bei Bedarf selektiv eingreifen.

Diese Ideen befinden sich noch im Stadium der Spekulation, aber sie zeigen Wege auf, wie die Kluft zwischen der Fähigkeit zu argumentieren und der tatsächlichen Implementierung des Tools überbrückt werden kann.

Zusammenfassungen

Obwohl die modulare, auf Inferenz basierende RAG im Kontext der Kapa.ai-Anwendungsfälle keine signifikanten Vorteile gegenüber traditionellen Verfahren aufwies, lieferte das Experiment wertvolle Erkenntnisse über ihr Potenzial und ihre Grenzen. Die Flexibilität eines modularen Ansatzes bleibt attraktiv. Er kann die Anpassungsfähigkeit verbessern, Upgrades vereinfachen und sich dynamisch an neue Modelle oder Datenquellen anpassen.

Mit Blick auf die Zukunft verdienen einige vielversprechende Technologien eine weitere Erforschung:

Verwenden Sie verschiedene Cueing-Strategien und Pre-Training/Fine-Tuning, um die Art und Weise zu verbessern, wie das Modell das Retrieval-Tool versteht und mit ihm interagiert.
Strategischer Einsatz von Reasoning-Modellen in bestimmten Teilen des Prozesses, z. B. für bestimmte Anwendungsfälle oder Aufgaben wie die Beantwortung komplexer Fragen oder die Codegenerierung, anstatt den gesamten Workflow zu orchestrieren.

Zum jetzigen Zeitpunkt sind Reasoning-Modelle wie o3-mini den traditionellen RAG-Prozessen bei zentralen Retrieval-Aufgaben innerhalb vernünftiger Zeitvorgaben noch nicht überlegen. Mit der Weiterentwicklung der Modelle und der Entwicklung von Strategien für die Nutzung von Werkzeugen könnten modulare, schlussfolgernde RAG-Systeme zu einer brauchbaren Alternative werden, insbesondere für Bereiche, die dynamische, logikintensive Arbeitsabläufe erfordern.