AI Personal Learning
und praktische Anleitung

GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle

GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle

Grafik-ExpertenSie ist wie ein Tutor, der gut darin ist, Mindmaps zu erstellen und lange Texte in ein klares Wissensnetz umzuwandeln, so dass die KI die für die Antwort benötigten Schlüsselpunkte leicht finden kann, als ob sie eine Landkarte erkunden würde, wodurch das Problem des "Verirrens" bei langen Texten effektiv überwunden wird.

  • Veröffentlicht: 2024.01.20
  • Name des Papiers: GraphReader: Aufbau eines graphenbasierten Agenten zur Verbesserung der Langkontextfähigkeiten großer Sprachmodelle
  • Adresse des Papiers: https://arxiv.org/abs/2406.14550

Dieser Artikel beschreibt GraphReader, ein auf Graphenstrukturen basierendes intelligentes Körpersystem, das entwickelt wurde, um die Herausforderungen zu bewältigen, denen Large Language Models (LLMs) bei der Verarbeitung langer Texte begegnen, und um Aufgaben wie Multi-Hop-Quizze gut zu lösen. Hier ist eine Zusammenfassung des Artikels:

I. Motivation für diese Arbeit

Mit dem Fortschritt der Technologien zum Verstehen und Generieren natürlicher Sprache ist eine der größten Einschränkungen, mit denen LLMs konfrontiert sind, die Begrenzung der Größe des Kontextfensters und des Speicherverbrauchs, was es ihnen erschwert, große Mengen an Texteingaben effizient zu verarbeiten. Um dieses Problem zu lösen, haben Forscher eine Reihe von Ansätzen erforscht, darunter die Verbesserung der Modellstruktur, die Einführung von Mechanismen zur Verbesserung des Abrufs und der Einsatz von Agenten für komplexe Schlussfolgerungen. Jeder dieser Ansätze hat jedoch bestimmte Einschränkungen, wie z. B. erhöhte Trainingskosten, das Ignorieren detaillierter Informationen oder unflexible Entscheidungsmechanismen.

II. Innovative Punkte des Papiers

  • ZieleGraphReader: Durch den Aufbau von Graphenstrukturen und die Anwendung einer autonomen Agenten-Explorationsstrategie ist GraphReader in der Lage, weitreichende Abhängigkeiten innerhalb eines begrenzten Kontextfensters zu erfassen und so eine effiziente Verarbeitung langer Dokumente zu ermöglichen.
  • Innovationsstelle::
    • Längere Texte in einzelne Abschnitte unterteilen und Schlüsselelemente und Kernaussagen extrahieren;
    • Verwenden Sie diese Komponenten, um eine Diagrammstruktur zu erstellen, die die Beziehungen innerhalb des Textes widerspiegelt;
    • Der intelligente Körper navigiert durch den Graphen und sammelt die notwendigen Informationen nach einer vordefinierten Funktion und einem schrittweisen, rationalen Plan;
    • Während des gesamten Prozesses müssen Notizen gemacht und Überlegungen angestellt werden, um die Richtigkeit und Vollständigkeit der endgültigen Antwort zu gewährleisten.

III. Thesenbildung

Die Funktionsweise von GraphReader ist in drei Stufen unterteilt:

  • grafischer AufbauDas Dokument ist in Teile unterteilt, von denen jeder als atomarer Fakt zusammengefasst wird, aus dem Schlüsselelemente extrahiert werden, um Knoten zu bilden; die Knoten sind auf der Grundlage der gemeinsamen Schlüsselelemente miteinander verbunden.
  • grafische ErkundungDer intelligente Körper wählt den Startknoten nach einem rationellen Plan aus und durchläuft die gesamte Graphenstruktur, indem er die Nachbarknoten überprüft; dabei zeichnet der intelligente Körper unterstützende Fakten für die spätere Analyse auf.
    • Erkundung atomarer Fakten: Da es nicht möglich ist, alle mit einem Knoten verbundenen Rohtextblöcke in das Kontextfenster aufzunehmen, verfolgt der Agent eine Grob-zu-Fein-Strategie, die mit dem Lesen der atomaren Fakten beginnt und den Rohtext schrittweise erkundet. Da alle atomaren Fakten in das Kontextfenster passen, gruppiert der Agent zunächst alle atomaren Fakten, die mit jedem Knoten verbunden sind, nach dem entsprechenden Textblock und kennzeichnet sie mit den entsprechenden Textblock-IDs, die dann dem Agenten zugeführt werden. Auf diese Weise kann sich der Agent einen Überblick über jeden Textblock verschaffen, indem er alle Gruppen atomarer Fakten durchliest. Gleichzeitig nutzt der Agent die Fragen, rationalen Pläne und Notizen im Notizbuch, um über die benötigten Hinweise nachzudenken und festzustellen, welche Textblöcke nützliche Informationen enthalten könnten. Anschließend werden dem Agenten zwei Funktionen übertragen:
      • read_neighbor_node wählt der Agent einen Nachbarknoten aus, der bei der Beantwortung der Frage hilfreich sein könnte, und nimmt den Prozess der Erkundung der atomaren Fakten und Textblöcke wieder auf;
      • Beendet der Agent die Erkundung, stellt er fest, dass kein benachbarter Knoten nützliche Informationen enthält, und beendet die Erkundung.
    • Textblöcke untersuchen: Wenn die Textblock-Warteschlange nicht leer ist, bedeutet dies, dass der Agent mehr als einen Textblock von Interesse identifiziert hat. Der GraphReader durchläuft dann die Warteschlange und liest jeden Textblock nacheinander. Dieser Schritt ist von entscheidender Bedeutung, da atomare Fakten nur die wichtigsten Informationen zusammenfassen und kurze Anhaltspunkte liefern, während spezifische Details am besten direkt aus dem ursprünglichen Textblock gewonnen werden. Während die Textblöcke gelesen werden, denkt der Agent über das Problem und die Planung nach und überlegt, was dem aktuellen Notizbuch hinzugefügt werden kann. Alle gefundenen unterstützenden Fakten werden in das Notizbuch aufgenommen. Je nach dem aktualisierten Notizbuch wählt der Bearbeiter eine der folgenden vier Funktionen:
      • search_more, fährt der Agent fort, die Textblöcke in der Warteschlange zu untersuchen, wenn nicht genügend unterstützende Fakten vorhanden sind;
      • read_previous_chunk und 3) read_subsequent_chunk, können benachbarte Textabschnitte aufgrund von Abbruchproblemen relevante und nützliche Informationen enthalten, und der Agent kann diese IDs in die Warteschlange einfügen;
      • Wenn genügend Informationen gesammelt wurden, um die Frage zu beantworten, schließt der Agent die Erkundung ab.
    • EXPLORING NEIGHBOURHOOD NODES: Wenn die atomaren Fakten des aktuellen Knotens und die Textblock-Warteschlange vollständig abgearbeitet sind, bedeutet dies, dass dieser Knoten gründlich erforscht wurde und der Agent den nächsten Knoten besuchen muss. Unter Berücksichtigung des Problems, des rationalen Plans und des Inhalts des Notizbuchs untersucht der Agent alle Nachbarknoten, d.h. Schlüsselelemente, und führt eine der beiden folgenden Funktionen aus:
      • read_chunk, wenn der Agent feststellt, dass bestimmte Textabschnitte es wert sind, weiter gelesen zu werden, vervollständigt er das Funktionsargument mit den Abschnitts-IDs, d. h. read_chunk(List[ID]), und fügt diese IDs der Abschnittswarteschlange hinzu.
      • stop_and_read_neighbor: Wenn der Agent zu dem Schluss kommt, dass es sich nicht lohnt, einen Textabschnitt weiter zu lesen, beendet er das Lesen des aktuellen Knotens und beginnt mit der Erkundung der Nachbarknoten.
  • Argumentation in einer AntwortZusammenstellen von Notizen aus verschiedenen Intelligenzen und Verwendung von Denkketten, um Antworten auf vorgegebene Fragen zu finden.

GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle-1

 

IV. Leistungsbewertung

Beim Experimentieren mit mehreren Datensätzen aus dem Long-Context-Benchmarking zeigt GraphReader eine deutlich bessere Leistung als andere Methoden. Zum Beispiel erreicht GraphReader im HotpotQA-Datensatz einen EM von 55,01 TP3T und einen F1-Score von 70,01 TP3T und übertrifft damit GPT-4-128k und andere bestehende Methoden. Darüber hinaus zeigt GraphReader auch bei sehr langen Kontexten eine gute Leistung, insbesondere im LV-Eval-Benchmark, wo er eine relative Leistungsverbesserung von 75,001 TP3T im Vergleich zu GPT-4-128k aufweist.


GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle-1

 

GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle-1

 

Experimentelle Ergebnisse zeigen, dass GraphReader erhebliche Leistungsverbesserungen bei der Verarbeitung langer Texte erzielt, insbesondere bei Multi-Hop-Problemen und sehr langen Texten.

GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle-1

 

V. Auswirkungen und Ausblick

GraphReader stellt nicht nur einen wichtigen Fortschritt bei der Lösung der Herausforderungen der Verarbeitung langer Kontexte in LLMs dar, sondern ebnet auch den Weg für fortgeschrittenere Sprachmodelle in der Zukunft. Er zeigt, dass weitreichende Abhängigkeiten auch mit einem kleinen Kontextfenster effizient erfasst und genutzt werden können, was wichtige Auswirkungen auf Aufgaben mit langen Dokumenten und komplexen mehrstufigen Schlussfolgerungen hat. Diese Arbeit könnte verschiedene Bereiche wie die Dokumentenanalyse und die Forschungsunterstützung revolutionieren und neue Möglichkeiten für KI-Anwendungen eröffnen.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " GraphReader: Graphenbasierte Intelligenz zur Verbesserung der Verarbeitung langer Texte für große Sprachmodelle

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)