AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

MiniRAG: Simplified Retrieval Enhanced Generation Framework, Entity Graph Index Recall Relevante Textblöcke

Allgemeine Einführung

MiniRAG ist ein extrem einfaches Retrieval Augmented Generation (RAG)-Framework, das darauf abzielt, durch heterogene Graphenindizierung und leichtgewichtiges topologiegestütztes Retrieval auch für kleine Modelle eine gute RAG-Leistung zu erzielen. Das vom Data Science Laboratory der Universität Hongkong (HKUDS) entwickelte Projekt konzentriert sich auf die Lösung des Problems der Leistungsverschlechterung, mit dem Small Language Models (SLMs) in bestehenden RAG-Frameworks konfrontiert sind. miniRAG reduziert die Abhängigkeit von komplexem semantischem Verständnis durch die Kombination von Textbrocken und benannten Entitäten in einer einzigen einheitlichen Struktur und nutzt Graphenstrukturen für eine effiziente Wissensentdeckung. Der Rahmen erreicht eine vergleichbare Leistung mit nur 251 TP3T Speicherplatz des Large Language Model (LLM) Ansatzes.

MiniRAG: Vereinfachtes Retrieval Enhanced Generation Framework, Entity Graph Index Recall Relevant Text Blocks-1


 

Funktionsliste

  • Heterogener Graph-Indizierungsmechanismus: Kombination von Textblöcken und benannten Entitäten zur Verringerung der Abhängigkeit von komplexem semantischem Verständnis.
  • Leichtgewichtiges topologiegestütztes Retrieval: effiziente Wissensentdeckung mit Hilfe von Graphenstrukturen.
  • Kompatibel mit kleinen Sprachmodellen: effiziente RAG-Leistung in ressourcenbeschränkten Szenarien.
  • Umfassender Benchmark-Datensatz: Der LiHua-World-Datensatz wird bereitgestellt, um die Leistung von leichtgewichtigen RAG-Systemen bei komplexen Abfragen zu bewerten.
  • Einfache Installation: unterstützt die Installation aus dem Quellcode und von PyPI.

 

Hilfe verwenden

Einbauverfahren

Installation von der Quelle aus (empfohlen)

  1. Klonen des MiniRAG-Repositorys:
   git clone https://github.com/HKUDS/MiniRAG.git
cd MiniRAG
  1. Installieren Sie die Abhängigkeit:
   pip install -e .

Installation von PyPI

MiniRAG basiert auf LightRAG und kann daher direkt installiert werden:

pip install lightrag-hku

Schnellstart

  1. Laden Sie den gewünschten Datensatz herunter und platzieren Sie ihn im Ordner./datasetKatalog. Zum Beispiel wurde der Datensatz LiHua-World in den./dataset/LiHua-World/data/Katalog.
  2. Verwenden Sie den folgenden Befehl, um das Dataset zu indizieren:
   python ./reproduce/Step_0_index.py
  1. Führen Sie das Q&A-Modul aus:
   python ./reproduce/Step_1_QA.py
  1. Alternativ können Sie auch die./main.pyDer Code in initialisiert das MiniRAG.

Hauptfunktionen

Heterogener Indexierungsmechanismus für Karten

MiniRAG erstellt heterogene Graph-Indizes, indem es Textblöcke und benannte Entitäten in einer einheitlichen Struktur kombiniert. Die Benutzer können dies mit den folgenden Schritten erreichen:

  1. Bereiten Sie den Datensatz vor und stellen Sie sicher, dass der Datensatz wie gewünscht formatiert ist.
  2. Führen Sie das Indizierungsskript aus:
   python ./reproduce/Step_0_index.py
  1. Nach Abschluss der Indizierung werden die Daten in dem angegebenen Verzeichnis gespeichert und können später abgerufen werden.

Leichtgewichtige, topologieerweiterte Suche

MiniRAG nutzt Graphenstrukturen zur effizienten Wissensentdeckung, die in den folgenden Schritten vom Benutzer abgerufen werden können:

  1. Initialisieren Sie das MiniRAG:
   from minirag import MiniRAG
model = MiniRAG()
  1. Laden Sie den Datensatz und rufen Sie ihn ab:
   results = model.retrieve("你的查询")
  1. Verarbeitet die Suchergebnisse und erzeugt eine Antwort:
   response = model.generate(results)

Mit den oben genannten Schritten können die Benutzer die Funktionen von MiniRAG zur effizienten Generierung von Sucherweiterungen voll ausschöpfen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " MiniRAG: Simplified Retrieval Enhanced Generation Framework, Entity Graph Index Recall Relevante Textblöcke
de_DEDeutsch