AI Personal Learning
und praktische Anleitung
讯飞绘镜

MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen und Bilder, in ihrer Gesamtheit erhalten bleiben.

Allgemeine Einführung

MegaParse ist ein leistungsfähiges und vielseitiges Tool zum Parsen von Dokumenten, das zur Optimierung der Datenverarbeitung für das Large Language Model (LLM) entwickelt wurde. Egal, ob Sie mit Text, PDF, PowerPoint-Präsentationen oder Word-Dokumenten arbeiten, MegaParse macht es Ihnen leicht und stellt sicher, dass beim Parsing-Prozess keine Informationen verloren gehen. Das von QuivrHQ entwickelte Tool ist quelloffen und kostenlos und bietet schnelle und effiziente Dateiparsing-Dienste für eine breite Palette von Dateiformaten, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.

MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息-1


 

Funktionsliste

  • multifunktionaler ParserUnterstützung für mehrere Dateitypen, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.
  • Keine Informationen verlorenParsing: Stellen Sie sicher, dass beim Parsing-Prozess keine Informationen verloren gehen.
  • schnell und effizientDer Kern des Designs ist auf Geschwindigkeit und Effizienz ausgerichtet.
  • Quelloffen und kostenlos: Open-Source-Projekt, frei zu verwenden.
  • Unterstützung für mehrere InhalteUnterstützung für das Parsen von Tabellen, Inhaltsverzeichnissen, Kopf- und Fußzeilen und Bildern.

 

Drei Parsing-Modi.

  • UnstructuredParser
  • Visueller Parser (MegaParseVision) - Unterstützung für multimodale Modelle wie GPT-4V und Claude 3
  • LlamaParser - Verbesserte Parsing-Fähigkeiten über die Llama Cloud

Leistung.
Dem Benchmark-Test zufolge hat der MegaParseVision-Modus ein Ähnlichkeitsverhältnis von 0,87, was in Bezug auf die Leistung der beste Parsing-Modus ist.

Wichtigste Anwendungsszenarien.

  • Notwendigkeit, verschiedene Dokumente zur Bearbeitung in das LLM-System zu importieren
  • Szenarien, bei denen die Integrität von Dokumentenformatierung und -inhalt gewahrt bleiben muss
  • Aufgaben der Stapelverarbeitung von Dokumenten

Das Projekt wird derzeit aktiv weiterentwickelt, und es ist geplant, weitere Funktionen hinzuzufügen, z. B.

  • Verbesserungen des Tabelleninspektors
  • Modulares Post-Processing hinzufügen
  • Unterstützung für strukturierte Ausgabe hinzufügen

 

Hilfe verwenden

Einbauverfahren

  1. Installieren von MegaParse::
    pip install megaparse
    
  2. API-Schlüssel konfigurieren: Platzieren Sie Ihre OpenAI oder Anthropisch Der API-Schlüssel wird in der .env Dokumentation.
  3. Installation von Abhängigkeiten::
    • Für Bilder und PDF-Dateien, installieren Sie poppler im Gesang antworten tesseract.
    • Wenn Sie einen Mac verwenden, müssen Sie außerdem Folgendes installieren libmagic::
      brew install libmagic
      

MegaParse verwenden

  1. MegaParse importieren::
    from megaparse import MegaParse
    from langchain_openai import ChatOpenAI
    from megaparse.parser.unstructured_parser import UnstructuredParser
    parser = UnstructuredParser()
    megaparse = MegaParse(parser)
    response = megaparse.load("./test.pdf")
    print(response)
    megaparse.save("./test.md")
    
  2. MegaParse Vision verwenden::
    from megaparse import MegaParse
    from langchain_openai import ChatOpenAI
    from megaparse.parser.megaparse_vision import MegaParseVision
    model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY"))
    parser = MegaParseVision(model=model)
    megaparse = MegaParse(parser)
    response = megaparse.load("./test.pdf")
    print(response)
    megaparse.save("./test.md")
    

Bessere Ergebnisse mit LlamaParse

  1. Erstellen Sie ein Llama Cloud-Konto und erhalten Sie einen API-Schlüssel.
  2. Parser in LlamaParser ändern::
    from megaparse import MegaParse
    from langchain_openai import ChatOpenAI
    from megaparse.parser.llama_parser import LlamaParser
    parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY"))
    megaparse = MegaParse(parser)
    response = megaparse.load("./test.pdf")
    print(response)
    megaparse.save("./test.md")
    

Verwendung als API

  1. MakeFile verwenden::
    Führen Sie es im Stammverzeichnis des Projekts aus:

    make dev
    
  2. Zugang zu Dokumenten::
    Öffnen Sie Ihren Browser, um auf localhost:8000/docs Anzeigen verschiedener Endpunktinformationen.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen und Bilder, in ihrer Gesamtheit erhalten bleiben.
de_DEDeutsch