AI Personal Learning
und praktische Anleitung

MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen und Bilder, in ihrer Gesamtheit erhalten bleiben.

Allgemeine Einführung

MegaParse ist ein leistungsfähiges und vielseitiges Dokument-Parsing-Tool, das zur Optimierung der Datenverarbeitung für das Large Language Model (LLM) entwickelt wurde. Egal, ob Sie mit Text, PDF, PowerPoint-Präsentationen oder Word-Dokumenten arbeiten, MegaParse macht es Ihnen leicht und stellt sicher, dass beim Parsing-Prozess keine Informationen verloren gehen. Das von QuivrHQ entwickelte Tool ist quelloffen und kostenlos und bietet schnelle und effiziente Dateiparsing-Dienste für eine breite Palette von Dateiformaten, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.

MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen, Bilder usw., erhalten bleiben.-1


 

Funktionsliste

  • multifunktionaler ParserUnterstützung für mehrere Dateitypen, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.
  • Keine Informationen verlorenParsing: Stellen Sie sicher, dass beim Parsing-Prozess keine Informationen verloren gehen.
  • schnell und effizientDer Kern des Designs ist auf Geschwindigkeit und Effizienz ausgerichtet.
  • Quelloffen und kostenlos: Open-Source-Projekt, frei zu verwenden.
  • Unterstützung für mehrere InhalteUnterstützung für das Parsen von Tabellen, Inhaltsverzeichnissen, Kopf- und Fußzeilen und Bildern.

 

Drei Parsing-Modi.

  • UnstructuredParser
  • Visueller Parser (MegaParseVision) - Unterstützung für multimodale Modelle wie GPT-4V und Claude 3
  • LlamaParser - Verbesserte Parsing-Fähigkeiten über die Llama Cloud

Leistung.
Dem Benchmark-Test zufolge hat der MegaParseVision-Modus ein Ähnlichkeitsverhältnis von 0,87, was in Bezug auf die Leistung der beste Parsing-Modus ist.

Wichtigste Anwendungsszenarien.

  • Notwendigkeit, verschiedene Dokumente zur Bearbeitung in das LLM-System zu importieren
  • Szenarien, bei denen die Integrität von Dokumentenformatierung und -inhalt gewahrt bleiben muss
  • Aufgaben der Stapelverarbeitung von Dokumenten

Das Projekt wird derzeit aktiv weiterentwickelt, und es ist geplant, weitere Funktionen hinzuzufügen, z. B.

  • Verbesserungen des Tabelleninspektors
  • Modulares Post-Processing hinzufügen
  • Unterstützung für strukturierte Ausgabe hinzufügen

 

Hilfe verwenden

Ablauf der Installation

  1. Installieren von MegaParse::
    pip install megaparse
    
  2. API-Schlüssel konfigurieren: Platzieren Sie Ihre OpenAI oder Anthropisch Der API-Schlüssel wird in der .env Dokumentation.
  3. Installation von Abhängigkeiten::
    • Für Bilder und PDF-Dateien, installieren Sie poppler im Gesang antworten Tesserakt.
    • Wenn Sie einen Mac verwenden, müssen Sie außerdem Folgendes installieren libmagic::
      brew install libmagic
      

MegaParse verwenden

  1. MegaParse importieren::
    von megaparse importieren MegaParse
    von langchain_openai importieren ChatOpenAI
    from megaparse.parser.unstructured_parser import UnstructuredParser
    parser = UnstructuredParser()
    megaparse = MegaParse(parser)
    Antwort = megaparse.load(". /test.pdf")
    print(Antwort)
    megaparse.save(". /test.md")
    
  2. MegaParse Vision verwenden::
    von megaparse importieren MegaParse
    von langchain_openai importieren ChatOpenAI
    from megaparse.parser.megaparse_vision import MegaParseVision
    model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY"))
    parser = MegaParseVision(model=model)
    megaparse = MegaParse(parser)
    Antwort = megaparse.load(". /test.pdf")
    print(Antwort)
    megaparse.save(". /test.md")
    

Bessere Ergebnisse mit LlamaParse

  1. Erstellen Sie ein Llama Cloud-Konto und erhalten Sie einen API-Schlüssel.
  2. Parser in LlamaParser ändern::
    von megaparse importieren MegaParse
    von langchain_openai importieren ChatOpenAI
    from megaparse.parser.llama_parser import LlamaParser
    parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY"))
    megaparse = MegaParse(parser)
    Antwort = megaparse.load(". /test.pdf")
    print(Antwort)
    megaparse.save(". /test.md")
    

Verwendung als API

  1. MakeFile verwenden::
    Führen Sie es im Stammverzeichnis des Projekts aus:

    machen Entwicklung
    
  2. Zugang zu Dokumenten::
    Öffnen Sie Ihren Browser, um auf localhost:8000/docs Anzeigen verschiedener Endpunktinformationen.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen und Bilder, in ihrer Gesamtheit erhalten bleiben.

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)