Allgemeine Einführung
MegaParse ist ein leistungsfähiges und vielseitiges Dokument-Parsing-Tool, das zur Optimierung der Datenverarbeitung für das Large Language Model (LLM) entwickelt wurde. Egal, ob Sie mit Text, PDF, PowerPoint-Präsentationen oder Word-Dokumenten arbeiten, MegaParse macht es Ihnen leicht und stellt sicher, dass beim Parsing-Prozess keine Informationen verloren gehen. Das von QuivrHQ entwickelte Tool ist quelloffen und kostenlos und bietet schnelle und effiziente Dateiparsing-Dienste für eine breite Palette von Dateiformaten, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.
Funktionsliste
- multifunktionaler ParserUnterstützung für mehrere Dateitypen, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.
- Keine Informationen verlorenParsing: Stellen Sie sicher, dass beim Parsing-Prozess keine Informationen verloren gehen.
- schnell und effizientDer Kern des Designs ist auf Geschwindigkeit und Effizienz ausgerichtet.
- Quelloffen und kostenlos: Open-Source-Projekt, frei zu verwenden.
- Unterstützung für mehrere InhalteUnterstützung für das Parsen von Tabellen, Inhaltsverzeichnissen, Kopf- und Fußzeilen und Bildern.
Drei Parsing-Modi.
- UnstructuredParser
- Visueller Parser (MegaParseVision) - Unterstützung für multimodale Modelle wie GPT-4V und Claude 3
- LlamaParser - Verbesserte Parsing-Fähigkeiten über die Llama Cloud
Leistung.
Dem Benchmark-Test zufolge hat der MegaParseVision-Modus ein Ähnlichkeitsverhältnis von 0,87, was in Bezug auf die Leistung der beste Parsing-Modus ist.
Wichtigste Anwendungsszenarien.
- Notwendigkeit, verschiedene Dokumente zur Bearbeitung in das LLM-System zu importieren
- Szenarien, bei denen die Integrität von Dokumentenformatierung und -inhalt gewahrt bleiben muss
- Aufgaben der Stapelverarbeitung von Dokumenten
Das Projekt wird derzeit aktiv weiterentwickelt, und es ist geplant, weitere Funktionen hinzuzufügen, z. B.
- Verbesserungen des Tabelleninspektors
- Modulares Post-Processing hinzufügen
- Unterstützung für strukturierte Ausgabe hinzufügen
Hilfe verwenden
Ablauf der Installation
- Installieren von MegaParse::
pip install megaparse
- API-Schlüssel konfigurieren: Platzieren Sie Ihre OpenAI oder Anthropisch Der API-Schlüssel wird in der
.env
Dokumentation. - Installation von Abhängigkeiten::
- Für Bilder und PDF-Dateien, installieren Sie
poppler
im Gesang antwortenTesserakt
. - Wenn Sie einen Mac verwenden, müssen Sie außerdem Folgendes installieren
libmagic
::brew install libmagic
- Für Bilder und PDF-Dateien, installieren Sie
MegaParse verwenden
- MegaParse importieren::
von megaparse importieren MegaParse von langchain_openai importieren ChatOpenAI from megaparse.parser.unstructured_parser import UnstructuredParser parser = UnstructuredParser() megaparse = MegaParse(parser) Antwort = megaparse.load(". /test.pdf") print(Antwort) megaparse.save(". /test.md")
- MegaParse Vision verwenden::
von megaparse importieren MegaParse von langchain_openai importieren ChatOpenAI from megaparse.parser.megaparse_vision import MegaParseVision model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY")) parser = MegaParseVision(model=model) megaparse = MegaParse(parser) Antwort = megaparse.load(". /test.pdf") print(Antwort) megaparse.save(". /test.md")
Bessere Ergebnisse mit LlamaParse
- Erstellen Sie ein Llama Cloud-Konto und erhalten Sie einen API-Schlüssel.
- Parser in LlamaParser ändern::
von megaparse importieren MegaParse von langchain_openai importieren ChatOpenAI from megaparse.parser.llama_parser import LlamaParser parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY")) megaparse = MegaParse(parser) Antwort = megaparse.load(". /test.pdf") print(Antwort) megaparse.save(". /test.md")
Verwendung als API
- MakeFile verwenden::
Führen Sie es im Stammverzeichnis des Projekts aus:machen Entwicklung
- Zugang zu Dokumenten::
Öffnen Sie Ihren Browser, um auflocalhost:8000/docs
Anzeigen verschiedener Endpunktinformationen.