Allgemeine Einführung
MegaParse ist ein leistungsfähiges und vielseitiges Tool zum Parsen von Dokumenten, das zur Optimierung der Datenverarbeitung für das Large Language Model (LLM) entwickelt wurde. Egal, ob Sie mit Text, PDF, PowerPoint-Präsentationen oder Word-Dokumenten arbeiten, MegaParse macht es Ihnen leicht und stellt sicher, dass beim Parsing-Prozess keine Informationen verloren gehen. Das von QuivrHQ entwickelte Tool ist quelloffen und kostenlos und bietet schnelle und effiziente Dateiparsing-Dienste für eine breite Palette von Dateiformaten, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.
Funktionsliste
- multifunktionaler ParserUnterstützung für mehrere Dateitypen, darunter Text-, PDF-, PowerPoint-, Excel-, CSV- und Word-Dokumente.
- Keine Informationen verlorenParsing: Stellen Sie sicher, dass beim Parsing-Prozess keine Informationen verloren gehen.
- schnell und effizientDer Kern des Designs ist auf Geschwindigkeit und Effizienz ausgerichtet.
- Quelloffen und kostenlos: Open-Source-Projekt, frei zu verwenden.
- Unterstützung für mehrere InhalteUnterstützung für das Parsen von Tabellen, Inhaltsverzeichnissen, Kopf- und Fußzeilen und Bildern.
Drei Parsing-Modi.
- UnstructuredParser
- Visueller Parser (MegaParseVision) - Unterstützung für multimodale Modelle wie GPT-4V und Claude 3
- LlamaParser - Verbesserte Parsing-Fähigkeiten über die Llama Cloud
Leistung.
Dem Benchmark-Test zufolge hat der MegaParseVision-Modus ein Ähnlichkeitsverhältnis von 0,87, was in Bezug auf die Leistung der beste Parsing-Modus ist.
Wichtigste Anwendungsszenarien.
- Notwendigkeit, verschiedene Dokumente zur Bearbeitung in das LLM-System zu importieren
- Szenarien, bei denen die Integrität von Dokumentenformatierung und -inhalt gewahrt bleiben muss
- Aufgaben der Stapelverarbeitung von Dokumenten
Das Projekt wird derzeit aktiv weiterentwickelt, und es ist geplant, weitere Funktionen hinzuzufügen, z. B.
- Verbesserungen des Tabelleninspektors
- Modulares Post-Processing hinzufügen
- Unterstützung für strukturierte Ausgabe hinzufügen
Hilfe verwenden
Einbauverfahren
- Installieren von MegaParse::
pip install megaparse
- API-Schlüssel konfigurieren: Platzieren Sie Ihre OpenAI oder Anthropisch Der API-Schlüssel wird in der
.env
Dokumentation. - Installation von Abhängigkeiten::
- Für Bilder und PDF-Dateien, installieren Sie
poppler
im Gesang antwortentesseract
. - Wenn Sie einen Mac verwenden, müssen Sie außerdem Folgendes installieren
libmagic
::brew install libmagic
- Für Bilder und PDF-Dateien, installieren Sie
MegaParse verwenden
- MegaParse importieren::
from megaparse import MegaParse from langchain_openai import ChatOpenAI from megaparse.parser.unstructured_parser import UnstructuredParser parser = UnstructuredParser() megaparse = MegaParse(parser) response = megaparse.load("./test.pdf") print(response) megaparse.save("./test.md")
- MegaParse Vision verwenden::
from megaparse import MegaParse from langchain_openai import ChatOpenAI from megaparse.parser.megaparse_vision import MegaParseVision model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY")) parser = MegaParseVision(model=model) megaparse = MegaParse(parser) response = megaparse.load("./test.pdf") print(response) megaparse.save("./test.md")
Bessere Ergebnisse mit LlamaParse
- Erstellen Sie ein Llama Cloud-Konto und erhalten Sie einen API-Schlüssel.
- Parser in LlamaParser ändern::
from megaparse import MegaParse from langchain_openai import ChatOpenAI from megaparse.parser.llama_parser import LlamaParser parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY")) megaparse = MegaParse(parser) response = megaparse.load("./test.pdf") print(response) megaparse.save("./test.md")
Verwendung als API
- MakeFile verwenden::
Führen Sie es im Stammverzeichnis des Projekts aus:make dev
- Zugang zu Dokumenten::
Öffnen Sie Ihren Browser, um auflocalhost:8000/docs
Anzeigen verschiedener Endpunktinformationen.