Allgemeine Einführung
Vision Parse ist ein revolutionäres Werkzeug zur Dokumentenverarbeitung, das auf intelligente Weise modernste Technologie zur visuellen Sprachmodellierung (Vision Language Models) kombiniert, um PDF-Dokumente auf intelligente Weise in hochwertige Inhalte im Markdown-Format zu konvertieren. Das Tool unterstützt eine Vielzahl von Top visuelle Sprachmodelle, einschließlich OpenAI, LLama und Google Gemini, etc., kann genau den Text und Tabellen im Dokument zu extrahieren, und die hierarchische Struktur des Originaldokuments, Stil und Einrückung zu erhalten.Vision Parse unterstützt nicht nur mehrseitige PDF-Verarbeitung, sondern bietet auch ein lokales Modell Bereitstellungsoptionen, so dass die Benutzer in der gleichen Zeit, um sicherzustellen, dass das Dokument Sicherheit sein kann Offline-Verarbeitung. Sein einfaches API-Design ermöglicht es Entwicklern, komplexe Dokumentkonvertierungsaufgaben mit nur wenigen Zeilen Code zu erreichen, was die Effizienz und Genauigkeit der Dokumentenverarbeitung erheblich verbessert.
Funktionsliste
- Intelligente Inhaltsextraktion: Verwendung fortschrittlicher visueller Sprachmodelle zur genauen Erkennung und Extraktion von Text- und Tabelleninhalten
- Formatierungsintegrität: Beibehaltung der gesamten hierarchischen Struktur, des Stils und der Einrückungsformatierung des Dokuments
- Unterstützung mehrerer Modelle: kompatibel mit OpenAI, LLama, Gemini und anderen Anbietern visueller Sprachmodelle
- PDF-Mehrseitenverarbeitung: Unterstützung für mehrseitige PDF-Dokumente, die zur Verarbeitung in base64-kodierte Bilder umgewandelt werden
- Lokale Modellbereitstellung: Ollama unterstützt die lokale Modellbereitstellung für Dokumentensicherheit und Offline-Nutzung.
- Benutzerdefinierte Konfiguration: Unterstützung von benutzerdefinierten PDF-Verarbeitungsparametern, wie DPI, Farbraum, etc.
- Flexible API: bietet eine einfache und intuitive Python-API-Schnittstelle
Hilfe verwenden
1. die Vorbereitung der Installation
Grundlegende Anforderungen:
- Python 3.9 oder höher
- Um das lokale Modell zu verwenden, müssen Sie Ollama installieren.
- Der entsprechende API-Schlüssel ist erforderlich, um OpenAI oder Google Gemini zu verwenden
Installationsschritte:
- Verwenden Sie pip, um das Basispaket zu installieren:
pip install vision-parse
- Installieren Sie bei Bedarf weitere Abhängigkeiten:
- OpenAI-Unterstützung:
pip installieren 'vision-parse[openai]'
- Zwillinge unterstützen:
pip install 'vision-parse[gemini]'
2. grundlegende Verwendung
Beispiel-Code:
from vision_parse import VisionParser
# Initialisieren des Parsers
parser = VisionParser(
model_name="llama3.2-vision:11b", # use local model
Temperatur=0.4,
top_p=0.3,
extraction_complexity=False # Für detailliertere Extraktionsergebnisse auf True setzen
)
# PDF-Datei konvertieren
pdf_pfad = "Ihr_Dokument.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# Verarbeitung der Konvertierungsergebnisse
for i, page_content in enumerate(markdown_pages):
print(f"\n--- Seite {i+1} ---\n{Seiten_Inhalt}")
3. erweiterte Konfiguration
PDF-Seiten-Konfiguration:
from vision_parse import VisionParser, PDFPageConfig
# konfiguriert PDF-Verarbeitungseinstellungen
page_config = PDFPageConfig(
page_config = PDFPageConfig(
colour_space="RGB", include_annotations=True
include_annotations=True, preserve_transparency=Free
preserve_transparency=False
)
# Initialisieren Sie den Parser mit einer benutzerdefinierten Konfiguration
parser = VisionParser(
model_name="llama3.2-vision:11b",
Temperatur=0.7,
top_p=0.4,
page_config=page_config
)
4. unterstützende Modelle
Vision Parse unterstützt eine breite Palette gängiger visueller Sprachmodelle:
- OpenAI-Modelle: gpt-4o, gpt-4o-mini
- Google Gemini-Modelle: gemini-1.5-flash, gemini-2.0-flash-exp, gemini-1.5-pro
- Meta Llama und Llava (durch Ollama): llava:13b, llava:34b, llama3.2-vision:11b, llama3.2-vision:70b
5. techniken der Verwendung
- Wahl des richtigen Modells: Wählen Sie je nach Bedarf ein lokales Modell oder einen Cloud-basierten Dienst
- Einstellung der Parameter: Kreativität und Genauigkeit der Ausgabe wird durch die Parameter Temperatur und top_p eingestellt.
- Extraktionskomplexität: für komplexe Dokumente wird empfohlen, extraction_complexity=True zu setzen
- Lokale Bereitstellung: Die sensible Dokumentation empfiehlt die Verwendung von Ollama für die lokale Modellbereitstellung
- PDF-Konfiguration: je nach den Eigenschaften des Dokuments, um die DPI und den Farbraum und andere Parameter anzupassen