Allgemeine Einführung
Docling ist ein leistungsfähiges Tool zum Parsen und Exportieren von Dokumenten, das eine Vielzahl von Dokumentenformaten unterstützt, darunter PDF, DOCX, PPTX, XLSX, Bilder, HTML, AsciiDoc und Markdown. Es analysiert und exportiert diese Dokumente in die Formate HTML, Markdown und JSON, mit Unterstützung für die Einbettung und Referenzierung von Bildern. Docling bietet ein fortgeschrittenes Verständnis von PDF-Dokumenten, einschließlich der Analyse von Seitenlayout, Lesereihenfolge und Tabellenstruktur. Docling ist einfach zu integrieren und unterstützt die Integration mit den leistungsstarken RAG/QA-Anwendungen von LlamaIndex und LangChain, die eine einfache und bequeme Befehlszeilenschnittstelle (CLI) bieten.
Funktionsliste
- Analysiert mehrere Dokumentformate (PDF, DOCX, PPTX, XLSX, Bild, HTML, AsciiDoc, Markdown)
- Export in die Formate HTML, Markdown und JSON
- Fortgeschrittenes Verstehen von PDF-Dokumenten (Seitenlayout, Lesereihenfolge, Tabellenstruktur)
- Unterstützt OCR-Technologie zum Analysieren gescannter PDFs
- Bietet ein einheitliches Darstellungsformat für DoclingDocument.
- Einfache Integration mit LlamaIndex und LangChain
- Einfache und komfortable Befehlszeilenschnittstelle (CLI)
Hilfe verwenden
Ablauf der Installation
Um Docling zu verwenden, installieren Sie docling einfach über einen Paketmanager, z.B. mit pip:
pip install docling
Docling ist für macOS, Linux und Windows verfügbar und unterstützt x86_64 und arm64 Architekturen. Detaillierte Installationsanweisungen können in der offiziellen Dokumentation gefunden werden.
Richtlinien für die Verwendung
Konvertierung eines einzelnen Dokuments
Um einzelne Dokumente zu konvertieren, können Sie die Funktion convert()
Methoden, zum Beispiel:
from docling.document_converter import DocumentConverter
source = "path/to/document.pdf" Lokaler Pfad oder URL des #-Dokuments
Konverter = DocumentConverter()
Ergebnis = Konverter.convert(Quelle)
print(result.document.export_to_markdown()) #-Ausgabe konvertiertes Dokument im Markdown-Format
Erweiterte Verwendung
Docling bietet eine Reihe von erweiterten Nutzungsoptionen, die nach Bedarf konfiguriert und erweitert werden können. Detaillierte Anweisungen und Beispiele finden Sie in der offiziellen Dokumentation.
Funktion Betriebsablauf
- DokumentenauflösungImportieren Sie ein Dokument in Docling und verwenden Sie den eingebauten Parser, um den Inhalt des Dokuments zu analysieren.
- FormatkonvertierungWählen Sie das Format, das Sie exportieren möchten (HTML, Markdown, JSON) und verwenden Sie die entsprechende Exportfunktion, um das Format zu konvertieren.
- OCR-AnalyseFür gescannte PDF-Dokumente aktivieren Sie die OCR-Funktion, um den Textinhalt des Dokuments zu extrahieren.
- integrierte AnwendungDocling mit LlamaIndex oder LangChain integrieren, um leistungsstarke RAG/QA-Anwendungen zu erstellen.
- BefehlszeilenbetriebVerwenden Sie die von Docling bereitgestellten CLI-Tools, um das Parsen und Exportieren von Dokumenten schnell durchzuführen.
Doclings Funktionen zum Parsen und Exportieren von Dokumenten sind leistungsfähig und einfach zu bedienen für eine Vielzahl von Dokumentenverarbeitungsanforderungen. Benutzer können schnell loslegen und die Vorteile der Docling-Funktionen mithilfe der ausführlichen offiziellen Dokumentation und Beispiele voll ausschöpfen.