Docling: Unterstützung für eine Vielzahl von Formaten, Dokumentenparsing und Export als Markdown und JSON, PDF-Unterstützung OCR

Neueste AI-RessourcenGeschrieben vor 9 Monaten AI-Austauschkreis

29.2K 00

Allgemeine Einführung

Docling ist ein leistungsfähiges Tool zum Parsen und Exportieren von Dokumenten, das eine Vielzahl von Dokumentenformaten unterstützt, darunter PDF, DOCX, PPTX, XLSX, Bilder, HTML, AsciiDoc und Markdown. Es analysiert und exportiert diese Dokumente in die Formate HTML, Markdown und JSON, mit Unterstützung für die Einbettung und Referenzierung von Bildern. Docling bietet ein fortgeschrittenes Verständnis von PDF-Dokumenten, einschließlich der Analyse von Seitenlayout, Lesereihenfolge und Tabellenstruktur. Docling ist einfach zu integrieren und unterstützt die Integration mit den leistungsstarken RAG/QA-Anwendungen von LlamaIndex und LangChain, die eine einfache und bequeme Befehlszeilenschnittstelle (CLI) bieten.

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Funktionsliste

Analysiert mehrere Dokumentformate (PDF, DOCX, PPTX, XLSX, Bild, HTML, AsciiDoc, Markdown)
Export in die Formate HTML, Markdown und JSON
Fortgeschrittenes Verstehen von PDF-Dokumenten (Seitenlayout, Lesereihenfolge, Tabellenstruktur)
Unterstützt OCR-Technologie zum Analysieren gescannter PDFs
Bietet ein einheitliches Darstellungsformat für DoclingDocument.
Einfache Integration mit LlamaIndex und LangChain
Einfache und komfortable Befehlszeilenschnittstelle (CLI)

Hilfe verwenden

Einbauverfahren

Um Docling zu verwenden, installieren Sie docling einfach über einen Paketmanager, z.B. mit pip:

pip install docling

Docling ist für macOS, Linux und Windows verfügbar und unterstützt x86_64 und arm64 Architekturen. Detaillierte Installationsanweisungen können in der offiziellen Dokumentation gefunden werden.

Leitlinien für die Verwendung

Konvertierung eines einzelnen Dokuments

Um einzelne Dokumente zu konvertieren, können Sie die Funktion convert() Methoden, zum Beispiel:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

Erweiterte Verwendung

Docling bietet eine Reihe von erweiterten Nutzungsoptionen, die nach Bedarf konfiguriert und erweitert werden können. Detaillierte Anweisungen und Beispiele finden Sie in der offiziellen Dokumentation.

Funktion Betriebsablauf

DokumentenauflösungImportieren Sie ein Dokument in Docling und verwenden Sie den eingebauten Parser, um den Inhalt des Dokuments zu analysieren.
FormatkonvertierungWählen Sie das Format, das Sie exportieren möchten (HTML, Markdown, JSON) und verwenden Sie die entsprechende Exportfunktion, um das Format zu konvertieren.
OCR-AnalyseFür gescannte PDF-Dokumente aktivieren Sie die OCR-Funktion, um den Textinhalt des Dokuments zu extrahieren.
integrierte AnwendungDocling mit LlamaIndex oder LangChain integrieren, um leistungsstarke RAG/QA-Anwendungen zu erstellen.
BefehlszeilenbetriebVerwenden Sie die von Docling bereitgestellten CLI-Tools, um das Parsen und Exportieren von Dokumenten schnell durchzuführen.

Doclings Funktionen zum Parsen und Exportieren von Dokumenten sind leistungsfähig und einfach zu bedienen für eine Vielzahl von Dokumentenverarbeitungsanforderungen. Benutzer können schnell loslegen und die Vorteile der Docling-Funktionen mithilfe der ausführlichen offiziellen Dokumentation und Beispiele voll ausschöpfen.

Neueste AI-Ressourcen # AI Java Open Source Projekt # OCR # Extraktion und Reinigung von Dokumenten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

GPT4Free: Dekompilierung der AI-Dialog-Website-Schnittstelle zur freien Nutzung mehrerer GPT-Modelle

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI Integrierte Multi-Modell-Dialogplattform

vor 11 Monaten

020K

mac assistant: die KI-Intelligenz, die Desktop-Aktionen auf macOS-Geräten automatisiert

Neueste AI-Ressourcen # AI Java Open Source Projekt # Intelligente Desktop-Automatisierung

vor 7 Monaten

017K

NarratoAI: Textgenerierte Film- und TV-Erzählung und automatisiertes Bearbeitungswerkzeug

Neueste AI-Ressourcen # AI Side Hustle Geldverdienen Projekt # AI Java Open Source Projekt # AI Text zu Video

vor 1 Jahr

021.1K

HiveChat: der KI-Chatbot für den schnellen Einsatz in Unternehmen

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI Integrierte Multi-Modell-Dialogplattform

vor 7 Monaten

018K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Docling: Unterstützung für eine Vielzahl von Formaten, Dokumentenparsing und Export als Markdown und JSON, PDF-Unterstützung OCR

Allgemeine Einführung

Funktionsliste