AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

RAG-Wissensdatenbank wesentliche Dokumentenextraktion Open-Source-Projekte im Vergleich

Kürzlich habe ich ein intelligentes Kundendienstprojekt für RAG Knowledge Base Data Processing Tools, auf einen frischen Blick auf die aktuellen Mainstream-Dokumentenverarbeitung Projekte, einschließlich olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse die sechs Werkzeuge, und ein kurzer Vergleich von ihnen. Ein umfassender Blick. MinerU Dokumentenextraktion ist allgemeiner, geeignet für alle Arten von Szenarien, aber das andere Dokument vorgeschlagenen Tools haben ihre eigenen Eigenschaften, wählen Sie bitte nach ihren eigenen Bedürfnissen.

 

olmOCR

Technische Architektur: Basiert auf dem großen Sprachmodell, um einen vollständigen PDF-Verarbeitungsprozess aufzubauen. Es verwendet eine verteilte Architektur zur Unterstützung der parallelen Verarbeitung mit einem und mehreren Knoten und nutzt Sglang für GPU-beschleunigtes Reasoning.


Funktionale Merkmale: mit hochwertigen Textextraktionsfähigkeiten, kann strukturierten Klartext aus komplexen PDFs extrahieren, korrekt mit mehrspaltigen Layouts, Tabellen, mathematischen Gleichungen und handschriftlichen Inhalten umgehen. Gibt die Ergebnisse im Markdown-Format aus; kostet etwa 190 $ für die Verarbeitung von 1.000.000 PDF-Seiten; übertrifft auch Marker, MinerU und GOT-OCR 2.0 und andere ähnliche Tools.

olmOCR: Konvertierung von PDF-Dokumenten in Text, Unterstützung für Tabellen, Formeln und Erkennung handschriftlicher Inhalte-1

Anwendbare Szenarien: Digitalisierung akademischer Dokumente, Konvertierung von Dokumentenbeständen auf Unternehmensebene, Aufbau von KI-Trainingsdatensätzen und Wiederherstellung historischer Dokumenteninhalte.

✅ Vorteil: Open-Source-Projekt, hohe Parsing-Qualität, geringere Kosten als kommerzielle APIs, hervorragende Leistung.

Mängel: die Verwendung eines höheren Schwellenwerts, die Notwendigkeit einer Vielzahl von Systemabhängigkeiten; befindet sich noch im frühen Entwicklungsstadium, die Dokumentation muss verbessert werden; unterstützt derzeit nur das Parsen von PDF und Bildern.

https://github.com/allenai/olmocr

 

Markierung

Technische Architektur: basierend auf PyMuPDF und Tesseract OCR, Unterstützung für GPU-Beschleunigung (Surya OCR-Engine), Open-Source-leicht.

Features: Fokus auf PDF zu Markdown, Unterstützung für Formel zu LaTeX, Bild inline Erhaltung, OCR-Erkennung von gescannten PDF, kann mehrsprachige Dokumente verarbeiten.

Marker: Schnelles Konvertieren von PDF in Markdown - Open Source Tool-1

Szenario: für wissenschaftliche Forschungsliteratur, Bücher und andere grundlegende PDF-Konvertierungsbedürfnisse, geeignet für Benutzer mit technischem Hintergrund für den schnellen Einsatz.

✅ Vorteil: quelloffen und kostenlos, hohe Verarbeitungsgeschwindigkeit (4-mal schneller als vergleichbare Programme).

🙅‍♀️ Unzureichend: Mangel an komplexen Layout-Parsing-Fähigkeiten, Abhängigkeit von lokalen GPU-Ressourcen.

https://github.com/VikParuchuri/marker

 

MinerU

Technische Architektur: Integration von LayoutLMv3, YOLOv8 und anderen Modellen, Unterstützung von multimodalem Parsing (Tabelle/Formel/Bild), Einsatz von Docker und CUDA-Umgebung.

Funktionen: Präzise Extraktion von PDF-Text, automatische Filterung von Kopf- und Fußzeilen, Unterstützung von EPUB/MOBI/DOCX zu Markdown oder JSON, mehrsprachige OCR (84 Sprachen), integriertes UniMERNet-Modell, optimiert für die Erkennung von Formeln.

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Anwendbare Szenarien: Anwendbar in der akademischen Literaturverwaltung, bei der Analyse von Jahresabschlüssen und anderen Szenarien, die eine hochpräzise Strukturierung erfordern.

✅ Vorteil: Einhaltung der Sicherheitsvorschriften für Unternehmen mit API- und GUI-Unterstützung.

🙅Schwächen: Abhängigkeit von GPUs, langsamere Formularverarbeitung, komplexe Konfiguration.

https://github.com/opendatalab/MinerU

 

Docling

Technische Architektur: modularer Aufbau, Integration von Unstructured, LayoutParser und anderen Bibliotheken, Unterstützung für Lokalisierung.

Funktionen: Parsen von PDF/DOCX/PPTX und anderen Formaten, Beibehaltung der Lesereihenfolge und Tabellenstruktur, Unterstützung von OCR und LangChain-Integration, Ausgabe von Markdown oder JSON.

Anwendbare Szenarien: geeignet für die Lösung von Unternehmensverträgen, die Automatisierung von Berichten und andere komplexe Anwendungen, die mit einem KI-Framework kombiniert werden müssen.

Docling: unterstützt das Parsen und Exportieren von Dokumenten in mehreren Formaten nach Markdown und JSON, unterstützt mehrere Formate-1

✅ Vorteil: Kompatibel mit IBM Eco und unterstützt die gemischte Verarbeitung mehrerer Formate.

🙅‍♀️ Unzureichend: Eine CUDA-Umgebung ist erforderlich, und einige Funktionen basieren auf kommerziellen Modellen.

https://github.com/DS4SD/docling

 

Markitdown

Technische Architektur: Microsoft Open-Source-Projekt, integrierte GPT - 4 und andere Modelle zu erreichen AI verbesserte Verarbeitung, Unterstützung für Multi-Format-Konvertierung.

Funktionen: Unterstützung von Word/Excel/PPT, Bild (OCR), Audio (Sprachtranskription) zu Markdown, Stapelverarbeitung von ZIP-Dateien, kann Bildbeschreibungen erzeugen (OpenAI API erforderlich).

MarkItDown: Microsoft Document Intelligent Conversion Tool zur Konvertierung verschiedener Dateien in das Markdown-Format-1

Szenario: geeignet für die Erstellung gemischter Inhalte in mehreren Formaten, z. B. PPT-Diagramme zu Dokumenten, Audio- und Videotranskription.

Vorteil: umfassendste Formatunterstützung, entwicklerfreundlich (Python API/CLI).

🙅‍♀️ Unzulänglichkeiten: Abhängigkeit von externen APIs, einige Funktionen erfordern kostenpflichtige Modelle.

https://github.com/microsoft/markitdown

 

Llamaparse

Technische Architektur: entwickelt für RAG, kombiniert Azure OpenAI und KDB AI Vektordatenbank zur Optimierung der semantischen Suche.

Funktionen: Parsing komplexer PDFs mit Tabellen/Diagrammen, Ausgabe von Markdown/LaTeX/Mermaid-Diagrammen, Unterstützung für die Erstellung von Wissensgraphen, Einhaltung der Sicherheitsvorschriften für Unternehmen.

Anwendbare Szenarien: für die Analyse von Rechtsdokumenten, Fragen zu technischen Handbüchern und andere intelligente Anwendungen, die mit LLM kombiniert werden müssen.

LlamaParse: Llamaindex's hochqualitatives Dokumenten-Parsing und Datenextraktionsdienst (1.000 kostenlose Seiten pro Tag) -1

Vorteil: hohe Parsing-Genauigkeit und Unterstützung bei der semantischen Optimierung von halbstrukturierten Daten.

🙅‍♂️ Unzulänglichkeiten: langsame Verarbeitungsgeschwindigkeit, begrenztes freies Guthaben, API-Schlüssel erforderlich.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " RAG-Wissensdatenbank wesentliche Dokumentenextraktion Open-Source-Projekte im Vergleich

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)