RAG-Wissensdatenbank wesentliche Dokumentenextraktion Open-Source-Projekte im Vergleich

AI-WissensdatenbankGeschrieben vor 6 Monaten AI-Austauschkreis

9.7K 00

Kürzlich habe ich ein intelligentes Kundendienstprojekt für RAG Knowledge Base Data Processing Tools, auf einen frischen Blick auf die aktuellen Mainstream-Dokumentenverarbeitung Projekte, einschließlich olmOCR, Marker, MinerU, Docling, Markitdown, Llamaparse die sechs Werkzeuge, und ein kurzer Vergleich von ihnen. Ein umfassender Blick. MinerU Dokumentenextraktion ist allgemeiner, geeignet für alle Arten von Szenarien, aber das andere Dokument vorgeschlagenen Tools haben ihre eigenen Eigenschaften, wählen Sie bitte nach ihren eigenen Bedürfnissen.

olmOCR

Technische Architektur: Basiert auf dem großen Sprachmodell, um einen vollständigen PDF-Verarbeitungsprozess aufzubauen. Es verwendet eine verteilte Architektur zur Unterstützung der parallelen Verarbeitung mit einem und mehreren Knoten und nutzt Sglang für GPU-beschleunigtes Reasoning.

Funktionale Merkmale: mit hochwertigen Textextraktionsfähigkeiten, kann strukturierten Klartext aus komplexen PDFs extrahieren, korrekt mit mehrspaltigen Layouts, Tabellen, mathematischen Gleichungen und handschriftlichen Inhalten umgehen. Gibt die Ergebnisse im Markdown-Format aus; kostet etwa 190 $ für die Verarbeitung von 1.000.000 PDF-Seiten; übertrifft auch Marker, MinerU und GOT-OCR 2.0 und andere ähnliche Tools.

Anwendbare Szenarien: Digitalisierung akademischer Dokumente, Konvertierung von Dokumentenbeständen auf Unternehmensebene, Aufbau von KI-Trainingsdatensätzen und Wiederherstellung historischer Dokumenteninhalte.

✅ Vorteil: Open-Source-Projekt, hohe Parsing-Qualität, geringere Kosten als kommerzielle APIs, hervorragende Leistung.

Mängel: die Verwendung eines höheren Schwellenwerts, die Notwendigkeit einer Vielzahl von Systemabhängigkeiten; befindet sich noch in der frühen Entwicklungsphase, die Dokumentation muss verbessert werden; unterstützt derzeit nur das Parsen von PDF und Bildern.

https://github.com/allenai/olmocr

Markierung

Technische Architektur: basierend auf PyMuPDF und Tesseract OCR, Unterstützung für GPU-Beschleunigung (Surya OCR-Engine), Open-Source-leicht.

Features: Fokus auf PDF zu Markdown, Unterstützung für Formel zu LaTeX, Bild inline Erhaltung, OCR-Erkennung von gescannten PDF, kann mit mehrsprachigen Dokumenten umgehen.

Szenario: für wissenschaftliche Forschungsliteratur, Bücher und andere grundlegende PDF-Konvertierungsbedürfnisse, geeignet für Benutzer mit technischem Hintergrund für den schnellen Einsatz.

✅ Vorteil: quelloffen und kostenlos, hohe Verarbeitungsgeschwindigkeit (4-mal schneller als vergleichbare Programme).

🙅‍♀️ Unzulänglichkeiten: Mangel an komplexen Layout-Parsing-Fähigkeiten, Abhängigkeit von lokalen GPU-Ressourcen.

https://github.com/VikParuchuri/marker

MinerU

Technische Architektur: Integration von LayoutLMv3, YOLOv8 und anderen Modellen, Unterstützung von multimodalem Parsing (Tabelle/Formel/Bild), Einsatz von Docker und CUDA-Umgebung.

Funktionen: Präzise Extraktion von PDF-Text, automatische Filterung von Kopf- und Fußzeilen, Unterstützung für EPUB/MOBI/DOCX in Markdown oder JSON, mehrsprachige OCR (84 Sprachen), integriertes UniMERNet-Modell, optimiert für die Erkennung von Formeln.

Anwendbare Szenarien: Anwendbar in der akademischen Literaturverwaltung, bei der Analyse von Jahresabschlüssen und anderen Szenarien, die eine hochpräzise Strukturierung erfordern.

✅ Vorteil: Einhaltung der Sicherheitsvorschriften für Unternehmen mit API- und GUI-Unterstützung.

🙅Schwächen: Abhängigkeit von GPUs, langsamere Formularverarbeitung, komplexe Konfiguration.

https://github.com/opendatalab/MinerU

Docling

Technische Architektur: modularer Aufbau, Integration von Unstructured, LayoutParser und anderen Bibliotheken, Unterstützung für Lokalisierung.

Funktionen: Parsen von PDF/DOCX/PPTX und anderen Formaten, Beibehaltung der Lesereihenfolge und Tabellenstruktur, Unterstützung von OCR und LangChain-Integration, Ausgabe von Markdown oder JSON.

Anwendbare Szenarien: geeignet für die Lösung von Unternehmensverträgen, die Automatisierung von Berichten und andere komplexe Anwendungen, die mit einem KI-Framework kombiniert werden müssen.

✅ Vorteil: Kompatibel mit IBM Eco und unterstützt die gemischte Verarbeitung mehrerer Formate.

🙅‍♀️ Unzureichend: Eine CUDA-Umgebung ist erforderlich, und einige Funktionen basieren auf kommerziellen Modellen.

https://github.com/DS4SD/docling

Markitdown

Technische Architektur: Microsoft Open-Source-Projekt, integrierte GPT - 4 und andere Modelle zu erreichen AI verbesserte Verarbeitung, Unterstützung für Multi-Format-Konvertierung.

Funktionen: Unterstützung von Word/Excel/PPT, Bild (OCR), Audio (Sprachtranskription) zu Markdown, Stapelverarbeitung von ZIP-Dateien, kann Bildbeschreibungen erzeugen (OpenAI API erforderlich).

Szenario: geeignet für die Erstellung gemischter Inhalte in mehreren Formaten, z. B. PPT-Diagramme zu Dokumenten, Audio- und Videotranskription.

Vorteil: umfassendste Formatunterstützung, entwicklerfreundlich (Python API/CLI).

🙅‍♀️ Unzulänglichkeiten: Abhängigkeit von externen APIs, einige Funktionen erfordern kostenpflichtige Modelle.

https://github.com/microsoft/markitdown

Llamaparse

Technische Architektur: entwickelt für RAG, kombiniert Azure OpenAI und KDB AI Vektordatenbank zur Optimierung der semantischen Suche.

Funktionen: Parsing komplexer PDFs mit Tabellen/Diagrammen, Ausgabe von Markdown/LaTeX/Mermaid-Diagrammen, Unterstützung für die Erstellung von Wissensgraphen, Einhaltung der Sicherheitsvorschriften für Unternehmen.

Anwendbare Szenarien: für die Analyse von Rechtsdokumenten, Fragen zu technischen Handbüchern und andere intelligente Anwendungen, die mit LLM kombiniert werden müssen.

Vorteil: hohe Parsing-Genauigkeit und Unterstützung bei der semantischen Optimierung von halbstrukturierten Daten.

🙅‍♂️ Unzulänglichkeiten: langsame Verarbeitungsgeschwindigkeit, begrenztes freies Guthaben, API-Schlüssel erforderlich.

https://docs.llamaindex.ai/en/stable/llama_cloud/llama_parse