AI Personal Learning
und praktische Anleitung

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Allgemeine Einführung

MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team des Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDF-Dokumente, die Bilder, Formeln, Tabellen und andere Elemente enthalten, in ein einfach zu analysierendes Markdown-Format zu konvertieren, was die Effizienz der KI-Korpusvorbereitung erheblich verbessert.MinerU besteht aus zwei Hauptkomponenten: Magic-PDF und Magic-Doc, die zur Verarbeitung von PDF-Dokumenten bzw. Webseiten und E-Books verwendet werden. Das Tool unterstützt den plattformübergreifenden Betrieb und ist mit Windows-, Linux- und macOS-Systemen kompatibel.

MinerU Online Erfahrung modelscope Umarmungsgesicht


 

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

 

Funktionsliste

  • Automatisches Entfernen von Kopfzeilen, Fußzeilen, Fußnoten und Seitenzahlen aus PDF-Dateien
  • Die Struktur und Formatierung des Originaldokuments wie Überschriften, Absätze, Listen usw. bleiben erhalten.
  • Bilder und Tabellen in Dokumenten in Markdown-Formatierung umwandeln
  • Mathematische Formeln im PDF-Format in das LaTeX-Format konvertieren
  • Kompatibel mit den Betriebssystemen Windows, Linux und macOS
  • Unterstützung für die Extraktion von Inhalten aus Webseiten und eBooks

 

Hilfe verwenden

Ablauf der Installation

  1. Vorbereitung der Umwelt::
    • Stellen Sie sicher, dass Python 3.9 oder höher auf Ihrem System installiert ist.
    • Eine virtuelle Umgebung (wie venv oder conda) wird empfohlen, um Abhängigkeitskonflikte zu vermeiden.
  2. Installation von Abhängigkeiten::
    • Erstellen Sie eine virtuelle Umgebung mit conda:
      conda create -n MinerU python=3.10
      conda aktivieren MinerU
      
    • Oder verwenden Sie venv:
      python -m venv MinerU
      Quelle MinerU/bin/aktivieren  # unter Linux oder macOS
      MinerU\Scripts\aktivieren  # unter Windows
      
  3. Magic-PDF installieren::
    • Installieren Sie die Abhängigkeiten, insbesondere detectron2, das ein vollwertiges Paket ist, das kompiliert und installiert wird. Verwenden Sie den folgenden Befehl, um das vorkompilierte Paket detectron2 zu installieren (nur Python 3.10):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Installieren Sie das Magic-PDF-Paket mit vollem Funktionsumfang:
      pip install magic-pdf[full]==0.6.2b1
      
  4. Download der Datei mit den Modellgewichten::
    • Laden Sie die Datei mit den Modellgewichten gemäß den Anweisungen in der Projektdokumentation herunter und verschieben Sie sie in ein Verzeichnis mit ausreichend Speicherplatz, vorzugsweise auf eine SSD.
  5. Konfigurieren Sie Magic-PDF::
    • Kopieren Sie die Konfigurationsdatei magic-pdf.template.json aus dem Stammverzeichnis des Repositorys in Ihr Arbeitsverzeichnis und benennen Sie sie in magic-pdf.json um:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • Konfigurieren Sie "models-dir" in der Datei magic-pdf.json so, dass es auf das Verzeichnis verweist, in dem sich die Modellgewichte befinden:
      {
        "models-dir": "/tmp/models"
      }
      
  6. Konfiguration der Beschleunigung (falls erforderlich)::
    • Wenn Sie einen Nvidia-Grafikprozessor haben oder einen Mac mit Apple Silicon verwenden, können Sie CUDA oder MPS zur Beschleunigung verwenden. Für CUDA installieren Sie die Version von PyTorch, die Ihrer CUDA-Version entspricht:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • Ändern Sie den Wert von "device-mode" in der Konfigurationsdatei magic-pdf.json, um die Beschleunigung zu aktivieren.

Verwendung von Magic-PDF

Verwenden Sie Magic-PDF über die Befehlszeile:

magic-pdf pdf-Befehl --pdf "pdf_pfad" --inside_model wahr

Damit wird die angegebene PDF-Datei verarbeitet und die resultierende Markdown-Datei im Verzeichnis /tmp/magic-pdf gespeichert.

Verwendung von Magic-Doc

Der Installations- und Konfigurationsprozess für Magic-Doc ähnelt dem von Magic-PDF, aber die spezifischen Befehle und Konfigurationsdetails können sich unterscheiden. Weitere Informationen finden Sie in der Dokumentation des Projekts.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)