Allgemeine Einführung
MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team des Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDF-Dokumente, die Bilder, Formeln, Tabellen und andere Elemente enthalten, in ein einfach zu analysierendes Markdown-Format zu konvertieren, was die Effizienz der KI-Korpusvorbereitung erheblich verbessert.MinerU besteht aus zwei Hauptkomponenten: Magic-PDF und Magic-Doc, die zur Verarbeitung von PDF-Dokumenten bzw. Webseiten und E-Books verwendet werden. Das Tool unterstützt den plattformübergreifenden Betrieb und ist mit Windows-, Linux- und macOS-Systemen kompatibel.
MinerU Online Erfahrung modelscope Umarmungsgesicht
Funktionsliste
- Automatisches Entfernen von Kopfzeilen, Fußzeilen, Fußnoten und Seitenzahlen aus PDF-Dateien
- Die Struktur und Formatierung des Originaldokuments wie Überschriften, Absätze, Listen usw. bleiben erhalten.
- Bilder und Tabellen in Dokumenten in Markdown-Formatierung umwandeln
- Mathematische Formeln im PDF-Format in das LaTeX-Format konvertieren
- Kompatibel mit den Betriebssystemen Windows, Linux und macOS
- Unterstützung für die Extraktion von Inhalten aus Webseiten und eBooks
Hilfe verwenden
Ablauf der Installation
- Vorbereitung der Umwelt::
- Stellen Sie sicher, dass Python 3.9 oder höher auf Ihrem System installiert ist.
- Eine virtuelle Umgebung (wie venv oder conda) wird empfohlen, um Abhängigkeitskonflikte zu vermeiden.
- Installation von Abhängigkeiten::
- Erstellen Sie eine virtuelle Umgebung mit conda:
conda create -n MinerU python=3.10 conda aktivieren MinerU
- Oder verwenden Sie venv:
python -m venv MinerU Quelle MinerU/bin/aktivieren # unter Linux oder macOS MinerU\Scripts\aktivieren # unter Windows
- Erstellen Sie eine virtuelle Umgebung mit conda:
- Magic-PDF installieren::
- Installieren Sie die Abhängigkeiten, insbesondere detectron2, das ein vollwertiges Paket ist, das kompiliert und installiert wird. Verwenden Sie den folgenden Befehl, um das vorkompilierte Paket detectron2 zu installieren (nur Python 3.10):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Installieren Sie das Magic-PDF-Paket mit vollem Funktionsumfang:
pip install magic-pdf[full]==0.6.2b1
- Installieren Sie die Abhängigkeiten, insbesondere detectron2, das ein vollwertiges Paket ist, das kompiliert und installiert wird. Verwenden Sie den folgenden Befehl, um das vorkompilierte Paket detectron2 zu installieren (nur Python 3.10):
- Download der Datei mit den Modellgewichten::
- Laden Sie die Datei mit den Modellgewichten gemäß den Anweisungen in der Projektdokumentation herunter und verschieben Sie sie in ein Verzeichnis mit ausreichend Speicherplatz, vorzugsweise auf eine SSD.
- Konfigurieren Sie Magic-PDF::
- Kopieren Sie die Konfigurationsdatei magic-pdf.template.json aus dem Stammverzeichnis des Repositorys in Ihr Arbeitsverzeichnis und benennen Sie sie in magic-pdf.json um:
cp magic-pdf.template.json ~/magic-pdf.json
- Konfigurieren Sie "models-dir" in der Datei magic-pdf.json so, dass es auf das Verzeichnis verweist, in dem sich die Modellgewichte befinden:
{ "models-dir": "/tmp/models" }
- Kopieren Sie die Konfigurationsdatei magic-pdf.template.json aus dem Stammverzeichnis des Repositorys in Ihr Arbeitsverzeichnis und benennen Sie sie in magic-pdf.json um:
- Konfiguration der Beschleunigung (falls erforderlich)::
- Wenn Sie einen Nvidia-Grafikprozessor haben oder einen Mac mit Apple Silicon verwenden, können Sie CUDA oder MPS zur Beschleunigung verwenden. Für CUDA installieren Sie die Version von PyTorch, die Ihrer CUDA-Version entspricht:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- Ändern Sie den Wert von "device-mode" in der Konfigurationsdatei magic-pdf.json, um die Beschleunigung zu aktivieren.
- Wenn Sie einen Nvidia-Grafikprozessor haben oder einen Mac mit Apple Silicon verwenden, können Sie CUDA oder MPS zur Beschleunigung verwenden. Für CUDA installieren Sie die Version von PyTorch, die Ihrer CUDA-Version entspricht:
Verwendung von Magic-PDF
Verwenden Sie Magic-PDF über die Befehlszeile:
magic-pdf pdf-Befehl --pdf "pdf_pfad" --inside_model wahr
Damit wird die angegebene PDF-Datei verarbeitet und die resultierende Markdown-Datei im Verzeichnis /tmp/magic-pdf gespeichert.
Verwendung von Magic-Doc
Der Installations- und Konfigurationsprozess für Magic-Doc ähnelt dem von Magic-PDF, aber die spezifischen Befehle und Konfigurationsdetails können sich unterscheiden. Weitere Informationen finden Sie in der Dokumentation des Projekts.