MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Neueste AI-RessourcenGeschrieben vor 10 Monaten AI-Austauschkreis

2.6K 00

Allgemeine Einführung

MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team des Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDF-Dokumente, die Bilder, Formeln, Tabellen und andere Elemente enthalten, in ein einfach zu analysierendes Markdown-Format zu konvertieren, was die Effizienz der KI-Korpusvorbereitung erheblich verbessert.MinerU besteht aus zwei Hauptkomponenten: Magic-PDF und Magic-Doc, die zur Verarbeitung von PDF-Dokumenten bzw. Webseiten und eBooks verwendet werden. Das Tool unterstützt den plattformübergreifenden Betrieb und ist mit Windows-, Linux- und macOS-Systemen kompatibel.

MinerU Online Erfahrung modelscope Umarmungsgesicht

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

Funktionsliste

Automatisches Entfernen von Kopfzeilen, Fußzeilen, Fußnoten und Seitenzahlen aus PDF-Dateien
Die Struktur und Formatierung des Originaldokuments wie Überschriften, Absätze, Listen usw. bleiben erhalten.
Bilder und Tabellen in Dokumenten in Markdown-Formatierung umwandeln
Mathematische Formeln im PDF-Format in das LaTeX-Format konvertieren
Kompatibel mit den Betriebssystemen Windows, Linux und macOS
Unterstützung für die Extraktion von Inhalten aus Webseiten und eBooks

Hilfe verwenden

Einbauverfahren

Vorbereitung der Umwelt::
- Stellen Sie sicher, dass Python 3.9 oder höher auf Ihrem System installiert ist.
- Eine virtuelle Umgebung (wie venv oder conda) wird empfohlen, um Abhängigkeitskonflikte zu vermeiden.

Installation von Abhängigkeiten::

Erstellen Sie eine virtuelle Umgebung mit conda:

conda create -n MinerU python=3.10
conda activate MinerU

Oder verwenden Sie venv:

python -m venv MinerU
source MinerU/bin/activate  # 在Linux或macOS上
MinerU\Scripts\activate  # 在Windows上

Magic-PDF installieren::
- Installieren Sie die Abhängigkeiten, insbesondere detectron2, das ein vollwertiges Paket ist, das kompiliert und installiert wird. Verwenden Sie den folgenden Befehl, um das vorkompilierte Paket detectron2 zu installieren (nur Python 3.10):
```
pip install detectron2 --extra-index-url https://wheels.myhloli.com
```
- Installieren Sie das Magic-PDF-Paket mit vollem Funktionsumfang:
```
pip install magic-pdf[full]==0.6.2b1
```
Download der Datei mit den Modellgewichten::
- Laden Sie die Datei mit den Modellgewichten gemäß den Anweisungen in der Projektdokumentation herunter und verschieben Sie sie in ein Verzeichnis mit ausreichend Speicherplatz, vorzugsweise auf eine SSD.
Konfigurieren Sie Magic-PDF::
- Kopieren Sie die Konfigurationsdatei magic-pdf.template.json aus dem Stammverzeichnis des Repositorys in Ihr Arbeitsverzeichnis und benennen Sie sie in magic-pdf.json um:
```
cp magic-pdf.template.json ~/magic-pdf.json
```
- Konfigurieren Sie "models-dir" in der Datei magic-pdf.json so, dass es auf das Verzeichnis verweist, in dem sich die Modellgewichte befinden:
```
{
  "models-dir": "/tmp/models"
}
```
Konfiguration der Beschleunigung (falls erforderlich)::
- Wenn Sie einen Nvidia-Grafikprozessor haben oder einen Mac mit Apple Silicon verwenden, können Sie CUDA oder MPS zur Beschleunigung verwenden. Für CUDA installieren Sie die Version von PyTorch, die Ihrer CUDA-Version entspricht:
```
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
```
- Ändern Sie den Wert von "device-mode" in der Konfigurationsdatei magic-pdf.json, um die Beschleunigung zu aktivieren.

Verwendung von Magic-PDF

Verwenden Sie Magic-PDF über die Befehlszeile:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

Damit wird die angegebene PDF-Datei verarbeitet und die resultierende Markdown-Datei im Verzeichnis /tmp/magic-pdf gespeichert.

Verwendung von Magic-Doc

Der Installations- und Konfigurationsprozess für Magic-Doc ähnelt dem von Magic-PDF, aber die spezifischen Befehle und Konfigurationsdetails können sich unterscheiden. Weitere Informationen finden Sie in der Dokumentation des Projekts.