MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques
Introduction générale
MinerU est un outil d'extraction de données open source développé par l'équipe OpenDataLab du Shanghai Artificial Intelligence Laboratory, qui se concentre sur l'extraction efficace du contenu de documents PDF complexes, de pages web et de livres électroniques. Il est capable de convertir des documents PDF multimodaux contenant des images, des formules, des tableaux et d'autres éléments en un format Markdown facile à analyser, ce qui améliore grandement l'efficacité de la préparation des corpus d'IA.MinerU se compose de deux éléments principaux : Magic-PDF et Magic-Doc, qui sont utilisés pour traiter respectivement les documents PDF, les pages web et les livres électroniques. L'outil prend en charge le fonctionnement multiplateforme et est compatible avec les systèmes Windows, Linux et macOS.
Expérience en ligne de MinerUmodèle d'analysevisage étreint

Liste des fonctions
- Suppression automatique des en-têtes, pieds de page, notes de bas de page et numéros de page dans les PDF
- Préserver la structure et le formatage du document original, tels que les titres, les paragraphes, les listes, etc.
- Convertir les images et les tableaux des documents en format Markdown
- Convertir des formules mathématiques en PDF au format LaTeX
- Compatible avec les systèmes d'exploitation Windows, Linux et macOS
- Prise en charge de l'extraction du contenu des pages web et des livres électroniques
Utiliser l'aide
Processus d'installation
- Préparation de l'environnement: :
- Assurez-vous que Python 3.9 ou une version ultérieure est installé sur votre système.
- Un environnement virtuel (tel que venv ou conda) est recommandé pour éviter les conflits de dépendance.
- Installation des dépendances: :
- Créer un environnement virtuel à l'aide de conda :
conda create -n MinerU python=3.10 conda activate MinerU
- Ou utiliser venv :
python -m venv MinerU source MinerU/bin/activate # 在Linux或macOS上 MinerU\Scripts\activate # 在Windows上
- Créer un environnement virtuel à l'aide de conda :
- Installer Magic-PDF: :
- Installez les dépendances, en particulier detectron2, qui est un paquetage complet pour la compilation et l'installation. Utilisez la commande suivante pour installer le paquetage précompilé detectron2 (Python 3.10 uniquement) :
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Installez le paquetage complet de Magic-PDF :
pip install magic-pdf[full]==0.6.2b1
- Installez les dépendances, en particulier detectron2, qui est un paquetage complet pour la compilation et l'installation. Utilisez la commande suivante pour installer le paquetage précompilé detectron2 (Python 3.10 uniquement) :
- Télécharger le fichier de poids du modèle: :
- Téléchargez le fichier de poids du modèle conformément aux instructions figurant dans la documentation du projet et placez-le dans un répertoire disposant d'un espace disque suffisant, de préférence un disque SSD.
- Configurer Magic-PDF: :
- Copiez le fichier de configuration magic-pdf.template.json depuis le répertoire racine du référentiel vers votre répertoire de travail et renommez-le magic-pdf.json :
cp magic-pdf.template.json ~/magic-pdf.json
- Configurez "models-dir" dans le fichier magic-pdf.json pour qu'il pointe vers le répertoire où se trouvent les poids des modèles :
{ "models-dir": "/tmp/models" }
- Copiez le fichier de configuration magic-pdf.template.json depuis le répertoire racine du référentiel vers votre répertoire de travail et renommez-le magic-pdf.json :
- Configuration de l'accélération (si nécessaire): :
- Si vous disposez d'un GPU Nvidia ou si vous utilisez un Mac avec Apple Silicon, vous pouvez utiliser CUDA ou MPS pour l'accélération. Pour CUDA, installez la version de PyTorch correspondant à votre version de CUDA :
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- Modifiez la valeur de "device-mode" dans le fichier de configuration magic-pdf.json pour activer l'accélération.
- Si vous disposez d'un GPU Nvidia ou si vous utilisez un Mac avec Apple Silicon, vous pouvez utiliser CUDA ou MPS pour l'accélération. Pour CUDA, installez la version de PyTorch correspondant à votre version de CUDA :
Utilisation de Magic-PDF
Utiliser Magic-PDF via la ligne de commande :
magic-pdf pdf-command --pdf "pdf_path" --inside_model true
Cette opération traite le fichier PDF spécifié et enregistre le fichier Markdown résultant dans le répertoire /tmp/magic-pdf.
Utilisation de Magic-Doc
Le processus d'installation et de configuration de Magic-Doc est similaire à celui de Magic-PDF, mais les commandes spécifiques et les détails de configuration peuvent différer. Reportez-vous à la documentation du projet pour plus d'informations.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...