MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Dernières ressources sur l'IAPosté il y a 11 mois Cercle de partage de l'IA

Introduction générale

MinerU est un outil d'extraction de données open source développé par l'équipe OpenDataLab du Shanghai Artificial Intelligence Laboratory, qui se concentre sur l'extraction efficace du contenu de documents PDF complexes, de pages web et de livres électroniques. Il est capable de convertir des documents PDF multimodaux contenant des images, des formules, des tableaux et d'autres éléments en un format Markdown facile à analyser, ce qui améliore grandement l'efficacité de la préparation des corpus d'IA.MinerU se compose de deux éléments principaux : Magic-PDF et Magic-Doc, qui sont utilisés pour traiter respectivement les documents PDF, les pages web et les livres électroniques. L'outil prend en charge le fonctionnement multiplateforme et est compatible avec les systèmes Windows, Linux et macOS.

Expérience en ligne de MinerU modèle d'analyse visage étreint

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

Liste des fonctions

Suppression automatique des en-têtes, pieds de page, notes de bas de page et numéros de page dans les PDF
Préserver la structure et le formatage du document original, tels que les titres, les paragraphes, les listes, etc.
Convertir les images et les tableaux des documents en format Markdown
Convertir des formules mathématiques en PDF au format LaTeX
Compatible avec les systèmes d'exploitation Windows, Linux et macOS
Prise en charge de l'extraction du contenu des pages web et des livres électroniques

Utiliser l'aide

Processus d'installation

Préparation de l'environnement: :
- Assurez-vous que Python 3.9 ou une version ultérieure est installé sur votre système.
- Un environnement virtuel (tel que venv ou conda) est recommandé pour éviter les conflits de dépendance.

Installation des dépendances: :

Créer un environnement virtuel à l'aide de conda :

conda create -n MinerU python=3.10
conda activate MinerU

Ou utiliser venv :

python -m venv MinerU
source MinerU/bin/activate  # 在Linux或macOS上
MinerU\Scripts\activate  # 在Windows上

Installer Magic-PDF: :
- Installez les dépendances, en particulier detectron2, qui est un paquetage complet pour la compilation et l'installation. Utilisez la commande suivante pour installer le paquetage précompilé detectron2 (Python 3.10 uniquement) :
```
pip install detectron2 --extra-index-url https://wheels.myhloli.com
```
- Installez le paquetage complet de Magic-PDF :
```
pip install magic-pdf[full]==0.6.2b1
```
Télécharger le fichier de poids du modèle: :
- Téléchargez le fichier de poids du modèle conformément aux instructions figurant dans la documentation du projet et placez-le dans un répertoire disposant d'un espace disque suffisant, de préférence un disque SSD.
Configurer Magic-PDF: :
- Copiez le fichier de configuration magic-pdf.template.json depuis le répertoire racine du référentiel vers votre répertoire de travail et renommez-le magic-pdf.json :
```
cp magic-pdf.template.json ~/magic-pdf.json
```
- Configurez "models-dir" dans le fichier magic-pdf.json pour qu'il pointe vers le répertoire où se trouvent les poids des modèles :
```
{
  "models-dir": "/tmp/models"
}
```
Configuration de l'accélération (si nécessaire): :
- Si vous disposez d'un GPU Nvidia ou si vous utilisez un Mac avec Apple Silicon, vous pouvez utiliser CUDA ou MPS pour l'accélération. Pour CUDA, installez la version de PyTorch correspondant à votre version de CUDA :
```
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
```
- Modifiez la valeur de "device-mode" dans le fichier de configuration magic-pdf.json pour activer l'accélération.

Utilisation de Magic-PDF

Utiliser Magic-PDF via la ligne de commande :

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

Cette opération traite le fichier PDF spécifié et enregistre le fichier Markdown résultant dans le répertoire /tmp/magic-pdf.

Utilisation de Magic-Doc

Le processus d'installation et de configuration de Magic-Doc est similaire à celui de Magic-PDF, mais les commandes spécifiques et les détails de configuration peuvent différer. Reportez-vous à la documentation du projet pour plus d'informations.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Text generation web UI：基于 Gradio 大语言模型聊天界面，支持多种后端服务

Interface web de génération de texte : interface de chat basée sur un grand modèle de langage Gradio avec prise en charge de plusieurs services dorsaux.

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Localised Chat Application

Il y a 9 mois

014.4K

Convertir gratuitement plusieurs fichiers au format Markdown en fonction de Workers AI

Dernières ressources sur l'IA # AI Java Open Source Projecct # Extraction et nettoyage de documents

il y a 5 mois

011.3K

AI Undetect : outil de détection anti-AI et de réécriture du contenu des textes AI

Dernières ressources sur l'IA # AI Rédaction

Il y a 10 mois

012.1K

Fast.io : l'IA analyse rapidement les données d'entreprise à grande échelle et prend des décisions

Dernières ressources sur l'IA # Outils de productivité professionnels # Recherche de connaissances et cadre RAG

il y a 5 mois

011.6K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation de Magic-PDF

Utilisation de Magic-Doc

Questflow : une plateforme décentralisée de flux de travail automatisé par l'IA qui invoque automatiquement la collaboration multi-intelligence en fonction des tâches.

Lightning : plateforme de ressources cloud de développement de l'IA à guichet unique pour faciliter le déploiement d'applications d'IA

Articles connexes

Interface web de génération de texte : interface de chat basée sur un grand modèle de langage Gradio avec prise en charge de plusieurs services dorsaux.

Convertir gratuitement plusieurs fichiers au format Markdown en fonction de Workers AI

AI Undetect : outil de détection anti-AI et de réécriture du contenu des textes AI

Fast.io : l'IA analyse rapidement les données d'entreprise à grande échelle et prend des décisions

Pas de commentaires

Dernières collections

Derniers articles

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation de Magic-PDF

Utilisation de Magic-Doc

Questflow : une plateforme décentralisée de flux de travail automatisé par l'IA qui invoque automatiquement la collaboration multi-intelligence en fonction des tâches.

Lightning : plateforme de ressources cloud de développement de l'IA à guichet unique pour faciliter le déploiement d'applications d'IA

Articles connexes

Interface web de génération de texte : interface de chat basée sur un grand modèle de langage Gradio avec prise en charge de plusieurs services dorsaux.

Convertir gratuitement plusieurs fichiers au format Markdown en fonction de Workers AI

AI Undetect : outil de détection anti-AI et de réécriture du contenu des textes AI

Fast.io : l'IA analyse rapidement les données d'entreprise à grande échelle et prend des décisions

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles