PDF Craft : outils open source de conversion de documents PDF numérisés en Markdown

Dernières ressources sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

13.3K 00

Introduction générale

PDF Craft est un outil open source conçu pour scanner des PDF de livres et les convertir au format Markdown. Il est développé par oomol-lab et hébergé sur GitHub pour les utilisateurs qui souhaitent organiser leurs livres électroniques. L'outil fonctionne à l'aide d'un modèle d'IA local et ne nécessite pas de connexion internet, ce qui protège la vie privée et facilite l'utilisation. Il extrait le corps du texte des documents scannés, supprime les éléments divers tels que les en-têtes et les pieds de page, et produit un fichier Markdown propre, particulièrement adapté à l'organisation de vieux livres ou de documents de recherche.

Liste des fonctions

Convertissez des livres numérisés en PDF au format Markdown avec prise en charge du traitement natif.
Extraire le contenu du corps du texte et filtrer automatiquement les en-têtes, les pieds de page et les numéros de page.
Traiter le texte d'une page à l'autre et veiller à la cohérence des phrases.
Prise en charge des illustrations et des captures d'écran de tableaux, intégrées dans des fichiers Markdown.
Utiliser l'IA pour analyser la mise en page et organiser le texte dans l'ordre de lecture.
Extensible au format EPUB pour générer des fichiers de livres électroniques.

Utiliser l'aide

PDF Craft se concentre sur la numérisation de livres de PDF à Markdown. Voici les étapes détaillées de l'installation et de l'utilisation pour vous aider à démarrer rapidement.

Processus d'installation

Préparation de l'environnement
Vous aurez besoin d'un ordinateur sur lequel est installé Python 3.8 ou une version supérieure. Assurez-vous qu'il y a suffisamment d'espace sur votre disque dur pour stocker vos modèles d'IA.
Télécharger le code
Ouvrez un terminal et entrez la commande Cloner le projet :

git clone https://github.com/oomol-lab/pdf-craft.git

Ensuite, consultez le catalogue :

cd pdf-craft

Installation des dépendances
Entrez la commande suivante pour installer les bibliothèques requises :

pip install -r requirements.txt

Si vous disposez d'un GPU, vous pouvez ajouter la prise en charge CUDA :

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117

Obtenir le modèle
Lors de la première exécution, l'outil téléchargera automatiquement le modèle d'IA (par exemple DocLayout-YOLO). En gardant le réseau ouvert, le modèle sera sauvegardé dans le dossier <model_dir_path>(peut être défini dans le code).

flux de travail

Convertir en Markdown

Préparer le PDF
Placez les PDF des livres scannés dans un dossier tel que /path/to/pdf/book.pdf.
conversion en cours d'exécution
Entrez le code suivant dans le terminal :

from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)

device="cpu"Le programme : fonctionne sur l'unité centrale (CPU). Le support GPU se lit device="cuda:0".
markdown_path: Chemin d'accès au fichier Markdown de sortie.
image_dir: Catalogue des illustrations sauvegardées.

Voir les résultats
Lorsque vous avez terminé, ouvrez le /path/to/output.md Vérifier le contenu. Les illustrations sont automatiquement enregistrées dans le images Dossier.

Fonction en vedette Fonctionnement

extraction de texte
L'outil reconnaît les pages numérisées, élimine les en-têtes et les pieds de page et ne conserve que le corps du texte. Vous n'avez pas besoin de faire le ménage manuellement.
traitement inter-pages
Si une phrase est tronquée par un saut de page, PDF Craft la raccorde automatiquement pour assurer la fluidité du texte.
Intégration de l'illustration
Les images ou les tableaux contenus dans les livres scannés seront capturés et intégrés au format Markdown. images pour les retrouver.

pointe

La qualité de la numérisation du PDF doit être claire, sinon la reconnaissance peut être erronée.
Le modèle sera d'abord téléchargé, puis il sera disponible hors ligne.
En cas de lenteur, essayez l'accélération GPU ou réduisez le nombre de pages.

scénario d'application

Organiser les vieux livres
Vous avez scanné des PDF de vieux livres que vous souhaitez convertir en Markdown pour les éditer ? PDF Craft peut éliminer le désordre et produire des fichiers propres.
Conversion des données de recherche
Les universitaires ont besoin de convertir des documents numérisés en Markdown pour prendre des notes. L'outil préserve le texte et les illustrations pour faciliter les citations.
Production de livres électroniques
Vous souhaitez transformer des PDF numérisés en documents Markdown modifiables. PDF Craft offre des solutions simples.

QA

Prend-il uniquement en charge la numérisation des PDF ?
Principalement optimisé pour les PDF de livres numérisés. Les PDF de texte normal fonctionneront, mais probablement pas aussi bien que les documents numérisés.
Que faire des images après la conversion ?
L'image est enregistrée sous forme de capture d'écran dans un dossier spécifié, et le lien est automatiquement intégré dans le code Markdown.
Pourquoi la première course est-elle lente ?
Parce qu'il faut télécharger le modèle d'IA. Les choses s'accélèrent ensuite.