PDF Craft : outils open source de conversion de documents PDF numérisés en Markdown
Introduction générale
PDF Craft est un outil open source conçu pour scanner des PDF de livres et les convertir au format Markdown. Il est développé par oomol-lab et hébergé sur GitHub pour les utilisateurs qui souhaitent organiser leurs livres électroniques. L'outil fonctionne à l'aide d'un modèle d'IA local et ne nécessite pas de connexion internet, ce qui protège la vie privée et facilite l'utilisation. Il extrait le corps du texte des documents scannés, supprime les éléments divers tels que les en-têtes et les pieds de page, et produit un fichier Markdown propre, particulièrement adapté à l'organisation de vieux livres ou de documents de recherche.

Liste des fonctions
- Convertissez des livres numérisés en PDF au format Markdown avec prise en charge du traitement natif.
- Extraire le contenu du corps du texte et filtrer automatiquement les en-têtes, les pieds de page et les numéros de page.
- Traiter le texte d'une page à l'autre et veiller à la cohérence des phrases.
- Prise en charge des illustrations et des captures d'écran de tableaux, intégrées dans des fichiers Markdown.
- Utiliser l'IA pour analyser la mise en page et organiser le texte dans l'ordre de lecture.
- Extensible au format EPUB pour générer des fichiers de livres électroniques.
Utiliser l'aide
PDF Craft se concentre sur la numérisation de livres de PDF à Markdown. Voici les étapes détaillées de l'installation et de l'utilisation pour vous aider à démarrer rapidement.
Processus d'installation
- Préparation de l'environnement
Vous aurez besoin d'un ordinateur sur lequel est installé Python 3.8 ou une version supérieure. Assurez-vous qu'il y a suffisamment d'espace sur votre disque dur pour stocker vos modèles d'IA. - Télécharger le code
Ouvrez un terminal et entrez la commande Cloner le projet :
git clone https://github.com/oomol-lab/pdf-craft.git
Ensuite, consultez le catalogue :
cd pdf-craft
- Installation des dépendances
Entrez la commande suivante pour installer les bibliothèques requises :
pip install -r requirements.txt
Si vous disposez d'un GPU, vous pouvez ajouter la prise en charge CUDA :
pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
- Obtenir le modèle
Lors de la première exécution, l'outil téléchargera automatiquement le modèle d'IA (par exemple DocLayout-YOLO). En gardant le réseau ouvert, le modèle sera sauvegardé dans le dossier<model_dir_path>
(peut être défini dans le code).
flux de travail
Convertir en Markdown
- Préparer le PDF
Placez les PDF des livres scannés dans un dossier tel que/path/to/pdf/book.pdf
. - conversion en cours d'exécution
Entrez le code suivant dans le terminal :
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
device="cpu"
Le programme : fonctionne sur l'unité centrale (CPU). Le support GPU se litdevice="cuda:0"
.markdown_path
: Chemin d'accès au fichier Markdown de sortie.image_dir
: Catalogue des illustrations sauvegardées.
- Voir les résultats
Lorsque vous avez terminé, ouvrez le/path/to/output.md
Vérifier le contenu. Les illustrations sont automatiquement enregistrées dans leimages
Dossier.
Fonction en vedette Fonctionnement
- extraction de texte
L'outil reconnaît les pages numérisées, élimine les en-têtes et les pieds de page et ne conserve que le corps du texte. Vous n'avez pas besoin de faire le ménage manuellement. - traitement inter-pages
Si une phrase est tronquée par un saut de page, PDF Craft la raccorde automatiquement pour assurer la fluidité du texte. - Intégration de l'illustration
Les images ou les tableaux contenus dans les livres scannés seront capturés et intégrés au format Markdown.images
pour les retrouver.
pointe
- La qualité de la numérisation du PDF doit être claire, sinon la reconnaissance peut être erronée.
- Le modèle sera d'abord téléchargé, puis il sera disponible hors ligne.
- En cas de lenteur, essayez l'accélération GPU ou réduisez le nombre de pages.
scénario d'application
- Organiser les vieux livres
Vous avez scanné des PDF de vieux livres que vous souhaitez convertir en Markdown pour les éditer ? PDF Craft peut éliminer le désordre et produire des fichiers propres. - Conversion des données de recherche
Les universitaires ont besoin de convertir des documents numérisés en Markdown pour prendre des notes. L'outil préserve le texte et les illustrations pour faciliter les citations. - Production de livres électroniques
Vous souhaitez transformer des PDF numérisés en documents Markdown modifiables. PDF Craft offre des solutions simples.
QA
- Prend-il uniquement en charge la numérisation des PDF ?
Principalement optimisé pour les PDF de livres numérisés. Les PDF de texte normal fonctionneront, mais probablement pas aussi bien que les documents numérisés. - Que faire des images après la conversion ?
L'image est enregistrée sous forme de capture d'écran dans un dossier spécifié, et le lien est automatiquement intégré dans le code Markdown. - Pourquoi la première course est-elle lente ?
Parce qu'il faut télécharger le modèle d'IA. Les choses s'accélèrent ensuite.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...