Allgemeine Einführung
PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub für Benutzer gehostet, die ihre eBooks organisieren möchten. Das Tool läuft über ein lokales KI-Modell und benötigt keine Internetverbindung, was die Privatsphäre schützt und die Bedienung erleichtert. Es extrahiert den Text aus gescannten Dokumenten, entfernt verschiedene Elemente wie Kopf- und Fußzeilen und erzeugt eine saubere Markdown-Datei, die sich besonders für die Organisation alter Bücher oder Forschungsmaterialien eignet.
Funktionsliste
- Konvertieren Sie gescannte Buch-PDFs in das Markdown-Format mit nativer Verarbeitungsunterstützung.
- Extrahieren von Textinhalten und automatisches Filtern von Kopf- und Fußzeilen sowie Seitenzahlen.
- Text seitenübergreifend handhaben und Sätze zusammenhängend halten.
- Unterstützt Abbildungen und Tabellen-Screenshots, eingebettet in Markdown-Dateien.
- Verwenden Sie AI, um das Seitenlayout zu analysieren und den Text in der Lesereihenfolge zu organisieren.
- Erweiterbar auf das EPUB-Format zur Erzeugung von eBook-Dateien.
Hilfe verwenden
PDF Craft konzentriert sich auf das Scannen von Büchern aus dem PDF-Format in Markdown, und hier sind die detaillierten Installations- und Verwendungsschritte, damit Sie schnell loslegen können.
Einbauverfahren
- Vorbereiten der Umgebung
Sie benötigen einen Computer, auf dem Python 3.8 oder höher installiert ist. Vergewissern Sie sich, dass auf Ihrer Festplatte genügend Platz zum Speichern des KI-Modells vorhanden ist. - Code herunterladen
Öffnen Sie ein Terminal und geben Sie den Befehl Projekt klonen ein:
git clone https://github.com/oomol-lab/pdf-craft.git
Rufen Sie dann den Katalog auf:
cd pdf-craft
- Installation von Abhängigkeiten
Geben Sie den folgenden Befehl ein, um die erforderlichen Bibliotheken zu installieren:
pip install -r requirements.txt
Wenn Sie eine GPU haben, können Sie CUDA-Unterstützung hinzufügen:
pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
- Das Modell erhalten
Beim ersten Start lädt das Tool automatisch das KI-Modell herunter (z. B. DocLayout-YOLO). Wenn das Netzwerk geöffnet bleibt, wird das Modell gespeichert unter<model_dir_path>
(kann im Code eingestellt werden).
Arbeitsablauf
In Markdown konvertieren
- PDF vorbereiten
Legen Sie die gescannten Buch-PDFs in einen Ordner wie/path/to/pdf/book.pdf
. - Laufzeitkonvertierung
Geben Sie den folgenden Code in das Terminal ein:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
device="cpu"
Läuft auf der CPU. GPU-Unterstützung liestdevice="cuda:0"
.markdown_path
Output Markdown file path.image_dir
: Katalog der gespeicherten Abbildungen.
- Ergebnisse anzeigen
Wenn Sie fertig sind, öffnen Sie die/path/to/output.md
Prüfen Sie den Inhalt. Die Illustrationen werden automatisch in derimages
Mappe.
Featured Function Bedienung
- Textextraktion
Das Tool erkennt gescannte Seiten, entfernt Kopf- und Fußzeilen und behält nur den Text bei. Sie müssen das Durcheinander nicht manuell bereinigen. - seitenübergreifende Verarbeitung
Wenn ein Satz durch einen Seitenumbruch abgeschnitten wird, verbindet PDF Craft ihn automatisch, um einen reibungslosen Textfluss zu gewährleisten. - Illustration Einbettung
Bilder oder Tabellen in gescannten Büchern werden als Screenshot erstellt und in Markdown eingebettet.images
um sie zu finden.
Tipp
- Die Qualität des PDF-Scans sollte klar sein, da die Erkennung sonst falsch sein kann.
- Beim ersten Durchlauf wird das Modell heruntergeladen, danach ist es offline verfügbar.
- Wenn es zu langsam ist, versuchen Sie es mit GPU-Beschleunigung oder reduzieren Sie die Anzahl der Seiten.
Anwendungsszenario
- Alte Bücher ordnen
Haben Sie gescannte PDF-Dateien von alten Büchern, die Sie für die Bearbeitung in Markdown konvertieren möchten? PDF Craft kann die Unordnung beseitigen und saubere Dateien erstellen. - Konvertierung von Forschungsdaten
Wissenschaftler müssen gescannte Dokumente in Markdown konvertieren, um Notizen zu machen. Das Tool bewahrt den Text und die Abbildungen für eine einfache Zitierung. - E-Book-Produktion
Sie möchten gescannte PDFs in bearbeitbare Markdown-Dokumente umwandeln. PDF Craft bietet einfache Lösungen.
QA
- Unterstützt es nur das Scannen von PDFs?
Hauptsächlich für gescannte Buch-PDFs optimiert. Normale Text-PDFs funktionieren zwar, aber wahrscheinlich nicht so gut wie gescannte Dokumente. - Was mache ich mit den Bildern nach der Konvertierung?
Das Bild wird als Screenshot in einem bestimmten Ordner gespeichert, und der Link wird automatisch in Markdown eingebettet. - Warum ist der erste Durchlauf so langsam?
Denn Sie müssen das KI-Modell herunterladen. Danach geht es schneller.