AI Personal Learning
und praktische Anleitung
讯飞绘镜

PDF Craft: Gescannte PDF-Dokumente in Markdown umwandeln Open-Source-Tools

Allgemeine Einführung

PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub für Benutzer gehostet, die ihre eBooks organisieren möchten. Das Tool läuft über ein lokales KI-Modell und benötigt keine Internetverbindung, was die Privatsphäre schützt und die Bedienung erleichtert. Es extrahiert den Text aus gescannten Dokumenten, entfernt verschiedene Elemente wie Kopf- und Fußzeilen und erzeugt eine saubere Markdown-Datei, die sich besonders für die Organisation alter Bücher oder Forschungsmaterialien eignet.

PDF Craft:PDF扫描文件转Markdown的开源工具-1


 

Funktionsliste

  • Konvertieren Sie gescannte Buch-PDFs in das Markdown-Format mit nativer Verarbeitungsunterstützung.
  • Extrahieren von Textinhalten und automatisches Filtern von Kopf- und Fußzeilen sowie Seitenzahlen.
  • Text seitenübergreifend handhaben und Sätze zusammenhängend halten.
  • Unterstützt Abbildungen und Tabellen-Screenshots, eingebettet in Markdown-Dateien.
  • Verwenden Sie AI, um das Seitenlayout zu analysieren und den Text in der Lesereihenfolge zu organisieren.
  • Erweiterbar auf das EPUB-Format zur Erzeugung von eBook-Dateien.

 

Hilfe verwenden

PDF Craft konzentriert sich auf das Scannen von Büchern aus dem PDF-Format in Markdown, und hier sind die detaillierten Installations- und Verwendungsschritte, damit Sie schnell loslegen können.

Einbauverfahren

  1. Vorbereiten der Umgebung
    Sie benötigen einen Computer, auf dem Python 3.8 oder höher installiert ist. Vergewissern Sie sich, dass auf Ihrer Festplatte genügend Platz zum Speichern des KI-Modells vorhanden ist.
  2. Code herunterladen
    Öffnen Sie ein Terminal und geben Sie den Befehl Projekt klonen ein:
git clone https://github.com/oomol-lab/pdf-craft.git

Rufen Sie dann den Katalog auf:

cd pdf-craft
  1. Installation von Abhängigkeiten
    Geben Sie den folgenden Befehl ein, um die erforderlichen Bibliotheken zu installieren:
pip install -r requirements.txt

Wenn Sie eine GPU haben, können Sie CUDA-Unterstützung hinzufügen:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. Das Modell erhalten
    Beim ersten Start lädt das Tool automatisch das KI-Modell herunter (z. B. DocLayout-YOLO). Wenn das Netzwerk geöffnet bleibt, wird das Modell gespeichert unter <model_dir_path>(kann im Code eingestellt werden).

Arbeitsablauf

In Markdown konvertieren

  1. PDF vorbereiten
    Legen Sie die gescannten Buch-PDFs in einen Ordner wie /path/to/pdf/book.pdf.
  2. Laufzeitkonvertierung
    Geben Sie den folgenden Code in das Terminal ein:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu"Läuft auf der CPU. GPU-Unterstützung liest device="cuda:0".
  • markdown_pathOutput Markdown file path.
  • image_dir: Katalog der gespeicherten Abbildungen.
  1. Ergebnisse anzeigen
    Wenn Sie fertig sind, öffnen Sie die /path/to/output.md Prüfen Sie den Inhalt. Die Illustrationen werden automatisch in der images Mappe.

Featured Function Bedienung

  • Textextraktion
    Das Tool erkennt gescannte Seiten, entfernt Kopf- und Fußzeilen und behält nur den Text bei. Sie müssen das Durcheinander nicht manuell bereinigen.
  • seitenübergreifende Verarbeitung
    Wenn ein Satz durch einen Seitenumbruch abgeschnitten wird, verbindet PDF Craft ihn automatisch, um einen reibungslosen Textfluss zu gewährleisten.
  • Illustration Einbettung
    Bilder oder Tabellen in gescannten Büchern werden als Screenshot erstellt und in Markdown eingebettet. images um sie zu finden.

Tipp

  • Die Qualität des PDF-Scans sollte klar sein, da die Erkennung sonst falsch sein kann.
  • Beim ersten Durchlauf wird das Modell heruntergeladen, danach ist es offline verfügbar.
  • Wenn es zu langsam ist, versuchen Sie es mit GPU-Beschleunigung oder reduzieren Sie die Anzahl der Seiten.

 

Anwendungsszenario

  1. Alte Bücher ordnen
    Haben Sie gescannte PDF-Dateien von alten Büchern, die Sie für die Bearbeitung in Markdown konvertieren möchten? PDF Craft kann die Unordnung beseitigen und saubere Dateien erstellen.
  2. Konvertierung von Forschungsdaten
    Wissenschaftler müssen gescannte Dokumente in Markdown konvertieren, um Notizen zu machen. Das Tool bewahrt den Text und die Abbildungen für eine einfache Zitierung.
  3. E-Book-Produktion
    Sie möchten gescannte PDFs in bearbeitbare Markdown-Dokumente umwandeln. PDF Craft bietet einfache Lösungen.

 

QA

  1. Unterstützt es nur das Scannen von PDFs?
    Hauptsächlich für gescannte Buch-PDFs optimiert. Normale Text-PDFs funktionieren zwar, aber wahrscheinlich nicht so gut wie gescannte Dokumente.
  2. Was mache ich mit den Bildern nach der Konvertierung?
    Das Bild wird als Screenshot in einem bestimmten Ordner gespeichert, und der Link wird automatisch in Markdown eingebettet.
  3. Warum ist der erste Durchlauf so langsam?
    Denn Sie müssen das KI-Modell herunterladen. Danach geht es schneller.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " PDF Craft: Gescannte PDF-Dokumente in Markdown umwandeln Open-Source-Tools
de_DEDeutsch