AI Personal Learning
und praktische Anleitung

Marker: PDF schnell in Markdown konvertieren Open-Source-Tools

Allgemeine Einführung

Marker ist ein auf Deep Learning basierendes Werkzeug zur Dokumentenverarbeitung, das PDF-Dateien schnell und präzise in das Markdown-Format konvertiert. Marker kann redundante Inhalte wie Kopf- und Fußzeilen entfernen, Tabellen und Codeblöcke formatieren und Bilder extrahieren und speichern. Er konvertiert auch die meisten Formeln in das LaTeX-Format und unterstützt die Ausführung auf GPU, CPU oder MPS.

 


Marker: Schnelles Konvertieren von PDF in Markdown - Open Source Tool-1

 

Funktionsliste

  • PDF-Dateien in das Markdown-Format konvertieren
  • Unterstützung für mehrere Dokumenttypen, einschließlich Bücher und wissenschaftliche Arbeiten
  • Überflüssige Inhalte wie Kopf- und Fußzeilen entfernen
  • Formatierung von Tabellen und Codeblöcken
  • Bilder extrahieren und speichern
  • Konvertierung der meisten Gleichungen in das LaTeX-Format
  • Unterstützt GPU-, CPU- und MPS-Betrieb

 

 

Hilfe verwenden

Ablauf der Installation

  1. Installation von AbhängigkeitenStellen Sie sicher, dass Python 3.6 und höher installiert ist und dass die folgenden Abhängigkeiten installiert sind:
    pip install marker-pdf
    
  2. laufendes Beispiel::
    marker_single /pfad/zur/datei.pdf /pfad/zur/ausgabe/ordner --batch_multiplier 2 --max_pages 10
    

 

Richtlinien für die Verwendung

 

Konvertierung einzelner Dateien

marker_single /pfad/zur/datei.pdf /pfad/zur/ausgabe/ordner --batch_multiplier 2 --max_pages 10
  • ---batch_multiplier ist ein Vielfaches der Standard-Stapelgröße, wenn Sie über zusätzlichen VRAM verfügen. Höhere Zahlen verbrauchen mehr VRAM, sind aber schneller zu verarbeiten. Die Standardeinstellung ist 2. Die Standard-Stapelgröße erfordert etwa 3 GB VRAM.
  • --max_pages ist die maximale Anzahl der zu verarbeitenden Seiten. Wird dieser Punkt weggelassen, wird das gesamte Dokument konvertiert.
  • --Langs ist eine optionale, durch Kommata getrennte Liste von Dokumentsprachen, die für die OCR verwendet werden sollen. ist standardmäßig optional und muss angegeben werden, wenn Tesseract verwendet wird.
  • --ocr_all_pages ist ein optionaler Parameter, um OCR für alle Seiten des PDF zu erzwingen. Wenn dieser Parameter oder die Umgebungsvariable `OCR_ALL_PAGES` wahr ist, wird OCR erzwungen.

Eine Liste der unterstützten Surya OCR-Sprachen finden Sie unter [hier sind] gefunden. Wenn Sie mehr Sprachen benötigen, können Sie jede der unterstützten Sprachen verwenden, setzen Sie einfach die OCR_ENGINE eingestellt auf ocrmypdf. Wenn keine OCR erforderlich ist, kann der Marker jede Sprache unterstützen.

 

Mehrere Dateien konvertieren

Markierung /pfad/zur/eingabe/ordner /pfad/zur/ausgabe/ordner --workers 4 --max 10 --min_length 10000
  • --Arbeiter ist die Anzahl der gleichzeitig konvertierten PDFs. Die Standardeinstellung ist 1, aber Sie können diesen Wert erhöhen, um den Durchsatz auf Kosten einer erhöhten CPU/GPU-Auslastung zu steigern. Jeder Arbeitsprozess verbraucht in der Spitze 5 GB VRAM und im Durchschnitt 3,5 GB.
  • --Max ist die maximale Anzahl der zu konvertierenden PDFs. Wenn Sie diesen Punkt weglassen, werden alle PDFs im Ordner konvertiert.
  • --min_length ist der Mindestwert für die Anzahl der zu extrahierenden Zeichen in einer PDF-Datei; nur PDF-Dateien, die diesen Wert überschreiten, werden für die Verarbeitung berücksichtigt. Wenn Sie viele PDFs verarbeiten, empfiehlt es sich, diesen Wert festzulegen, um die OCR von PDFs zu vermeiden, die hauptsächlich aus Bildern bestehen (was die Verarbeitung verlangsamt).
  • ---metadata_file ist ein optionaler JSON-Dateipfad mit Metadaten über die PDF-Datei. Falls angegeben, wird diese Datei verwendet, um die Sprache für jede PDF-Datei festzulegen. Die Einstellung der Sprache ist für Surya optional (Standard), für Tesseract jedoch erforderlich. Das Format ist wie folgt:
{
"pdf1.pdf": {"Sprachen": ["Englisch"]}, {
"pdf2.pdf": {"Sprachen": ["Spanisch", "Russisch"]}, ...
...
}

Sie können entweder den Namen der Sprache oder den Code verwenden. Der genaue Code hängt von der OCR-Engine ab. Eine vollständige Liste der Surya-Codes finden Sie unter [hier sind], für Tesseract siehe [hier sind]

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Marker: PDF schnell in Markdown konvertieren Open-Source-Tools

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)