AI Personal Learning
und praktische Anleitung
豆包Marscode1

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Allgemeine Einführung

Zerox ist ein Open-Source-Projekt zur Konvertierung von PDF, DOCX, Bildern und anderen Dokumenten in das Markdown-Format durch visuelle Modelle. Das Projekt wird von getomni-ai Team entwickelt, bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung. zerox unterstützt Node und Python zwei Programmiersprachen, die Verwendung von graphicsmagick und ghostscript für PDF zu Bildverarbeitung. Benutzer können Dokumente schnell in das Markdown-Format konvertieren, indem sie den Dateipfad und den OpenAI-API-Schlüssel für eine Vielzahl von Dokumenten mit komplexen Layouts, wie Tabellen und Diagrammen, angeben.

Zerox:将PDFDOCX、图像转换为Markdown,使用视觉模型实现高效OCR-1


 

Funktionsliste

  • Unterstützung der Konvertierung von PDF, DOCX, Bildern und anderen Dateiformaten
  • Bietet Unterstützung für die Programmiersprachen Node und Python
  • Effiziente OCR-Verarbeitung mit visuellen Modellen
  • Installiert automatisch graphicsmagick und ghostscript für die PDF-zu-Bild-Verarbeitung.
  • Unterstützt sowohl Dateipfad- als auch URL-Eingabe
  • Bietet eine Reihe von optionalen Parametern, z. B. Gleichzeitigkeitsverarbeitung, Korrektur der Seitenausrichtung, Fehlerbehandlungsmodus usw.
  • Unterstützung für Vorverarbeitungs- und Nachverarbeitungs-Callback-Funktionen
  • Option zum Speichern der Konvertierungsergebnisse in einem bestimmten Verzeichnis

 

Hilfe verwenden

Einbauverfahren

Version des Knotens

  1. Installation von Node.js und npm
  2. Befehl ausführen npm install zerox
  3. Vergewissern Sie sich, dass graphicsmagick und ghostscript auf Ihrem System installiert sind; falls nicht, führen Sie den folgenden Befehl aus:
   sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript

Python-Version

  1. Python und pip installieren
  2. Befehl ausführen pip install zerox
  3. Vergewissern Sie sich, dass graphicsmagick und ghostscript auf Ihrem System installiert sind; falls nicht, führen Sie den folgenden Befehl aus:
   sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript

Verwendung

Version des Knotens

  1. Importieren Sie das Zerox-Modul:
   import { zerox } from "zerox";
  1. Verwenden Sie den Dateipfad für die Konvertierung:
   const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});
  1. Verwenden Sie die URL für die Konvertierung:
   const result = await zerox({
filePath: "https://example.com/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
});

Python-Version

  1. Importieren Sie das Zerox-Modul:
   from zerox import zerox
  1. Verwenden Sie den Dateipfad für die Konvertierung:
   result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key"
)
  1. Verwenden Sie die URL für die Konvertierung:
   result = zerox(
file_path="https://example.com/file.pdf",
openai_api_key="your_openai_api_key"
)

Hauptfunktionen

  1. DateikonvertierungDatei-Pfad oder URL angeben, Zerox-Funktion zur Konvertierung aufrufen, Text im Markdown-Format zurückgeben.
  2. gleichzeitige Verarbeitung: Durch die Einstellung derconcurrencyzur Steuerung der Anzahl der gleichzeitig verarbeiteten Seiten, um die Effizienz der Verarbeitung zu verbessern.
  3. Korrektur der SeitenausrichtungDie Funktion zur Korrektur der Seitenausrichtung ist standardmäßig aktiviert, um die korrekte Ausrichtung des konvertierten Textes zu gewährleisten.
  4. Fehlerbehandlungsmodus: Optional können Fehler ignoriert oder ausgelöst werden, indem man dieerrorModeParameter konfiguriert sind.
  5. Vor- und NachbearbeitungsrückrufeBietet Callback-Funktionen, um benutzerdefinierte Aktionen vor und nach der Verarbeitung jeder Seite durchzuführen.
  6. Ergebnisse speichern: Durch die Einstellung deroutputDirParameter, um das Konvertierungsergebnis im angegebenen Verzeichnis zu speichern.

Beispielcode (Rechnen)

Version des Knotens

import { zerox } from "zerox";
const result = await zerox({
filePath: "path/to/file.pdf",
openaiAPIKey: process.env.OPENAI_API_KEY,
cleanup: true,
concurrency: 10,
correctOrientation: true,
errorMode: "IGNORE",
maintainFormat: false,
maxRetries: 1,
maxTesseractWorkers: -1,
model: "gpt-4o-mini",
onPostProcess: async ({ page, progressSummary }) => Promise<void>,
onPreProcess: async ({ imagePath, pageNumber }) => Promise<void>,
outputDir: "output",
pagesToConvertAsImages: -1,
});

Python-Version

from zerox import zerox
result = zerox(
file_path="path/to/file.pdf",
openai_api_key="your_openai_api_key",
cleanup=True,
concurrency=10,
correct_orientation=True,
error_mode="IGNORE",
maintain_format=False,
max_retries=1,
max_tesseract_workers=-1,
model="gpt-4o-mini",
on_post_process=lambda page, progress_summary: None,
on_pre_process=lambda image_path, page_number: None,
output_dir="output",
pages_to_convert_as_images=-1,
)

 

Wir verwenden libreoffice im Gesang antworten graphicsmagick für die Umwandlung von Dokumenten in Bilder. Für Nicht-Bild/Nicht-PDF-Dateien verwenden wir libreoffice, um die Datei in PDF und dann in ein Bild zu konvertieren.

[
"pdf", // Portable Document Format
"doc", // Microsoft Word 97-2003
"docx", // Microsoft Word 2007-2019
"odt", // OpenDocument Text
"ott", // OpenDocument Text Template
"rtf", // Rich Text Format
"txt", // Plain Text
"html", // HTML Document
"htm", // HTML Document (alternative extension)
"xml", // XML Document
"wps", // Microsoft Works Word Processor
"wpd", // WordPerfect Document
"xls", // Microsoft Excel 97-2003
"xlsx", // Microsoft Excel 2007-2019
"ods", // OpenDocument Spreadsheet
"ots", // OpenDocument Spreadsheet Template
"csv", // Comma-Separated Values
"tsv", // Tab-Separated Values
"ppt", // Microsoft PowerPoint 97-2003
"pptx", // Microsoft PowerPoint 2007-2019
"odp", // OpenDocument Presentation
"otp", // OpenDocument Presentation Template
];
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR
de_DEDeutsch