Allgemeine Einführung
MarkPDFDown ist ein Open-Source-Werkzeug. Es verwendet das multimodale große Sprachmodell, um PDF-Dateien in das Markdown-Format zu konvertieren. Der Entwickler ist der GitHub-Benutzer jorben. Das Ziel dieses Tools ist einfach: PDF-Dokumente sollen einfacher zu bearbeiten und zu teilen sein. Es erkennt Überschriften, Listen, Tabellen und andere Strukturen in einem Dokument und erzeugt eine sauber formatierte Markdown-Datei. Das Projekt ist in Python geschrieben und eignet sich für Benutzer, die PDF-Dateien verarbeiten und in ein Textformat umwandeln müssen. Die aktuelle Version ist auf die API von OpenAI angewiesen, Benutzer müssen ihren eigenen API-Schlüssel vorbereiten. markPDFDown ist als offener Quellcode auf GitHub verfügbar, Sie können sich gerne an der Verbesserung beteiligen.
Funktionsliste
- Konvertierung von PDF-Dateien in das Markdown-Format unter Beibehaltung der Dokumentstruktur.
- Unterstützung bei der Erkennung von Überschriften, Absätzen, Listen, Tabellen und anderen Elementen.
- Verstehen Sie PDF-Inhalte durch multimodale Makromodellierung, um genaue Konvertierungsergebnisse zu gewährleisten.
- Bietet Befehlszeilenoperationen und Unterstützung für die Stapelverarbeitung von PDF-Dateien.
- Der Code ist quelloffen und kostenlos und kann von den Nutzern angepasst werden.
Hilfe verwenden
MarkPDFDown ist ein Befehlszeilen-Tool, das Sie installieren und die Umgebung auf Ihrem Computer konfigurieren müssen, um es zu verwenden. Nachfolgend finden Sie die detaillierten Installations- und Bedienungsschritte, die auch Anfängern einen leichten Einstieg ermöglichen.
Einbauverfahren
- Vorbereiten der Umgebung
Sie benötigen einen Computer mit Python 3.9. Falls nicht, laden Sie zuerst Python herunter und installieren Sie es.
Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um eine virtuelle Umgebung zu erstellen:
conda create -n markpdfdown python=3.9
Aktivieren Sie dann die Umgebung:
conda activate markpdfdown
- Code herunterladen
Klonen Sie das GitHub-Repository von MarkPDFDown, indem Sie den Befehl im Terminal eingeben:
git clone https://github.com/jorben/markpdfdown.git
Wechseln Sie in den Projektordner:
cd markpdfdown
- Installation von Abhängigkeiten
Das Projekt erfordert die Unterstützung einiger Python-Bibliotheken. Führen Sie den folgenden Befehl aus, um sie zu installieren:
pip install -r requirements.txt
- API-Schlüssel konfigurieren
MarkPDFDown verwendet das multimodale Modell von OpenAI und erfordert einen API-Schlüssel. Gehen Sie zunächst auf die OpenAI-Website, um ein Konto zu registrieren und den Schlüssel zu erhalten.
Stellen Sie die Taste im Terminal ein:
export OPENAI_API_KEY=<你的API密钥>
Wenn Sie das Modell oder die API-Adresse ändern möchten, können Sie sie erneut einstellen:
export OPENAI_DEFAULT_MODEL=<你的模型名>
export OPENAI_API_BASE=<你的API地址>
- Überprüfen der Installation
Einfuhrpython main.py --help
Wenn eine Hilfemeldung angezeigt wird, war die Installation erfolgreich.
Wie zu verwenden
Nach der Installation ist die Bedienung von MarkPDFDown sehr einfach und erfolgt hauptsächlich über die Kommandozeile. Im Folgenden sind die einzelnen Schritte aufgeführt.
Ganze PDF-Dateien konvertieren
Angenommen, Sie haben eine PDF-Datei wie tests/input.pdf
Wenn Sie sie in eine Markdown-Datei umwandeln möchten output.md
. Geben Sie in das Terminal ein:
python main.py < tests/input.pdf > output.md
Nach der Ausführung deroutput.md
Sie wird im aktuellen Ordner mit dem konvertierten Markdown-Inhalt angezeigt.
Konvertieren bestimmter Seiten einer PDF-Datei
Wenn Sie nur bestimmte Seiten umwandeln wollen, z. B. die Seiten 2 bis 5, geben Sie ein:
python main.py 2 5 < tests/input.pdf > output.md
Die erste Zahl ist die Anfangsseite und die zweite die Endseite. Die Seitenzahlen werden von 1 an gezählt.
Betrieb mit Docker
Sie möchten keine Python-Umgebung installieren? Stellen Sie sicher, dass Sie Docker auf Ihrem Computer haben und führen Sie es aus:
docker run -i -e OPENAI_API_KEY=<你的API密钥> jorben/markpdfdown < tests/input.pdf > output.md
Dadurch wird die Datei direkt durch den Docker-Container konvertiert.
Funktionen
- Kernfunktionen: PDF zu Markdown
Ziehen Sie die PDF-Datei in das Befehlszeilenfenster oder geben Sie direkt den Dateipfad ein, und das Tool analysiert automatisch den Inhalt. Der Titel wird zu#
und##
usw., besteht die Liste aus-
wird durch die Tabelle dargestellt, und die Tabelle wird im Markdown-Tabellenformat ausgegeben.
So kann beispielsweise eine PDF-Datei mit dem Titel "Einleitung" und dem Text "Dies ist der Inhalt" konvertiert werden:
# 简介
这是内容
- Stapeldatei
Wenn es viele PDF-Dateien gibt, können Sie ein Skript schreiben, das den Befehl in einer Schleife aufruft. Zum Beispiel unter Linux:
for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done
- Fehlersuche und Verbesserung
Konvertierungsergebnisse nicht zufriedenstellend? Stellen Sie eine Frage auf GitHub oder ändern Sie den Code selbst. Das Projekt ist in Python geschrieben, und die Logik befindet sich in dermain.py
Meile.
caveat
- Der Dateipfad darf keine chinesischen Zeichen enthalten, andernfalls kann es zu einer Fehlermeldung kommen.
- Der API-Schlüssel ist geheim zu halten und darf nicht an Dritte weitergegeben werden.
- Die Verarbeitung großer Dateien kann mehr Zeit in Anspruch nehmen, so dass ein stabiles Netz gewährleistet ist.
Anwendungsszenario
- akademische Forschung
Studenten oder Forscher müssen oft ihre Dissertations-PDF in Markdown konvertieren, um sich Notizen zu machen oder sie weiterzugeben.MarkPDFDown bewahrt die Struktur der Dissertation, wie Überschriften und Tabellen, für die direkte Bearbeitung in Markdown. - Dokumentation
Unternehmen haben viele PDF-Anleitungen oder Berichte, die sie in Markdown-Archive konvertieren möchten. Mit diesem Tool können Sie sie stapelweise konvertieren und dann auf GitHub oder Notion hochladen. - Technisches Schreiben
Wenn Sie technische Blogs schreiben, müssen Sie PDF-Materialien zitieren. Konvertieren Sie es direkt und fügen Sie es in Ihren Markdown-Editor ein, damit Sie es nicht manuell sortieren müssen.
QA
- Brauche ich ein Netzwerk?
Ja. Das Tool basiert auf der API von OpenAI und muss vernetzt sein, um zu funktionieren. - Unterstützt es chinesische PDF-Dateien?
Unterstützung. Solange die PDF-Datei im Textformat vorliegt (kein gescanntes Bild), kann der chinesische Inhalt korrekt konvertiert werden. - Was ist, wenn ein Konvertierungsfehler auftritt?
Prüfen Sie, ob der API-Schlüssel korrekt ist oder ob die PDF-Datei beschädigt ist. Wenn das nicht funktioniert, gehen Sie zu GitHub und melden Sie einen Fehler. - Kann ich es offline verwenden?
Im Moment noch nicht. Lokale Modelle können in Zukunft unterstützt werden, aber im Moment muss es der Service von OpenAI sein.