MarkPDFDown: Konvertierung von PDF in Markdown basierend auf einem multimodalen Modell

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

18.7K 00

Allgemeine Einführung

MarkPDFDown ist ein Open-Source-Werkzeug. Es verwendet das multimodale große Sprachmodell, um PDF-Dateien in das Markdown-Format zu konvertieren. Der Entwickler ist der GitHub-Benutzer jorben. Das Ziel dieses Tools ist einfach: PDF-Dokumente sollen einfacher zu bearbeiten und zu teilen sein. Es erkennt Überschriften, Listen, Tabellen und andere Strukturen in einem Dokument und erzeugt eine sauber formatierte Markdown-Datei. Das Projekt ist in Python geschrieben und eignet sich für Benutzer, die PDF-Dateien verarbeiten und in ein Textformat umwandeln müssen. Die aktuelle Version ist auf die API von OpenAI angewiesen, Benutzer müssen ihren eigenen API-Schlüssel vorbereiten. markPDFDown ist als offener Quellcode auf GitHub verfügbar, Sie können sich gerne an der Verbesserung beteiligen.

Funktionsliste

Konvertierung von PDF-Dateien in das Markdown-Format unter Beibehaltung der Dokumentstruktur.
Unterstützung bei der Erkennung von Überschriften, Absätzen, Listen, Tabellen und anderen Elementen.
Verstehen Sie PDF-Inhalte durch multimodale Makromodellierung, um genaue Konvertierungsergebnisse zu gewährleisten.
Bietet Befehlszeilenoperationen und Unterstützung für die Stapelverarbeitung von PDF-Dateien.
Der Code ist quelloffen und kostenlos und kann von den Nutzern angepasst werden.

Hilfe verwenden

MarkPDFDown ist ein Befehlszeilen-Tool, das Sie installieren und die Umgebung auf Ihrem Computer konfigurieren müssen, um es zu verwenden. Nachfolgend finden Sie die detaillierten Installations- und Bedienungsschritte, die auch Anfängern einen leichten Einstieg ermöglichen.

Einbauverfahren

Vorbereiten der Umgebung
Sie benötigen einen Computer mit Python 3.9. Falls nicht, laden Sie zuerst Python herunter und installieren Sie es.
Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um eine virtuelle Umgebung zu erstellen:

conda create -n markpdfdown python=3.9

Aktivieren Sie dann die Umgebung:

conda activate markpdfdown

Code herunterladen
Klonen Sie das GitHub-Repository von MarkPDFDown, indem Sie den Befehl im Terminal eingeben:

git clone https://github.com/jorben/markpdfdown.git

Wechseln Sie in den Projektordner:

cd markpdfdown

Installation von Abhängigkeiten
Das Projekt erfordert die Unterstützung einiger Python-Bibliotheken. Führen Sie den folgenden Befehl aus, um sie zu installieren:

pip install -r requirements.txt

API-Schlüssel konfigurieren
MarkPDFDown verwendet das multimodale Modell von OpenAI und erfordert einen API-Schlüssel. Gehen Sie zunächst auf die OpenAI-Website, um ein Konto zu registrieren und den Schlüssel zu erhalten.
Stellen Sie die Taste im Terminal ein:

export OPENAI_API_KEY=<你的API密钥>

Wenn Sie das Modell oder die API-Adresse ändern möchten, können Sie sie erneut einstellen:

export OPENAI_DEFAULT_MODEL=<你的模型名>
export OPENAI_API_BASE=<你的API地址>

Überprüfen der Installation
Einfuhr python main.py --helpWenn eine Hilfemeldung angezeigt wird, war die Installation erfolgreich.

Wie zu verwenden

Nach der Installation ist die Bedienung von MarkPDFDown sehr einfach und erfolgt hauptsächlich über die Kommandozeile. Im Folgenden sind die einzelnen Schritte aufgeführt.

Ganze PDF-Dateien konvertieren

Angenommen, Sie haben eine PDF-Datei wie tests/input.pdfWenn Sie sie in eine Markdown-Datei umwandeln möchten output.md. Geben Sie in das Terminal ein:

python main.py < tests/input.pdf > output.md

Nach der Ausführung deroutput.md Sie wird im aktuellen Ordner mit dem konvertierten Markdown-Inhalt angezeigt.

Konvertieren bestimmter Seiten einer PDF-Datei

Wenn Sie nur bestimmte Seiten umwandeln wollen, z. B. die Seiten 2 bis 5, geben Sie ein:

python main.py 2 5 < tests/input.pdf > output.md

Die erste Zahl ist die Anfangsseite und die zweite die Endseite. Die Seitenzahlen werden von 1 an gezählt.

Betrieb mit Docker

Sie möchten keine Python-Umgebung installieren? Stellen Sie sicher, dass Sie Docker auf Ihrem Computer haben und führen Sie es aus:

docker run -i -e OPENAI_API_KEY=<你的API密钥> jorben/markpdfdown < tests/input.pdf > output.md

Dadurch wird die Datei direkt durch den Docker-Container konvertiert.

Funktionen

Kernfunktionen: PDF zu Markdown
Ziehen Sie die PDF-Datei in das Befehlszeilenfenster oder geben Sie direkt den Dateipfad ein, und das Tool analysiert automatisch den Inhalt. Der Titel wird zu #und## usw., besteht die Liste aus - wird durch die Tabelle dargestellt, und die Tabelle wird im Markdown-Tabellenformat ausgegeben.
So kann beispielsweise eine PDF-Datei mit dem Titel "Einleitung" und dem Text "Dies ist der Inhalt" konvertiert werden:

# 简介
这是内容

Stapeldatei
Wenn es viele PDF-Dateien gibt, können Sie ein Skript schreiben, das den Befehl in einer Schleife aufruft. Zum Beispiel unter Linux:

for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done

Fehlersuche und Verbesserung
Konvertierungsergebnisse nicht zufriedenstellend? Stellen Sie eine Frage auf GitHub oder ändern Sie den Code selbst. Das Projekt ist in Python geschrieben, und die Logik befindet sich in der main.py Meile.

caveat

Der Dateipfad darf keine chinesischen Zeichen enthalten, andernfalls kann es zu einer Fehlermeldung kommen.
Der API-Schlüssel ist geheim zu halten und darf nicht an Dritte weitergegeben werden.
Die Verarbeitung großer Dateien kann mehr Zeit in Anspruch nehmen, so dass ein stabiles Netz gewährleistet ist.

Anwendungsszenario

akademische Forschung
Studenten oder Forscher müssen oft ihre Dissertations-PDF in Markdown konvertieren, um sich Notizen zu machen oder sie weiterzugeben.MarkPDFDown bewahrt die Struktur der Dissertation, wie Überschriften und Tabellen, für die direkte Bearbeitung in Markdown.
Dokumentation
Unternehmen haben viele PDF-Anleitungen oder Berichte, die sie in Markdown-Archive konvertieren möchten. Mit diesem Tool können Sie sie stapelweise konvertieren und dann auf GitHub oder Notion hochladen.
Technisches Schreiben
Wenn Sie technische Blogs schreiben, müssen Sie PDF-Materialien zitieren. Konvertieren Sie es direkt und fügen Sie es in Ihren Markdown-Editor ein, damit Sie es nicht manuell sortieren müssen.

QA

Brauche ich ein Netzwerk?
Ja. Das Tool basiert auf der API von OpenAI und muss vernetzt sein, um zu funktionieren.
Unterstützt es chinesische PDF-Dateien?
Unterstützung. Solange die PDF-Datei im Textformat vorliegt (kein gescanntes Bild), kann der chinesische Inhalt korrekt konvertiert werden.
Was ist, wenn ein Konvertierungsfehler auftritt?
Prüfen Sie, ob der API-Schlüssel korrekt ist oder ob die PDF-Datei beschädigt ist. Wenn das nicht funktioniert, gehen Sie zu GitHub und melden Sie einen Fehler.
Kann ich es offline verwenden?
Im Moment noch nicht. Lokale Modelle können in Zukunft unterstützt werden, aber im Moment muss es der Service von OpenAI sein.

Neueste AI-Ressourcen # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

NoneBot DeepSeek Plugin: Intelligenter Dialog für den Kundenservice basierend auf NoneBot & DeepSeek.

Neueste AI-Ressourcen # AI-Kundendienst-Roboter # AI Java Open Source Projekt

vor 7 Monaten

018.7K

Squibler - KI-Plattform zur Unterstützung des Schreibens von Romanen, die den gesamten Prozess von der Idee bis zur Erstellung vorantreibt

Neueste AI-Ressourcen

vor 4 Wochen

016K

Agent.exe: Lassen Sie die KI Ihren Computer direkt steuern, eine Open-Source-Implementierung von Claudes Kontrollcomputer

Neueste AI-Ressourcen # AI Java Open Source Projekt # Intelligente Desktop-Automatisierung

vor 9 Monaten

022.2K

Grep: ein Widget zum Durchsuchen von GitHub-Snippets in Echtzeit und zum schnellen Auffinden von KI-Code

Neueste AI-Ressourcen

vor 7 Monaten

018.9K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

MarkPDFDown: Konvertierung von PDF in Markdown basierend auf einem multimodalen Modell

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Wie zu verwenden

Ganze PDF-Dateien konvertieren

Konvertieren bestimmter Seiten einer PDF-Datei

Betrieb mit Docker

Funktionen

caveat

Anwendungsszenario

QA

Easy Dataset: Ein einfaches Tool zur Erstellung großer, fein abgestimmter Modelldatensätze

CortexON: Open-Source-Multi-Agenten-KI-Tool zur Unterstützung der Automatisierung von komplexen Aufgaben

Ähnliche Artikel

NoneBot DeepSeek Plugin: Intelligenter Dialog für den Kundenservice basierend auf NoneBot & DeepSeek.

Squibler - KI-Plattform zur Unterstützung des Schreibens von Romanen, die den gesamten Prozess von der Idee bis zur Erstellung vorantreibt

Agent.exe: Lassen Sie die KI Ihren Computer direkt steuern, eine Open-Source-Implementierung von Claudes Kontrollcomputer

Grep: ein Widget zum Durchsuchen von GitHub-Snippets in Echtzeit und zum schnellen Auffinden von KI-Code

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

MarkPDFDown: Konvertierung von PDF in Markdown basierend auf einem multimodalen Modell

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Wie zu verwenden

Ganze PDF-Dateien konvertieren

Konvertieren bestimmter Seiten einer PDF-Datei

Betrieb mit Docker

Funktionen

caveat

Anwendungsszenario

QA

Easy Dataset: Ein einfaches Tool zur Erstellung großer, fein abgestimmter Modelldatensätze

CortexON: Open-Source-Multi-Agenten-KI-Tool zur Unterstützung der Automatisierung von komplexen Aufgaben

Ähnliche Artikel

NoneBot DeepSeek Plugin: Intelligenter Dialog für den Kundenservice basierend auf NoneBot & DeepSeek.

Squibler - KI-Plattform zur Unterstützung des Schreibens von Romanen, die den gesamten Prozess von der Idee bis zur Erstellung vorantreibt

Agent.exe: Lassen Sie die KI Ihren Computer direkt steuern, eine Open-Source-Implementierung von Claudes Kontrollcomputer

Grep: ein Widget zum Durchsuchen von GitHub-Snippets in Echtzeit und zum schnellen Auffinden von KI-Code

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel