Allgemeine Einführung
MarkItDown ist ein von Microsoft entwickeltes Python-Tool, das verschiedene Dateien und Office-Dokumente in das Markdown-Format konvertieren kann. Das Tool unterstützt eine breite Palette von Dateitypen, darunter PDF, PowerPoint, Word, Excel, Bilder (EXIF-Metadaten und OCR), Audio (EXIF-Metadaten und Sprachtranskription), HTML (spezielle Behandlung von Wikipedia usw.) sowie andere Textformate (z. B. CSV, JSON, XML usw.).MarkItDowns Die API von MarkItDown ist so konzipiert, dass der Inhalt der Datei einfach in Markdown-Text umgewandelt werden kann, was für die Indexierung, Textanalyse und andere Operationen praktisch ist.
Funktionsliste
- Unterstützt die Konvertierung mehrerer Dateiformate: PDF, PowerPoint, Word, Excel, Bild, Audio, HTML, CSV, JSON, XML und so weiter.
- Benutzerfreundliche API: Die Dateikonvertierung ist mit einfachem Code möglich.
- Unterstützt EXIF-Metadaten und OCR-Verarbeitung: Extraktion von Metadaten und optische Zeichenerkennung für Bilder und Audiodateien.
- Spezielle Behandlung von HTML-Dateien: einschließlich der Behandlung von speziellen HTML-Dateien wie Wikipedia.
- Open-Source-Projekte: Beiträge und Vorschläge der Gemeinschaft sind gemäß dem Microsoft Open Source Code of Conduct willkommen.
Hilfe verwenden
Ablauf der Installation
- Stellen Sie sicher, dass die Python-Umgebung installiert ist (Python 3.6 und höher wird empfohlen).
- Installieren Sie die MarkItDown-Bibliothek mit pip:
pip install markitdown
Verwendung
- Importieren Sie die MarkItDown-Bibliothek:
von markitdown importieren MarkItDown
- Erzeugt ein MarkItDown-Objekt:
markitdown = MarkItDown()
- Konvertieren Sie die Datei:
Ergebnis = markitdown.convert("test.xlsx")
print(result.text_content)
Detaillierte Funktionsabläufe
PDF-Dateien konvertieren
- Geben Sie den Pfad der zu konvertierenden PDF-Datei an.
- ausnutzen
konvertieren
Methode für die Umwandlung:
Ergebnis = markitdown.convert("Beispiel.pdf")
print(result.text_content)
Word-Dokumente konvertieren
- Bereiten Sie den Pfad zu dem zu konvertierenden Word-Dokument vor.
- ausnutzen
konvertieren
Methode für die Umwandlung:
Ergebnis = markitdown.convert("Beispiel.docx")
print(result.text_content)
Verarbeitung von Bilddateien
- Bereiten Sie den Pfad zu der zu verarbeitenden Bilddatei vor.
- ausnutzen
konvertieren
Methode zur Extraktion von EXIF-Metadaten und OCR-Verarbeitung:
Ergebnis = markitdown.convert("Beispiel.jpg")
print(result.text_content)
Verarbeitung von Audiodateien
- Geben Sie den Pfad der zu verarbeitenden Audiodatei an.
- ausnutzen
konvertieren
Methode für die Extraktion von EXIF-Metadaten und die Transkription von Sprache:
Ergebnis = markitdown.convert("Beispiel.mp3")
print(result.text_content)
Besondere Behandlung von HTML-Dateien
- Bereiten Sie den Pfad zu der ausstehenden HTML-Datei vor.
- ausnutzen
konvertieren
Methode für die Umwandlung:
ergebnis = markitdown.convert("beispiel.html")
print(result.text_content)