AI Personal Learning
und praktische Anleitung
豆包Marscode1

MarkItDown: Microsoft Document Intelligent Conversion Tool, konvertiert verschiedene Dateien in das Markdown-Format

Allgemeine Einführung

MarkItDown ist ein von Microsoft entwickeltes Python-Tool, das verschiedene Dateien und Office-Dokumente in das Markdown-Format konvertieren kann. Das Tool unterstützt eine breite Palette von Dateitypen, darunter PDF, PowerPoint, Word, Excel, Bilder (EXIF-Metadaten und OCR), Audio (EXIF-Metadaten und Sprachtranskription), HTML (spezielle Behandlung von Wikipedia usw.) sowie andere Textformate (z. B. CSV, JSON, XML usw.).MarkItDowns Die API von MarkItDown ist so konzipiert, dass der Inhalt der Datei einfach in Markdown-Text umgewandelt werden kann, was für die Indexierung, Textanalyse und andere Operationen praktisch ist.

Erfahrung Adresse:Turn2Markdown


MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式-1

 

Funktionsliste

  • Unterstützt die Konvertierung mehrerer Dateiformate: PDF, PowerPoint, Word, Excel, Bild, Audio, HTML, CSV, JSON, XML und so weiter.
  • Benutzerfreundliche API: Die Dateikonvertierung ist mit einfachem Code möglich.
  • Unterstützt EXIF-Metadaten und OCR-Verarbeitung: Extraktion von Metadaten und optische Zeichenerkennung für Bilder und Audiodateien.
  • Spezielle Behandlung von HTML-Dateien: einschließlich der Behandlung von speziellen HTML-Dateien wie Wikipedia.
  • Open-Source-Projekte: Beiträge und Vorschläge der Gemeinschaft sind gemäß dem Microsoft Open Source Code of Conduct willkommen.

 

Hilfe verwenden

Zweites Laufwerks-Befehlszeilentool: https://github.com/john88188/CTM

Einbauverfahren

  1. Stellen Sie sicher, dass die Python-Umgebung installiert ist (Python 3.6 und höher wird empfohlen).
  2. Installieren Sie die MarkItDown-Bibliothek mit pip:
   pip install markitdown

Verwendung

  1. Importieren Sie die MarkItDown-Bibliothek:
   from markitdown import MarkItDown
  1. Erzeugt ein MarkItDown-Objekt:
   markitdown = MarkItDown()
  1. Konvertieren Sie die Datei:
   result = markitdown.convert("test.xlsx")
print(result.text_content)

Detaillierte Funktionsabläufe

PDF-Dateien konvertieren

  1. Geben Sie den Pfad der zu konvertierenden PDF-Datei an.
  2. ausnutzenconvertMethode für die Umwandlung:
   result = markitdown.convert("example.pdf")
print(result.text_content)

Word-Dokumente konvertieren

  1. Bereiten Sie den Pfad zu dem zu konvertierenden Word-Dokument vor.
  2. ausnutzenconvertMethode für die Umwandlung:
   result = markitdown.convert("example.docx")
print(result.text_content)

Verarbeitung von Bilddateien

  1. Bereiten Sie den Pfad zu der zu verarbeitenden Bilddatei vor.
  2. ausnutzenconvertMethode zur Extraktion von EXIF-Metadaten und OCR-Verarbeitung:
   result = markitdown.convert("example.jpg")
print(result.text_content)

Verarbeitung von Audiodateien

  1. Geben Sie den Pfad der zu verarbeitenden Audiodatei an.
  2. ausnutzenconvertMethode für die Extraktion von EXIF-Metadaten und die Transkription von Sprache:
   result = markitdown.convert("example.mp3")
print(result.text_content)

Besondere Behandlung von HTML-Dateien

  1. Bereiten Sie den Pfad zu der zu verarbeitenden HTML-Datei vor.
  2. ausnutzenconvertMethode für die Umwandlung:
   result = markitdown.convert("example.html")
print(result.text_content)
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " MarkItDown: Microsoft Document Intelligent Conversion Tool, konvertiert verschiedene Dateien in das Markdown-Format
de_DEDeutsch