MarkItDown : Outil de conversion intelligent de Microsoft Document pour convertir divers fichiers au format Markdown

Introduction générale

MarkItDown est un outil Python développé par Microsoft et conçu pour convertir divers fichiers et documents bureautiques au format Markdown. L'outil prend en charge un large éventail de types de fichiers, notamment PDF, PowerPoint, Word, Excel, images (métadonnées EXIF et OCR), audio (métadonnées EXIF et transcription vocale), HTML (traitement spécial de Wikipedia, etc.), ainsi que d'autres formats de texte (par exemple CSV, JSON, XML, etc.).L'API de MarkItDown est conçue pour être simple. L'API de MarkItDown est conçue pour être simple, les utilisateurs peuvent facilement convertir le contenu du fichier en texte Markdown, ce qui est pratique pour l'indexation, l'analyse de texte et d'autres opérations.

Adresse de l'expérience :Turn2Markdown

MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

 

Liste des fonctions

  • Prise en charge de la conversion de plusieurs formats de fichiers : PDF, PowerPoint, Word, Excel, image, audio, HTML, CSV, JSON, XML, etc.
  • API facile à utiliser : la conversion de fichiers est possible avec un code simple.
  • Prise en charge des métadonnées EXIF et du traitement OCR : extraction des métadonnées et reconnaissance optique des caractères pour les images et les fichiers audio.
  • Traitement spécial des fichiers HTML : y compris le traitement des fichiers HTML spéciaux tels que Wikipedia.
  • Projets open source : les contributions et suggestions de la communauté sont les bienvenues, conformément au code de conduite Microsoft Open Source.

 

Utiliser l'aide

Deuxième outil de ligne de commande du lecteur : https://github.com/john88188/CTM

Processus d'installation

  1. Assurez-vous que l'environnement Python est installé (Python 3.6 et plus est recommandé).
  2. Installez la bibliothèque MarkItDown à l'aide de pip :
   pip install markitdown

Utilisation

  1. Importer la bibliothèque MarkItDown :
   from markitdown import MarkItDown
  1. Crée un objet MarkItDown :
   markitdown = MarkItDown()
  1. Convertir le fichier :
   result = markitdown.convert("test.xlsx")
print(result.text_content)

Fonction détaillée du déroulement des opérations

Convertir des fichiers PDF

  1. Préparez le chemin d'accès au fichier PDF à convertir.
  2. utiliserconvertpour la conversion :
   result = markitdown.convert("example.pdf")
print(result.text_content)

Convertir des documents Word

  1. Préparez le chemin d'accès au document Word à convertir.
  2. utiliserconvertpour la conversion :
   result = markitdown.convert("example.docx")
print(result.text_content)

Traitement des fichiers images

  1. Préparer le chemin d'accès au fichier image à traiter.
  2. utiliserconvertpour l'extraction des métadonnées EXIF et le traitement OCR :
   result = markitdown.convert("example.jpg")
print(result.text_content)

Traitement des fichiers audio

  1. Préparer le chemin du fichier audio à traiter.
  2. utiliserconvertpour l'extraction de métadonnées EXIF et la transcription vocale :
   result = markitdown.convert("example.mp3")
print(result.text_content)

Traitement spécial des fichiers HTML

  1. Préparer le chemin d'accès au fichier HTML en attente.
  2. utiliserconvertpour la conversion :
   result = markitdown.convert("example.html")
print(result.text_content)
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...