MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general

MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta es compatible con una amplia gama de tipos de archivo, incluidos PDF, PowerPoint, Word, Excel, imágenes (metadatos EXIF y OCR), audio (metadatos EXIF y transcripción de voz), HTML (manejo especial de Wikipedia, etc.), así como otros formatos de texto (por ejemplo, CSV, JSON, XML, etc.). API de MarkItDown está diseñada para ser sencilla, los usuarios pueden convertir fácilmente el contenido del archivo en texto Markdown, conveniente para la indexación, el análisis de texto y otras operaciones.

Dirección de la experiencia:Turn2Markdown

MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

 

Lista de funciones

  • Admite la conversión de múltiples formatos de archivo: PDF, PowerPoint, Word, Excel, imagen, audio, HTML, CSV, JSON, XML, etc.
  • API fácil de usar: la conversión de archivos es posible con un código sencillo.
  • Admite metadatos EXIF y procesamiento OCR: extracción de metadatos y reconocimiento óptico de caracteres para imágenes y archivos de audio.
  • Tratamiento especial de archivos HTML: incluye el tratamiento de archivos HTML especiales como Wikipedia.
  • Proyectos de código abierto: las contribuciones y sugerencias de la comunidad son bienvenidas, siguiendo el Código de conducta de código abierto de Microsoft.

 

Utilizar la ayuda

Segunda herramienta de línea de comandos de la unidad: https://github.com/john88188/CTM

Proceso de instalación

  1. Asegúrese de que el entorno Python está instalado (se recomienda Python 3.6 o superior).
  2. Instala la librería MarkItDown usando pip:
   pip install markitdown

Utilización

  1. Importe la biblioteca MarkItDown:
   from markitdown import MarkItDown
  1. Crea un objeto MarkItDown:
   markitdown = MarkItDown()
  1. Convierte el archivo:
   result = markitdown.convert("test.xlsx")
print(result.text_content)

Flujo detallado de funcionamiento de las funciones

Convertir archivos PDF

  1. Prepare la ruta del archivo PDF que desea convertir.
  2. utilizarconvertmétodo de conversión:
   result = markitdown.convert("example.pdf")
print(result.text_content)

Convertir documentos Word

  1. Prepare la ruta al documento Word que desea convertir.
  2. utilizarconvertmétodo de conversión:
   result = markitdown.convert("example.docx")
print(result.text_content)

Tratamiento de archivos de imagen

  1. Prepare la ruta del archivo de imagen que se va a procesar.
  2. utilizarconvertpara la extracción de metadatos EXIF y el procesamiento OCR:
   result = markitdown.convert("example.jpg")
print(result.text_content)

Procesamiento de archivos de audio

  1. Prepara la ruta del archivo de audio a procesar.
  2. utilizarconvertmétodo de extracción de metadatos EXIF y transcripción de voz:
   result = markitdown.convert("example.mp3")
print(result.text_content)

Tratamiento especial de los archivos HTML

  1. Prepara la ruta del archivo HTML que se va a procesar.
  2. utilizarconvertmétodo de conversión:
   result = markitdown.convert("example.html")
print(result.text_content)
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...