MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown
Últimos recursos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial 3.1K 00
Introducción general
MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta es compatible con una amplia gama de tipos de archivo, incluidos PDF, PowerPoint, Word, Excel, imágenes (metadatos EXIF y OCR), audio (metadatos EXIF y transcripción de voz), HTML (manejo especial de Wikipedia, etc.), así como otros formatos de texto (por ejemplo, CSV, JSON, XML, etc.). API de MarkItDown está diseñada para ser sencilla, los usuarios pueden convertir fácilmente el contenido del archivo en texto Markdown, conveniente para la indexación, el análisis de texto y otras operaciones.
Dirección de la experiencia:Turn2Markdown

Lista de funciones
- Admite la conversión de múltiples formatos de archivo: PDF, PowerPoint, Word, Excel, imagen, audio, HTML, CSV, JSON, XML, etc.
- API fácil de usar: la conversión de archivos es posible con un código sencillo.
- Admite metadatos EXIF y procesamiento OCR: extracción de metadatos y reconocimiento óptico de caracteres para imágenes y archivos de audio.
- Tratamiento especial de archivos HTML: incluye el tratamiento de archivos HTML especiales como Wikipedia.
- Proyectos de código abierto: las contribuciones y sugerencias de la comunidad son bienvenidas, siguiendo el Código de conducta de código abierto de Microsoft.
Utilizar la ayuda
Segunda herramienta de línea de comandos de la unidad: https://github.com/john88188/CTM
Proceso de instalación
- Asegúrese de que el entorno Python está instalado (se recomienda Python 3.6 o superior).
- Instala la librería MarkItDown usando pip:
pip install markitdown
Utilización
- Importe la biblioteca MarkItDown:
from markitdown import MarkItDown
- Crea un objeto MarkItDown:
markitdown = MarkItDown()
- Convierte el archivo:
result = markitdown.convert("test.xlsx")
print(result.text_content)
Flujo detallado de funcionamiento de las funciones
Convertir archivos PDF
- Prepare la ruta del archivo PDF que desea convertir.
- utilizar
convert
método de conversión:
result = markitdown.convert("example.pdf")
print(result.text_content)
Convertir documentos Word
- Prepare la ruta al documento Word que desea convertir.
- utilizar
convert
método de conversión:
result = markitdown.convert("example.docx")
print(result.text_content)
Tratamiento de archivos de imagen
- Prepare la ruta del archivo de imagen que se va a procesar.
- utilizar
convert
para la extracción de metadatos EXIF y el procesamiento OCR:
result = markitdown.convert("example.jpg")
print(result.text_content)
Procesamiento de archivos de audio
- Prepara la ruta del archivo de audio a procesar.
- utilizar
convert
método de extracción de metadatos EXIF y transcripción de voz:
result = markitdown.convert("example.mp3")
print(result.text_content)
Tratamiento especial de los archivos HTML
- Prepara la ruta del archivo HTML que se va a procesar.
- utilizar
convert
método de conversión:
result = markitdown.convert("example.html")
print(result.text_content)
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...