Introdução geral
MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos do Office para o formato Markdown. A ferramenta oferece suporte a uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, imagens (metadados EXIF e OCR), áudio (metadados EXIF e transcrição de voz), HTML (tratamento especial da Wikipedia etc.), bem como outros formatos de texto (por exemplo, CSV, JSON, XML etc.). A API do MarkItDown foi projetada para ser simples, os usuários podem converter facilmente o conteúdo do arquivo em texto Markdown, conveniente para indexação, análise de texto e outras operações.
Endereço de experiência:Turn2Markdown
Lista de funções
- Suporta a conversão de vários formatos de arquivo: PDF, PowerPoint, Word, Excel, imagem, áudio, HTML, CSV, JSON, XML e assim por diante.
- API fácil de usar: a conversão de arquivos é possível com um código simples.
- Suporta metadados EXIF e processamento de OCR: extração de metadados e reconhecimento óptico de caracteres para imagens e arquivos de áudio.
- Manuseio especial de arquivos HTML: incluindo o manuseio de arquivos HTML especiais, como a Wikipedia.
- Projetos de código aberto: as contribuições e sugestões da comunidade são bem-vindas, seguindo o Código de Conduta de Código Aberto da Microsoft.
Usando a Ajuda
Segunda ferramenta de linha de comando da unidade: https://github.com/john88188/CTM
Processo de instalação
- Certifique-se de que o ambiente Python esteja instalado (recomenda-se o Python 3.6 ou superior).
- Instale a biblioteca MarkItDown usando o pip:
pip install markitdown
Uso
- Importe a biblioteca MarkItDown:
from markitdown import MarkItDown
- Cria um objeto MarkItDown:
markitdown = MarkItDown()
- Converta o arquivo:
resultado = markitdown.convert("test.xlsx")
print(result.text_content)
Fluxo de operação detalhado da função
Converter arquivos PDF
- Prepare o caminho do arquivo PDF a ser convertido.
- fazer uso de
converter
método de conversão:
resultado = markitdown.convert("example.pdf")
print(result.text_content)
Converter documentos do Word
- Prepare o caminho para o documento do Word a ser convertido.
- fazer uso de
converter
método de conversão:
resultado = markitdown.convert("example.docx")
print(result.text_content)
Processamento de arquivos de imagem
- Prepare o caminho para o arquivo de imagem a ser processado.
- fazer uso de
converter
método para extração de metadados EXIF e processamento de OCR:
resultado = markitdown.convert("example.jpg")
print(result.text_content)
Processamento de arquivos de áudio
- Prepare o caminho do arquivo de áudio a ser processado.
- fazer uso de
converter
método para extração de metadados EXIF e transcrição de fala:
resultado = markitdown.convert("example.mp3")
print(result.text_content)
Tratamento especial de arquivos HTML
- Prepare o caminho para o arquivo HTML a ser processado.
- fazer uso de
converter
método de conversão:
resultado = markitdown.convert("example.html")
print(result.text_content)