Aprendizagem pessoal com IA
e orientação prática

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral

MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos do Office para o formato Markdown. A ferramenta oferece suporte a uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, imagens (metadados EXIF e OCR), áudio (metadados EXIF e transcrição de voz), HTML (tratamento especial da Wikipedia etc.), bem como outros formatos de texto (por exemplo, CSV, JSON, XML etc.). A API do MarkItDown foi projetada para ser simples, os usuários podem converter facilmente o conteúdo do arquivo em texto Markdown, conveniente para indexação, análise de texto e outras operações.

Endereço de experiência:Turn2Markdown


MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft para converter vários arquivos para o formato Markdown-1

 

Lista de funções

  • Suporta a conversão de vários formatos de arquivo: PDF, PowerPoint, Word, Excel, imagem, áudio, HTML, CSV, JSON, XML e assim por diante.
  • API fácil de usar: a conversão de arquivos é possível com um código simples.
  • Suporta metadados EXIF e processamento de OCR: extração de metadados e reconhecimento óptico de caracteres para imagens e arquivos de áudio.
  • Manuseio especial de arquivos HTML: incluindo o manuseio de arquivos HTML especiais, como a Wikipedia.
  • Projetos de código aberto: as contribuições e sugestões da comunidade são bem-vindas, seguindo o Código de Conduta de Código Aberto da Microsoft.

 

Usando a Ajuda

Segunda ferramenta de linha de comando da unidade: https://github.com/john88188/CTM

Processo de instalação

  1. Certifique-se de que o ambiente Python esteja instalado (recomenda-se o Python 3.6 ou superior).
  2. Instale a biblioteca MarkItDown usando o pip:
   pip install markitdown

Uso

  1. Importe a biblioteca MarkItDown:
   from markitdown import MarkItDown
  1. Cria um objeto MarkItDown:
   markitdown = MarkItDown()
  1. Converta o arquivo:
   resultado = markitdown.convert("test.xlsx")
print(result.text_content)

Fluxo de operação detalhado da função

Converter arquivos PDF

  1. Prepare o caminho do arquivo PDF a ser convertido.
  2. fazer uso deconvertermétodo de conversão:
   resultado = markitdown.convert("example.pdf")
print(result.text_content)

Converter documentos do Word

  1. Prepare o caminho para o documento do Word a ser convertido.
  2. fazer uso deconvertermétodo de conversão:
   resultado = markitdown.convert("example.docx")
print(result.text_content)

Processamento de arquivos de imagem

  1. Prepare o caminho para o arquivo de imagem a ser processado.
  2. fazer uso deconvertermétodo para extração de metadados EXIF e processamento de OCR:
   resultado = markitdown.convert("example.jpg")
print(result.text_content)

Processamento de arquivos de áudio

  1. Prepare o caminho do arquivo de áudio a ser processado.
  2. fazer uso deconvertermétodo para extração de metadados EXIF e transcrição de fala:
   resultado = markitdown.convert("example.mp3")
print(result.text_content)

Tratamento especial de arquivos HTML

  1. Prepare o caminho para o arquivo HTML a ser processado.
  2. fazer uso deconvertermétodo de conversão:
   resultado = markitdown.convert("example.html")
print(result.text_content)
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil