Aprendizagem pessoal com IA
e orientação prática

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução geral

O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ela é capaz de converter documentos PDF multimodais contendo imagens, fórmulas, tabelas e outros elementos em um formato Markdown fácil de analisar, o que melhora muito a eficiência da preparação de corpus de IA. O MinerU consiste em dois componentes principais: Magic-PDF e Magic-Doc, que são usados para processar documentos PDF e páginas da Web e eBooks, respectivamente. A ferramenta suporta operação em várias plataformas e é compatível com os sistemas Windows, Linux e macOS.

Experiência on-line do MinerU escopo do modelo cara de abraço


 

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books-1

 

Lista de funções

  • Remoção automática de cabeçalhos, rodapés, notas de rodapé e números de página de PDFs
  • Preservar a estrutura e a formatação do documento original, como títulos, parágrafos, listas, etc.
  • Converta imagens e tabelas em documentos para a formatação Markdown
  • Converta fórmulas matemáticas em PDF para o formato LaTeX
  • Compatível com os sistemas operacionais Windows, Linux e macOS
  • Suporte para extração de conteúdo de páginas da Web e livros eletrônicos

 

Usando a Ajuda

Processo de instalação

  1. Preparação ambiental::
    • Certifique-se de que o Python 3.9 ou posterior esteja instalado em seu sistema.
    • Recomenda-se um ambiente virtual (como o venv ou o conda) para evitar conflitos de dependência.
  2. Instalação de dependências::
    • Crie um ambiente virtual usando o conda:
      conda create -n MinerU python=3.10
      conda activate MinerU
      
    • Ou use o venv:
      python -m venv MinerU
      fonte MinerU/bin/activate  # no Linux ou macOS
      MinerU\Scripts\activate  # no Windows
      
  3. Instalar o Magic-PDF::
    • Instale as dependências, especialmente o detectron2, que é um pacote com todos os recursos que é compilado e instalado. Use o seguinte comando para instalar o pacote pré-compilado detectron2 (somente Python 3.10):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Instale o pacote com todos os recursos do Magic-PDF:
      pip install magic-pdf[full]==0.6.2b1
      
  4. Faça o download do arquivo de pesos do modelo::
    • Faça o download do arquivo de pesos do modelo de acordo com as instruções na documentação do projeto e mova-o para um diretório com espaço suficiente em disco, de preferência um SSD.
  5. Configurar o Magic-PDF::
    • Copie o arquivo de configuração magic-pdf.template.json do diretório raiz do repositório para seu diretório de trabalho e renomeie-o como magic-pdf.json:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • Configure "models-dir" no arquivo magic-pdf.json para apontar para o diretório em que os pesos do modelo estão localizados:
      {
        "models-dir": "/tmp/models"
      }
      
  6. Configuração da aceleração (se necessário)::
    • Se você tiver uma GPU Nvidia disponível ou usar um Mac com Apple Silicon, poderá usar CUDA ou MPS para aceleração. Para CUDA, instale a versão do PyTorch que corresponde à sua versão do CUDA:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • Modifique o valor de "device-mode" no arquivo de configuração magic-pdf.json para ativar a aceleração.

Usando o Magic-PDF

Use o Magic-PDF por meio da linha de comando:

magic-pdf pdf-command --pdf "pdf_path" --inside_model verdadeiro

Isso processará o arquivo PDF especificado e salvará o arquivo Markdown resultante no diretório /tmp/magic-pdf.

Usando o Magic-Doc

O processo de instalação e configuração do Magic-Doc é semelhante ao do Magic-PDF, mas os comandos específicos e os detalhes de configuração podem ser diferentes. Consulte a documentação do projeto para obter mais informações.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil