Introdução geral
O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ela é capaz de converter documentos PDF multimodais contendo imagens, fórmulas, tabelas e outros elementos em um formato Markdown fácil de analisar, o que melhora muito a eficiência da preparação de corpus de IA. O MinerU consiste em dois componentes principais: Magic-PDF e Magic-Doc, que são usados para processar documentos PDF e páginas da Web e eBooks, respectivamente. A ferramenta suporta operação em várias plataformas e é compatível com os sistemas Windows, Linux e macOS.
Experiência on-line do MinerU escopo do modelo cara de abraço
Lista de funções
- Remoção automática de cabeçalhos, rodapés, notas de rodapé e números de página de PDFs
- Preservar a estrutura e a formatação do documento original, como títulos, parágrafos, listas, etc.
- Converta imagens e tabelas em documentos para a formatação Markdown
- Converta fórmulas matemáticas em PDF para o formato LaTeX
- Compatível com os sistemas operacionais Windows, Linux e macOS
- Suporte para extração de conteúdo de páginas da Web e livros eletrônicos
Usando a Ajuda
Processo de instalação
- Preparação ambiental::
- Certifique-se de que o Python 3.9 ou posterior esteja instalado em seu sistema.
- Recomenda-se um ambiente virtual (como o venv ou o conda) para evitar conflitos de dependência.
- Instalação de dependências::
- Crie um ambiente virtual usando o conda:
conda create -n MinerU python=3.10 conda activate MinerU
- Ou use o venv:
python -m venv MinerU fonte MinerU/bin/activate # no Linux ou macOS MinerU\Scripts\activate # no Windows
- Crie um ambiente virtual usando o conda:
- Instalar o Magic-PDF::
- Instale as dependências, especialmente o detectron2, que é um pacote com todos os recursos que é compilado e instalado. Use o seguinte comando para instalar o pacote pré-compilado detectron2 (somente Python 3.10):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Instale o pacote com todos os recursos do Magic-PDF:
pip install magic-pdf[full]==0.6.2b1
- Instale as dependências, especialmente o detectron2, que é um pacote com todos os recursos que é compilado e instalado. Use o seguinte comando para instalar o pacote pré-compilado detectron2 (somente Python 3.10):
- Faça o download do arquivo de pesos do modelo::
- Faça o download do arquivo de pesos do modelo de acordo com as instruções na documentação do projeto e mova-o para um diretório com espaço suficiente em disco, de preferência um SSD.
- Configurar o Magic-PDF::
- Copie o arquivo de configuração magic-pdf.template.json do diretório raiz do repositório para seu diretório de trabalho e renomeie-o como magic-pdf.json:
cp magic-pdf.template.json ~/magic-pdf.json
- Configure "models-dir" no arquivo magic-pdf.json para apontar para o diretório em que os pesos do modelo estão localizados:
{ "models-dir": "/tmp/models" }
- Copie o arquivo de configuração magic-pdf.template.json do diretório raiz do repositório para seu diretório de trabalho e renomeie-o como magic-pdf.json:
- Configuração da aceleração (se necessário)::
- Se você tiver uma GPU Nvidia disponível ou usar um Mac com Apple Silicon, poderá usar CUDA ou MPS para aceleração. Para CUDA, instale a versão do PyTorch que corresponde à sua versão do CUDA:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- Modifique o valor de "device-mode" no arquivo de configuração magic-pdf.json para ativar a aceleração.
- Se você tiver uma GPU Nvidia disponível ou usar um Mac com Apple Silicon, poderá usar CUDA ou MPS para aceleração. Para CUDA, instale a versão do PyTorch que corresponde à sua versão do CUDA:
Usando o Magic-PDF
Use o Magic-PDF por meio da linha de comando:
magic-pdf pdf-command --pdf "pdf_path" --inside_model verdadeiro
Isso processará o arquivo PDF especificado e salvará o arquivo Markdown resultante no diretório /tmp/magic-pdf.
Usando o Magic-Doc
O processo de instalação e configuração do Magic-Doc é semelhante ao do Magic-PDF, mas os comandos específicos e os detalhes de configuração podem ser diferentes. Consulte a documentação do projeto para obter mais informações.