MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Recursos mais recentes de IAPublicado há 10 meses Círculo de compartilhamento de IA

2.9K 00

Introdução geral

O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ela é capaz de converter documentos PDF multimodais contendo imagens, fórmulas, tabelas e outros elementos em um formato Markdown fácil de analisar, o que melhora muito a eficiência da preparação de corpus de IA. O MinerU consiste em dois componentes principais: Magic-PDF e Magic-Doc, que são usados para processar documentos PDF e páginas da Web e eBooks, respectivamente. A ferramenta suporta operação em várias plataformas e é compatível com os sistemas Windows, Linux e macOS.

Experiência on-line do MinerU escopo do modelo cara de abraço

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

Lista de funções

Remoção automática de cabeçalhos, rodapés, notas de rodapé e números de página de PDFs
Preservar a estrutura e a formatação do documento original, como títulos, parágrafos, listas, etc.
Converta imagens e tabelas em documentos para a formatação Markdown
Converta fórmulas matemáticas em PDF para o formato LaTeX
Compatível com os sistemas operacionais Windows, Linux e macOS
Suporte para extração de conteúdo de páginas da Web e livros eletrônicos

Usando a Ajuda

Processo de instalação

Preparação ambiental::
- Certifique-se de que o Python 3.9 ou posterior esteja instalado em seu sistema.
- Recomenda-se um ambiente virtual (como o venv ou o conda) para evitar conflitos de dependência.

Instalação de dependências::

Crie um ambiente virtual usando o conda:

conda create -n MinerU python=3.10
conda activate MinerU

Ou use o venv:

python -m venv MinerU
source MinerU/bin/activate  # 在Linux或macOS上
MinerU\Scripts\activate  # 在Windows上

Instalar o Magic-PDF::
- Instale as dependências, especialmente o detectron2, que é um pacote com todos os recursos que é compilado e instalado. Use o seguinte comando para instalar o pacote pré-compilado detectron2 (somente Python 3.10):
```
pip install detectron2 --extra-index-url https://wheels.myhloli.com
```
- Instale o pacote com todos os recursos do Magic-PDF:
```
pip install magic-pdf[full]==0.6.2b1
```
Faça o download do arquivo de pesos do modelo::
- Faça o download do arquivo de pesos do modelo de acordo com as instruções na documentação do projeto e mova-o para um diretório com espaço suficiente em disco, de preferência um SSD.
Configurar o Magic-PDF::
- Copie o arquivo de configuração magic-pdf.template.json do diretório raiz do repositório para seu diretório de trabalho e renomeie-o como magic-pdf.json:
```
cp magic-pdf.template.json ~/magic-pdf.json
```
- Configure "models-dir" no arquivo magic-pdf.json para apontar para o diretório em que os pesos do modelo estão localizados:
```
{
  "models-dir": "/tmp/models"
}
```
Configuração da aceleração (se necessário)::
- Se você tiver uma GPU Nvidia disponível ou usar um Mac com Apple Silicon, poderá usar CUDA ou MPS para aceleração. Para CUDA, instale a versão do PyTorch que corresponde à sua versão do CUDA:
```
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
```
- Modifique o valor de "device-mode" no arquivo de configuração magic-pdf.json para ativar a aceleração.

Usando o Magic-PDF

Use o Magic-PDF por meio da linha de comando:

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

Isso processará o arquivo PDF especificado e salvará o arquivo Markdown resultante no diretório /tmp/magic-pdf.

Usando o Magic-Doc

O processo de instalação e configuração do Magic-Doc é semelhante ao do Magic-PDF, mas os comandos específicos e os detalhes de configuração podem ser diferentes. Consulte a documentação do projeto para obter mais informações.