Introdução geral
O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. O Marker é capaz de remover conteúdo redundante, como cabeçalhos e rodapés, formatar tabelas e blocos de código, além de extrair e salvar imagens. Ele também converte a maioria das fórmulas para o formato LaTeX e suporta a execução em GPU, CPU ou MPS.
Lista de funções
- Converta arquivos PDF para o formato Markdown
- Suporte a vários tipos de documentos, incluindo livros e artigos científicos
- Remova o excesso de conteúdo, como cabeçalhos e rodapés
- Formatação de tabelas e blocos de código
- Extrair e salvar imagens
- Converta a maioria das equações para o formato LaTeX
- Suporta operação com GPU, CPU e MPS
Usando a Ajuda
Processo de instalação
- Instalação de dependênciasVerifique se o Python 3.6 ou superior está instalado e se as seguintes dependências estão instaladas:
pip install marker-pdf
- exemplo de execução::
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
Diretrizes para uso
Conversão de arquivos individuais
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
---batch_multiplier
é um múltiplo do tamanho do lote padrão se você tiver VRAM extra. Números maiores usarão mais VRAM, mas o processamento será mais rápido. A configuração padrão é 2. O tamanho do lote padrão requer aproximadamente 3 GB de VRAM.--max_pages
é o número máximo de páginas a serem processadas. A omissão desse item converterá o documento inteiro.--langs
é uma lista opcional, separada por vírgulas, de idiomas de documentos a serem usados para OCR. é opcional por padrão e precisa ser fornecido se o tesseract for usado.--ocr_all_pages
é um parâmetro opcional para forçar o OCR de todas as páginas do PDF; se esse parâmetro ou a variável de ambiente `OCR_ALL_PAGES` for verdadeira, o OCR será forçado.
Uma lista de idiomas compatíveis com o Surya OCR pode ser encontrada em [Aqui estão] encontrado. Se precisar de mais idiomas, você pode usar qualquer um dos idiomas suportados, basta definir o parâmetro OCR_ENGINE
definido como ocrmypdf
Se o OCR não for necessário, os marcadores poderão suportar qualquer idioma. Se o OCR não for necessário, o marcador poderá suportar qualquer idioma.
Converta vários arquivos
marcador /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000
--Trabalhadores
é o número de PDFs convertidos simultaneamente. A configuração padrão é 1, mas você pode aumentar esse valor para aumentar a taxa de transferência ao custo do aumento do uso da CPU/GPU. Cada processo de trabalho usará 5 GB de VRAM no pico e 3,5 GB em média.--Máximo
é o número máximo de PDFs a serem convertidos. Se esse item for omitido, todos os PDFs da pasta serão convertidos.--min_length
é o valor mínimo para o número de caracteres a serem extraídos em um PDF; somente PDFs acima desse valor serão considerados para processamento. Se estiver processando muitos PDFs, é recomendável definir esse valor para evitar o OCR de PDFs que são principalmente imagens (o que torna o processamento mais lento).---arquivo_de_metadados
é um caminho de arquivo JSON opcional que contém metadados sobre o PDF. Se fornecido, esse arquivo será usado para definir o idioma de cada PDF. A definição do idioma é opcional para o Surya (padrão), mas obrigatória para o Tesseract. O formato é o seguinte:
{ "pdf1.pdf": {"languages": ["English"]}, { "pdf2.pdf": {"idiomas": ["espanhol", "russo"]}, ... ... }
Você pode usar o nome do idioma ou o código. O código exato depende do mecanismo de OCR. Para obter uma lista completa dos códigos Surya, consulte [Aqui estão], para o Tesseract, consulte [Aqui estão]