Marker: ferramenta de código aberto para conversão rápida de PDF em Markdown

🚀 O DeepSeek está lento? Este site é gratuito! DeepSeek-R1 de sangue puroO sistema é suave e pode ser conectado em rede! Uso ilimitado!

Introdução geral

O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. O Marker é capaz de remover conteúdo redundante, como cabeçalhos e rodapés, formatar tabelas e blocos de código, além de extrair e salvar imagens. Ele também converte a maioria das fórmulas para o formato LaTeX e suporta a execução em GPU, CPU ou MPS.

Lista de funções

Converta arquivos PDF para o formato Markdown
Suporte a vários tipos de documentos, incluindo livros e artigos científicos
Remova o excesso de conteúdo, como cabeçalhos e rodapés
Formatação de tabelas e blocos de código
Extrair e salvar imagens
Converta a maioria das equações para o formato LaTeX
Suporta operação com GPU, CPU e MPS

Usando a Ajuda

Processo de instalação

Instalação de dependênciasVerifique se o Python 3.6 ou superior está instalado e se as seguintes dependências estão instaladas:
```
pip install marker-pdf
```

exemplo de execução::

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10

Diretrizes para uso

Conversão de arquivos individuais

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10

---batch_multiplier é um múltiplo do tamanho do lote padrão se você tiver VRAM extra. Números maiores usarão mais VRAM, mas o processamento será mais rápido. A configuração padrão é 2. O tamanho do lote padrão requer aproximadamente 3 GB de VRAM.
--max_pages é o número máximo de páginas a serem processadas. A omissão desse item converterá o documento inteiro.
--langs é uma lista opcional, separada por vírgulas, de idiomas de documentos a serem usados para OCR. é opcional por padrão e precisa ser fornecido se o tesseract for usado.
--ocr_all_pages é um parâmetro opcional para forçar o OCR de todas as páginas do PDF; se esse parâmetro ou a variável de ambiente `OCR_ALL_PAGES` for verdadeira, o OCR será forçado.

Uma lista de idiomas compatíveis com o Surya OCR pode ser encontrada em [Aqui estão] encontrado. Se precisar de mais idiomas, você pode usar qualquer um dos idiomas suportados, basta definir o parâmetro OCR_ENGINE definido como ocrmypdfSe o OCR não for necessário, os marcadores poderão suportar qualquer idioma. Se o OCR não for necessário, o marcador poderá suportar qualquer idioma.

Converta vários arquivos

marcador /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000

--Trabalhadores é o número de PDFs convertidos simultaneamente. A configuração padrão é 1, mas você pode aumentar esse valor para aumentar a taxa de transferência ao custo do aumento do uso da CPU/GPU. Cada processo de trabalho usará 5 GB de VRAM no pico e 3,5 GB em média.
--Máximo é o número máximo de PDFs a serem convertidos. Se esse item for omitido, todos os PDFs da pasta serão convertidos.
--min_length é o valor mínimo para o número de caracteres a serem extraídos em um PDF; somente PDFs acima desse valor serão considerados para processamento. Se estiver processando muitos PDFs, é recomendável definir esse valor para evitar o OCR de PDFs que são principalmente imagens (o que torna o processamento mais lento).
---arquivo_de_metadados é um caminho de arquivo JSON opcional que contém metadados sobre o PDF. Se fornecido, esse arquivo será usado para definir o idioma de cada PDF. A definição do idioma é opcional para o Surya (padrão), mas obrigatória para o Tesseract. O formato é o seguinte:

{
"pdf1.pdf": {"languages": ["English"]}, {
"pdf2.pdf": {"idiomas": ["espanhol", "russo"]}, ...
...
}

Você pode usar o nome do idioma ou o código. O código exato depende do mecanismo de OCR. Para obter uma lista completa dos códigos Surya, consulte [Aqui estão], para o Tesseract, consulte [Aqui estão]

Configuração das variáveis de ambiente do marcador no FastGPT

Para ativar o serviço de resolução personalizado, você precisa configurar as seguintes variáveis de ambiente no FastGPT:

CUSTOM_READ_FILE_URL=http://xxxx.com/v1/parse/file
CUSTOM_READ_FILE_EXTENSION=pdf

CUSTOM_READ_FILE_URL - o endereço de acesso do serviço de resolução personalizado, você precisa alterar o host para o endereço do serviço de resolução que você implantou, e o caminho permanece inalterado
CUSTOM_READ_FILE_EXTENSION - Especifica os sufixos de tipo de arquivo que são suportados para análise; vários tipos de arquivo são separados por vírgulas.

Verificar o efeito da análise

Após concluir a configuração, você pode verificar o efeito da análise seguindo as etapas abaixo:

Faça upload de um arquivo PDF na Base de Conhecimento e confirme o upload
Visualizar o registro do sistema (é necessário definir LOG_LEVEL para o nível info ou debug).
Você verá que o arquivo PDF analisado pelo Marker contém links de imagens completas, o que indica que a análise foi bem-sucedida.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

Conversão de arquivos individuais

Converta vários arquivos

Configuração das variáveis de ambiente do marcador no FastGPT

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA