Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown

Introdução geral

O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. Ela extrai o corpo do texto de documentos digitalizados, remove itens diversos, como cabeçalhos e rodapés, e produz um arquivo Markdown limpo, que é particularmente adequado para organizar livros antigos ou materiais de pesquisa.

PDF Craft:PDF扫描文件转Markdown的开源工具-1


 

Lista de funções

  • Converta PDF de livros digitalizados para o formato Markdown com suporte de processamento nativo.
  • Extraia o conteúdo do corpo e filtre automaticamente os cabeçalhos, rodapés e números de página.
  • Gerencie o texto entre as páginas e mantenha as frases coerentes.
  • Oferece suporte a ilustrações e capturas de tela de tabelas, incorporadas em arquivos Markdown.
  • Usar a IA para analisar o layout da página e organizar o texto na ordem de leitura.
  • Expansível para o formato EPUB para gerar arquivos de livros eletrônicos.

 

Usando a Ajuda

O PDF Craft se concentra na digitalização de livros de PDF para Markdown. Aqui estão as etapas detalhadas de instalação e uso para ajudá-lo a começar rapidamente.

Processo de instalação

  1. Preparação do ambiente
    Você precisará de um computador com o Python 3.8 ou superior instalado. Certifique-se de que haja espaço suficiente em seu disco rígido para armazenar os modelos de IA.
  2. Código de download
    Abra um terminal e digite o comando Clone Project:
git clone https://github.com/oomol-lab/pdf-craft.git

Em seguida, vá para o catálogo:

cd pdf-craft
  1. Instalação de dependências
    Digite o seguinte comando para instalar as bibliotecas necessárias:
pip install -r requirements.txt

Se você tiver uma GPU, poderá adicionar suporte a CUDA:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. Obtendo o modelo
    Na primeira execução, a ferramenta fará o download automático do modelo de IA (por exemplo, DocLayout-YOLO). Mantendo a rede aberta, o modelo será salvo em <model_dir_path>(pode ser definido no código).

fluxo de trabalho

Converter em Markdown

  1. Preparar PDF
    Coloque os PDFs dos livros digitalizados em uma pasta como /path/to/pdf/book.pdf.
  2. conversão em tempo de execução
    Digite o seguinte código no terminal:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu"Suporte a GPU: É executado na CPU. Leituras com suporte a GPU device="cuda:0".
  • markdown_pathCaminho do arquivo Markdown de saída.
  • image_dirCatálogo de ilustrações salvas.
  1. Exibir resultados
    Quando terminar, abra o /path/to/output.md Verifique o conteúdo. As ilustrações são salvas automaticamente na pasta images Pasta.

Operação da função em destaque

  • extração de texto
    A ferramenta reconhece as páginas digitalizadas, elimina cabeçalhos e rodapés e mantém apenas o corpo do texto. Você não precisa limpar a bagunça manualmente.
  • processamento entre páginas
    Se uma frase for truncada por uma quebra de página, o PDF Craft a conectará automaticamente para garantir que o texto flua sem problemas.
  • Incorporação de ilustrações
    Imagens ou tabelas em livros digitalizados serão capturadas na tela e incorporadas ao Markdown. images para encontrá-los.

dica

  • A qualidade da digitalização do PDF deve ser clara, caso contrário, o reconhecimento pode estar errado.
  • A primeira execução fará o download do modelo e, em seguida, ele estará disponível off-line.
  • Se estiver lento, tente a aceleração da GPU ou reduza o número de páginas.

 

cenário do aplicativo

  1. Organizar livros antigos
    Você tem PDFs digitalizados de livros antigos que deseja converter em Markdown para edição? O PDF Craft pode remover a bagunça e produzir arquivos limpos.
  2. Conversão de dados de pesquisa
    Os acadêmicos precisam converter documentos digitalizados em Markdown para fazer anotações. A ferramenta preserva o texto e as ilustrações para facilitar a citação.
  3. Produção de e-books
    Você deseja transformar PDFs digitalizados em documentos Markdown editáveis. O PDF Craft oferece soluções simples.

 

QA

  1. Ele suporta apenas a digitalização de PDFs?
    Otimizado principalmente para PDFs de livros digitalizados. PDFs de texto normal funcionarão, mas provavelmente não tão bem quanto documentos digitalizados.
  2. O que devo fazer com as imagens após a conversão?
    A imagem é salva como uma captura de tela em uma pasta especificada, e o link é automaticamente incorporado ao Markdown.
  3. Por que a primeira corrida é lenta?
    Porque você precisa fazer o download do modelo de IA. Depois disso, fica mais rápido.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown
pt_BRPortuguês do Brasil