Introdução geral
O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. Ela extrai o corpo do texto de documentos digitalizados, remove itens diversos, como cabeçalhos e rodapés, e produz um arquivo Markdown limpo, que é particularmente adequado para organizar livros antigos ou materiais de pesquisa.
Lista de funções
- Converta PDF de livros digitalizados para o formato Markdown com suporte de processamento nativo.
- Extraia o conteúdo do corpo e filtre automaticamente os cabeçalhos, rodapés e números de página.
- Gerencie o texto entre as páginas e mantenha as frases coerentes.
- Oferece suporte a ilustrações e capturas de tela de tabelas, incorporadas em arquivos Markdown.
- Usar a IA para analisar o layout da página e organizar o texto na ordem de leitura.
- Expansível para o formato EPUB para gerar arquivos de livros eletrônicos.
Usando a Ajuda
O PDF Craft se concentra na digitalização de livros de PDF para Markdown. Aqui estão as etapas detalhadas de instalação e uso para ajudá-lo a começar rapidamente.
Processo de instalação
- Preparação do ambiente
Você precisará de um computador com o Python 3.8 ou superior instalado. Certifique-se de que haja espaço suficiente em seu disco rígido para armazenar os modelos de IA. - Código de download
Abra um terminal e digite o comando Clone Project:
git clone https://github.com/oomol-lab/pdf-craft.git
Em seguida, vá para o catálogo:
cd pdf-craft
- Instalação de dependências
Digite o seguinte comando para instalar as bibliotecas necessárias:
pip install -r requirements.txt
Se você tiver uma GPU, poderá adicionar suporte a CUDA:
pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
- Obtendo o modelo
Na primeira execução, a ferramenta fará o download automático do modelo de IA (por exemplo, DocLayout-YOLO). Mantendo a rede aberta, o modelo será salvo em<model_dir_path>
(pode ser definido no código).
fluxo de trabalho
Converter em Markdown
- Preparar PDF
Coloque os PDFs dos livros digitalizados em uma pasta como/path/to/pdf/book.pdf
. - conversão em tempo de execução
Digite o seguinte código no terminal:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
device="cpu"
Suporte a GPU: É executado na CPU. Leituras com suporte a GPUdevice="cuda:0"
.markdown_path
Caminho do arquivo Markdown de saída.image_dir
Catálogo de ilustrações salvas.
- Exibir resultados
Quando terminar, abra o/path/to/output.md
Verifique o conteúdo. As ilustrações são salvas automaticamente na pastaimages
Pasta.
Operação da função em destaque
- extração de texto
A ferramenta reconhece as páginas digitalizadas, elimina cabeçalhos e rodapés e mantém apenas o corpo do texto. Você não precisa limpar a bagunça manualmente. - processamento entre páginas
Se uma frase for truncada por uma quebra de página, o PDF Craft a conectará automaticamente para garantir que o texto flua sem problemas. - Incorporação de ilustrações
Imagens ou tabelas em livros digitalizados serão capturadas na tela e incorporadas ao Markdown.images
para encontrá-los.
dica
- A qualidade da digitalização do PDF deve ser clara, caso contrário, o reconhecimento pode estar errado.
- A primeira execução fará o download do modelo e, em seguida, ele estará disponível off-line.
- Se estiver lento, tente a aceleração da GPU ou reduza o número de páginas.
cenário do aplicativo
- Organizar livros antigos
Você tem PDFs digitalizados de livros antigos que deseja converter em Markdown para edição? O PDF Craft pode remover a bagunça e produzir arquivos limpos. - Conversão de dados de pesquisa
Os acadêmicos precisam converter documentos digitalizados em Markdown para fazer anotações. A ferramenta preserva o texto e as ilustrações para facilitar a citação. - Produção de e-books
Você deseja transformar PDFs digitalizados em documentos Markdown editáveis. O PDF Craft oferece soluções simples.
QA
- Ele suporta apenas a digitalização de PDFs?
Otimizado principalmente para PDFs de livros digitalizados. PDFs de texto normal funcionarão, mas provavelmente não tão bem quanto documentos digitalizados. - O que devo fazer com as imagens após a conversão?
A imagem é salva como uma captura de tela em uma pasta especificada, e o link é automaticamente incorporado ao Markdown. - Por que a primeira corrida é lenta?
Porque você precisa fazer o download do modelo de IA. Depois disso, fica mais rápido.