Introdução geral
O AI-reads-books-page-by-page é uma ferramenta inteligente de análise de livros em PDF desenvolvida com base em Python, que pode automatizar a análise página a página de livros em PDF, extrair pontos-chave de conhecimento e gerar resumos estágio a estágio após intervalos de páginas especificados. O projeto usa a tecnologia de IA para obter uma compreensão inteligente do conteúdo e a geração de resumos, o que pode ajudar os usuários a compreender rapidamente o conteúdo principal do livro. O sistema tem uma função de filtragem inteligente, que pode ignorar automaticamente as páginas do catálogo e do índice, e também suporta a continuação do ponto de interrupção, de modo que o processamento possa ser continuado a partir da posição da última análise. A saída do projeto adota o formato Markdown, que é fácil de ler e compartilhar, e suporta o armazenamento persistente da base de conhecimento para garantir que os resultados da análise não sejam perdidos.
Lista de funções
- Automação da análise de livros em PDF e extração de conhecimento
- Compreensão de conteúdo orientada por IA e geração de resumo
- Resumos de progresso de marcos baseados em intervalos
- Sistema de repositório de base de conhecimento persistente
- Saída de resumo no formato Markdown
- Saída de terminal colorida para maior visibilidade
- Oferece suporte à leitura de pontos de interrupção de bases de conhecimento existentes
- Intervalos de análise e modos de teste configuráveis
- Filtragem inteligente de conteúdo (ignora automaticamente o índice, as páginas de índice, etc.)
- Gerenciamento da estrutura do catálogo de resultados regulamentados
- Armazenamento da base de conhecimento em formato JSON
- Suporte para seleção de modelos de IA personalizados
Usando a Ajuda
1. preparação ambiental
- Primeiro, verifique se você tem um ambiente Python instalado em seu sistema.
- Clonagem de projeto para local:
git clone https://github.com/echohive42/AI-reads-books-page-by-page cd AI-reads-books-page-by-page
- Instale os pacotes de dependência:
pip install -r requirements.txt
2. configuração básica
Os seguintes parâmetros principais precisam ser configurados antes do uso:
- Coloque o arquivo PDF a ser analisado no diretório raiz do projeto.
- show (um ingresso)
ler_livros.py
modifique a seguinte configuração:PDF_NAME
Defina o nome do arquivo PDF como seuINTERVALO_DE_ANÁLISE
Configuração do intervalo de análise (número de páginas)PÁGINAS DE TESTE
Configuração do número de páginas de teste (opcional)MODELO
Seleção de modelos de IA para processamento de páginasMODELO DE ANÁLISE
Seleção de modelos de IA para geração de análises
3. descrição da estrutura do catálogo
O programa cria automaticamente a seguinte estrutura de diretórios:
book_analysis/knowledge_bases/
Armazenamento de arquivos da base de conhecimento no formato JSONbook_analysis/summaries/
Armazenamento de arquivos de resumo no formato Markdownbook_analysis/pdfs/
Armazenamento de cópias de arquivos PDF
4. executar o programa
python ler_livros.py
5. descrição do uso de funções avançadas
- Controle de análise de intervalo
- configurar
ANALYSIS_INTERVAL = Nenhum
Resumo dos intervalos que podem ser fechados - A definição de um valor específico (por exemplo, 20) gera um resumo para cada 20 páginas processadas
- configurar
- padrão de teste
- configurar
TEST_PAGES = Nenhum
Manuseio de livros inteiros - A definição de um número específico de páginas permite a realização de testes parciais
- configurar
- retomar a leitura após uma pausa
- O programa salva automaticamente o progresso do processamento
- Ao reiniciar o programa, ele continuará a partir da última posição processada.
- Gerenciamento de arquivos de saída
- Os pontos de conhecimento são armazenados em arquivos JSON
- O documento de resumo está no formato Markdown
- Os nomes dos arquivos incluem registros de data e hora para controle de versão
- Análises personalizadas
- Parâmetros ajustáveis do modelo de IA
- Suporte para configurar a profundidade e a forma de análise
- Formato de saída e local de armazenamento personalizáveis
6. cuidados
- Garantir que os arquivos PDF sejam formatados corretamente para evitar criptografia ou corrupção
- Recomenda-se fazer testes em pequena escala ao processar PDFs grandes
- Backup regular dos documentos da base de conhecimento
- Ajuste dos intervalos de análise às necessidades reais
- Monitorar o uso de recursos do sistema