Introdução geral
O AI-reads-books-page-by-page é uma ferramenta inteligente de análise de livros em PDF desenvolvida com base em Python, que pode automatizar a análise página a página de livros em PDF, extrair pontos-chave de conhecimento e gerar resumos estágio a estágio após intervalos de páginas especificados. O projeto usa a tecnologia de IA para obter uma compreensão inteligente do conteúdo e a geração de resumos, o que pode ajudar os usuários a compreender rapidamente o conteúdo principal do livro. O sistema tem uma função de filtragem inteligente, que pode ignorar automaticamente as páginas do catálogo e do índice, e também suporta a continuação do ponto de interrupção, de modo que o processamento possa ser continuado a partir da posição da última análise. A saída do projeto adota o formato Markdown, que é fácil de ler e compartilhar, e suporta o armazenamento persistente da base de conhecimento para garantir que os resultados da análise não sejam perdidos.
Lista de funções
- Automação da análise de livros em PDF e extração de conhecimento
- Compreensão de conteúdo orientada por IA e geração de resumo
- Resumos de progresso de marcos baseados em intervalos
- Sistema de repositório de base de conhecimento persistente
- Saída de resumo no formato Markdown
- Saída de terminal colorida para maior visibilidade
- Oferece suporte à leitura de pontos de interrupção de bases de conhecimento existentes
- Intervalos de análise e modos de teste configuráveis
- Filtragem inteligente de conteúdo (ignora automaticamente o índice, as páginas de índice, etc.)
- Gerenciamento da estrutura do catálogo de resultados regulamentados
- Armazenamento da base de conhecimento em formato JSON
- Suporte para seleção de modelos de IA personalizados
Usando a Ajuda
1. preparação ambiental
- Primeiro, verifique se você tem um ambiente Python instalado em seu sistema.
- Clonagem de projeto para local:
git clone https://github.com/echohive42/AI-reads-books-page-by-page cd AI-reads-books-page-by-page
- Instale os pacotes de dependência:
pip install -r requirements.txt
2. configuração básica
Os seguintes parâmetros principais precisam ser configurados antes do uso:
- Coloque o arquivo PDF a ser analisado no diretório raiz do projeto.
- show (um ingresso)
read_books.py
modifique a seguinte configuração:PDF_NAME
Defina o nome do arquivo PDF como seuANALYSIS_INTERVAL
Configuração do intervalo de análise (número de páginas)TEST_PAGES
Configuração do número de páginas de teste (opcional)MODEL
Seleção de modelos de IA para processamento de páginasANALYSIS_MODEL
Seleção de modelos de IA para geração de análises
3. descrição da estrutura do catálogo
O programa cria automaticamente a seguinte estrutura de diretórios:
book_analysis/knowledge_bases/
Armazenamento de arquivos da base de conhecimento no formato JSONbook_analysis/summaries/
Armazenamento de arquivos de resumo no formato Markdownbook_analysis/pdfs/
Armazenamento de cópias de arquivos PDF
4. executar o programa
python read_books.py
5. descrição do uso de funções avançadas
- Controle de análise de intervalo
- configurar
ANALYSIS_INTERVAL = None
Resumo dos intervalos que podem ser fechados - A definição de um valor específico (por exemplo, 20) gera um resumo para cada 20 páginas processadas
- configurar
- padrão de teste
- configurar
TEST_PAGES = None
Manuseio de livros inteiros - A definição de um número específico de páginas permite a realização de testes parciais
- configurar
- retomar a leitura após uma pausa
- O programa salva automaticamente o progresso do processamento
- Ao reiniciar o programa, ele continuará a partir da última posição processada.
- Gerenciamento de arquivos de saída
- Os pontos de conhecimento são armazenados em arquivos JSON
- O documento de resumo está no formato Markdown
- Os nomes dos arquivos incluem registros de data e hora para controle de versão
- Análises personalizadas
- Parâmetros ajustáveis do modelo de IA
- Suporte para configurar a profundidade e a forma de análise
- Formato de saída e local de armazenamento personalizáveis
6. cuidados
- Garantir que os arquivos PDF sejam formatados corretamente para evitar criptografia ou corrupção
- Recomenda-se fazer testes em pequena escala ao processar PDFs grandes
- Backup regular dos documentos da base de conhecimento
- Ajuste dos intervalos de análise às necessidades reais
- Monitorar o uso de recursos do sistema