综合介绍
AI-reads-books-page-by-page是一个基于Python开发的智能PDF书籍分析工具,它能够自动化地对PDF书籍进行逐页分析,提取关键知识点,并在指定页数间隔后生成阶段性总结。该项目采用AI技术实现了智能内容理解和摘要生成,可以帮助用户快速掌握书籍核心内容。系统具备智能过滤功能,能够自动跳过目录和索引页面,同时支持断点续读,可以从上次分析的位置继续处理。项目输出采用Markdown格式,便于阅读和分享,且支持持久化存储知识库,确保分析结果不会丢失。
功能列表
- 自动化PDF书籍分析和知识点提取
- AI驱动的内容理解和摘要生成
- 基于间隔的阶段性进度总结
- 持久化知识库存储系统
- Markdown格式的摘要输出
- 彩色终端输出提升可视性
- 支持断点续读现有知识库
- 可配置的分析间隔和测试模式
- 智能内容过滤(自动跳过目录、索引页等)
- 规范的输出目录结构管理
- JSON格式知识库存储
- 支持自定义AI模型选择
使用帮助
1. 环境准备
- 首先确保系统已安装Python环境
- 克隆项目到本地:
git clone https://github.com/echohive42/AI-reads-books-page-by-page cd AI-reads-books-page-by-page
- 安装依赖包:
pip install -r requirements.txt
2. 基础配置
在使用之前,需要配置以下关键参数:
- 将待分析的PDF文件放置在项目根目录
- 打开
read_books.py
文件,修改以下配置:PDF_NAME
:设置为您的PDF文件名ANALYSIS_INTERVAL
:设置分析间隔(页数)TEST_PAGES
:设置测试页数(可选)MODEL
:选择处理页面的AI模型ANALYSIS_MODEL
:选择生成分析的AI模型
3. 目录结构说明
程序会自动创建以下目录结构:
book_analysis/knowledge_bases/
:存储JSON格式的知识库文件book_analysis/summaries/
:存储Markdown格式的总结文件book_analysis/pdfs/
:存储PDF文件的副本
4. 运行程序
python read_books.py
5. 高级功能使用说明
- 间隔分析控制
- 设置
ANALYSIS_INTERVAL = None
可关闭间隔总结 - 设置具体数值(如20)则每处理20页生成一次总结
- 设置
- 测试模式
- 设置
TEST_PAGES = None
处理整本书 - 设置具体页数可进行部分测试
- 设置
- 断点续读
- 程序会自动保存处理进度
- 重启程序时会从上次处理位置继续
- 输出文件管理
- 知识点存储在JSON文件中
- 总结文件采用Markdown格式
- 文件名包含时间戳,便于版本管理
- 自定义分析
- 可调整AI模型参数
- 支持配置分析深度和方式
- 可自定义输出格式和存储位置
6. 注意事项
- 确保PDF文件格式正确,避免加密或损坏
- 处理大型PDF时建议先进行小规模测试
- 定期备份知识库文件
- 根据实际需求调整分析间隔
- 监控系统资源占用情况