综合介绍
Paper Reviewer 是一个开源项目,旨在从 arXiv 论文生成综合评审,并将其转化为博客文章。该项目为 Hugging Face 的 Daily Papers 网站提供支持,自动生成博客文章。通过使用 Python 脚本 collect.py 和 convert.py,用户可以收集论文评审并将其转化为固定设计模板的博客文章。
功能列表
特点: 1、内容处理上,可以阅读文本内容,提取论文中的图表、图片、表格 2、只要论文ID,全自动处理和生成,支持批量处理论文 3、支持定制化,AI解析工具、博客模版等。
- 生成综合评审:从给定的 arXiv 论文 ID 生成详细的评审。
- 转化为博客文章:将生成的评审内容转化为博客文章,遵循固定的设计模板。
- 支持多种 API:可选使用 Upstage 和 Gemini API 提取图像和视觉信息。
- 自动化流程:通过脚本自动化收集和转化过程,减少人工干预。
- 配置灵活:支持多种配置选项,用户可以根据需求进行调整。
使用帮助
安装流程
- 安装依赖:
- 使用 pip 安装项目所需的 Python 依赖:
pip install -r requirements.txt
- 安装 poppler 以便将 PDF 转换为图像:
- 对于 Ubuntu 用户,使用以下命令:
apt install poppler-utils
- 对于 macOS 用户,使用 Homebrew 安装:
brew install poppler
- 对于 Ubuntu 用户,使用以下命令:
- 使用 pip 安装项目所需的 Python 依赖:
- 设置环境变量:
- 设置 GEMINI_API_KEY(必需):
export GEMINI_API_KEY="your_gemini_api_key"
- 可选设置 Upstage 和 R2 的 API 密钥:
export UPSTAGE_API_KEY="your_upstage_api_key" export R2_ACCESS_KEY_ID="your_r2_access_key_id" export R2_SECRET_ACCESS_KEY="your_r2_secret_access_key" export R2_S3_ENDPOINT_URL="your_r2_s3_endpoint_url" export R2_DOMAIN_NAME="your_r2_domain_name"
- 设置 GEMINI_API_KEY(必需):
使用流程
- 收集论文评审:
- 运行 collect.py 脚本,生成给定 arXiv ID 的论文评审:
python collect.py --arxiv-id "your_arxiv_id" --stop-at-no-html
- 如果需要提取图像信息,可以使用 --use-upstage 选项:
python collect.py --arxiv-id "your_arxiv_id" --use-upstage
- 运行 collect.py 脚本,生成给定 arXiv ID 的论文评审:
- 转化为博客文章:
- 运行 convert.py 脚本,将收集的评审内容转化为博客文章:
python convert.py --arxiv-id "your_arxiv_id" --template "your_template_file"
- 如果需要上传图像到 R2,可以使用 --upload-images-r2 选项:
python convert.py --arxiv-id "your_arxiv_id" --upload-images-r2
- 运行 convert.py 脚本,将收集的评审内容转化为博客文章:
注意事项
- 模板自定义:博客文章遵循固定的设计模板,如果需要自定义设计,需要自行修改模板文件。
- 成本控制:建议使用 --stop-at-no-html 选项,以减少处理没有 HTML 页面的论文时的成本。
- API 使用:Upstage 和 Gemini API 提供了更准确的图像信息提取,但可能会产生额外费用。
通过以上步骤,用户可以轻松地从 arXiv 论文生成综合评审,并将其转化为博客文章,适用于学术研究和博客写作等多种场景。