PDF2Audio：将PDF转换为音频的工具，PDF转播客

58.2K 00

综合介绍

PDF2Audio 是一个开源项目，旨在将 PDF 文件转换为音频内容，如播客、讲座和摘要。该工具利用 OpenAI 的 GPT 模型进行文本生成和文本到语音转换，用户可以上传多个 PDF 文件，选择不同的指令模板（如播客、讲座、摘要等），并自定义文本生成和音频模型。PDF2Audio 提供了多种语音选择，并允许用户通过编辑草稿和提供反馈来迭代改进音频内容。

推荐相关项目：NotebookLM：知识笔记检索阅读，多类文档生成语音对话播客

功能列表

上传多个 PDF 文件
选择不同的指令模板（播客、讲座、摘要等）
自定义文本生成和音频模型
选择不同的语音
通过编辑草稿和提供反馈迭代改进音频内容
支持在本地安装和使用

PDF2Audio 操作界面

PDF2Audio 的操作界面很简洁，操作步骤如下：

1.上传一个或多个 PDF 文件
2.选择所需的指令模板

3.如有需要，可自定义指令模板
4.点击 “生成音频” 按钮以创建音频内容

使用帮助

在线体验

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

本地安装流程

克隆仓库：在终端中运行以下命令克隆 PDF2Audio 仓库：
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
安装 Miniconda：如果尚未安装 Miniconda，请从 Miniconda 网站下载安装程序，并按照操作系统的安装说明进行安装。验证安装是否成功：
```
conda --version
```
创建 Conda 环境：在终端中运行以下命令创建新的 Conda 环境：
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
安装依赖项：在终端中运行以下命令安装所需的依赖项：
```
pip install -r requirements.txt
```
设置 OpenAI API 密钥：在项目根目录中创建一个 .env 文件，并添加你的 OpenAI API 密钥：
```
OPENAI_API_KEY=your_api_key_here
```

使用流程

运行应用程序：确保你在项目目录中，并且 Conda 环境已激活：
```
conda activate pdf2audio
python app.py
```
打开浏览器：在终端中会提供一个 URL，通常是 http://localhost:7860，在浏览器中打开该 URL。
上传 PDF 文件：使用 Gradio 界面上传一个或多个 PDF 文件。
选择指令模板：选择你想要的指令模板（如播客、讲座、摘要等）。
自定义指令：根据需要自定义指令。
生成音频：点击“生成音频”按钮，创建你的音频内容。