PDF2Audio: PDFから音声への変換ツール、PDFからポッドキャストへ

61.4K 00

はじめに

PDF2Audioは、PDFファイルをポッドキャスト、講義、要約などの音声コンテンツに変換するために設計されたオープンソースプロジェクトです。このツールは、テキスト生成と音声合成にOpenAIのGPTモデルを活用しており、ユーザーは複数のPDFファイルをアップロードし、異なる指示テンプレート（ポッドキャスト、講義、要約など）を選択し、テキスト生成と音声モデルをカスタマイズすることができます。pdf2Audioは幅広い音声オプションを提供し、ユーザーはドラフトを編集してフィードバックを提供することで、音声コンテンツを繰り返し改善することができます。

機能一覧

複数のPDFファイルをアップロードする
さまざまなインストラクションテンプレート（ポッドキャスト、レクチャー、サマリーなど）を選択できます。
カスタムテキスト生成とオーディオモデリング
別の音声を選択する
ドラフトを編集し、フィードバックを提供することで、オーディオコンテンツを繰り返し改善する。
ローカルでのインストールと使用をサポート

PDF2Audio インターフェース

PDF2Audioのインターフェイスは非常にシンプルで、手順は次のとおりです：

1.1つ以上のPDFファイルをアップロードする
2.希望のインストラクションテンプレートを選択する

3.必要に応じてカスタマイズされた指示テンプレート
4.オーディオコンテンツを作成するために、"Generate Audio "ボタンをクリックします。

ヘルプの使用

オンライン体験

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

現地設置プロセス

クローン倉庫ターミナルで以下のコマンドを実行し、PDF2Audioリポジトリをクローンします：
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
MinicondaのインストールMiniconda がまだインストールされていない場合は、Miniconda のウェブサイトからインストーラーをダウンロードし、ご使用のオペレーティングシステムのインストール手順に従います。インストールが正常に行われたことを確認します：
```
conda --version
```
Conda環境の作成ターミナルで以下のコマンドを実行して、新しいConda環境を作る：
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
依存関係のインストールターミナルで以下のコマンドを実行し、必要な依存関係をインストールする：
```
pip install -r requirements.txt
```
OpenAI APIキーの設定を作成する。 .env ファイルを作成し、OpenAI API キーを追加します：
```
OPENAI_API_KEY=your_api_key_here
```

使用プロセス

アプリケーションの実行プロジェクトディレクトリにいることと、Condaの環境が有効になっていることを確認してください：
```
conda activate pdf2audio
python app.py
```
ブラウザを開くURLはターミナルで提供される。 http://localhost:7860URLがブラウザで開かれている場合、そのURLはブラウザで開かれる。
PDFファイルのアップロードGradioのインターフェイスを使用して、1つまたは複数のPDFファイルをアップロードします。
コマンドテンプレートの選択例：ポッドキャスト、講義、要約など）。
カスタムコマンド必要に応じて指示をカスタマイズしてください。
オーディオの生成オーディオを生成する "ボタンをクリックして、オーディオコンテンツを作成します。