はじめに
PDF2Audioは、PDFファイルをポッドキャスト、講義、要約などの音声コンテンツに変換するために設計されたオープンソースプロジェクトです。このツールは、テキスト生成と音声合成にOpenAIのGPTモデルを活用しており、ユーザーは複数のPDFファイルをアップロードし、異なる指示テンプレート(ポッドキャスト、講義、要約など)を選択し、テキスト生成と音声モデルをカスタマイズすることができます。pdf2Audioは幅広い音声オプションを提供し、ユーザーはドラフトを編集してフィードバックを提供することで、音声コンテンツを繰り返し改善することができます。
おすすめの関連アイテムNotebookLM:知識ノート検索読書、マルチクラス文書生成音声対話ポッドキャスト
機能一覧
- 複数のPDFファイルをアップロードする
- さまざまなインストラクションテンプレート(ポッドキャスト、レクチャー、サマリーなど)を選択できます。
- カスタムテキスト生成とオーディオモデリング
- 別の音声を選択する
- ドラフトを編集し、フィードバックを提供することで、オーディオコンテンツを繰り返し改善する。
- ローカルでのインストールと使用をサポート
PDF2Audio インターフェース
PDF2Audioのインターフェイスは非常にシンプルで、手順は次のとおりです:
1.1つ以上のPDFファイルをアップロードする
2.希望のインストラクションテンプレートを選択する
3.必要に応じてカスタマイズされた指示テンプレート
4.オーディオコンテンツを作成するために、"Generate Audio "ボタンをクリックします。
ヘルプの使用
オンライン体験
https://huggingface.co/spaces/lamm-mit/PDF2Audio
https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb
現地設置プロセス
- クローン倉庫ターミナルで以下のコマンドを実行し、PDF2Audioリポジトリをクローンします:
ギット クローン https://github.com/lamm-mit/PDF2Audio.git cd PDF2Audio
- MinicondaのインストールMiniconda がまだインストールされていない場合は、Miniconda のウェブサイトからインストー ラーをダウンロードし、ご使用のオペレーティングシステムのインストール手順に従います。インストールが正常に行われたことを確認します:
conda --バージョン
- Conda環境の作成ターミナルで以下のコマンドを実行して、新しいConda環境を作る:
conda create -n pdf2audio python=3.9 conda pdf2audio をアクティブにする
- 依存関係のインストールターミナルで以下のコマンドを実行し、必要な依存関係をインストールする:
pip install -r requirements.txt
- OpenAI APIキーの設定を作成する。
環境
ファイルを作成し、OpenAI API キーを追加します:OPENAI_API_KEY=your_api_key_here
使用プロセス
- アプリケーションの実行プロジェクトディレクトリにいることと、Condaの環境が有効になっていることを確認してください:
condaはpdf2audioをアクティブにする python app.py
- ブラウザを開くURLはターミナルで提供される。
http://localhost:7860
URLがブラウザで開かれている場合、そのURLはブラウザで開かれる。 - PDFファイルのアップロードGradioのインターフェイスを使用して、1つまたは複数のPDFファイルをアップロードします。
- コマンドテンプレートの選択例:ポッドキャスト、講義、要約など)。
- カスタムコマンド必要に応じて指示をカスタマイズしてください。
- オーディオの生成オーディオを生成する "ボタンをクリックして、オーディオコンテンツを作成します。
ほら
- アプリの実行にはOpenAIのAPIキーが必要です。
- 草稿を編集し、具体的または一般的なフィードバックを提供することで、オーディオコンテンツを繰り返し改善することができます。