はじめに
OpenAI Edge TTSは、OpenAI互換のネイティブ音声合成(TTS)APIを提供するオープンソースプロジェクトです。OpenAI Edge TTSは、Microsoft Edgeのオンライン音声合成サービスを使用し、ユーザーが高品質の音声出力を生成できるようにします。OpenAI Edge TTSは、幅広い音声オプションと再生速度をサポートし、幅広い音声フォーマットを生成できます。OpenAI Edge TTSは、幅広い音声オプションと再生速度をサポートし、複数の音声フォーマットを生成することができます。このサービスはDockerやPython経由でデプロイでき、素早く簡単にアクセスできます。
関連アイテムedge-tts: 音声合成Pythonモジュール|無料音声合成サービス そしてEdge TTS Worker: Cloudflare、OpenAI互換フォーマット、パッケージ化されたウェブインターフェースを使用したMicrosoft音声合成APIの展開
機能一覧
- OpenAI対応エンドポイントOpenAI TTSエンドポイントと同じリクエスト構造と動作をサポートします。
- 複数の音声をサポートOpenAIの音声をEdge TTSの音声にマッピング。
- 柔軟なオーディオフォーマットMP3、Opus、AAC、FLAC、WAV、PCMや他の多くのオーディオフォーマットをサポートしています。
- 再生速度の調整が可能再生速度は0.25倍から4.0倍まで調整可能。
- エッジTTS音声の直接選択OpenAIの音声マッピングを使用するか、Edge TTSの音声を直接指定することができます。
ヘルプの使用
設置プロセス
Dockerを使ったデプロイ(推奨)
- クローン倉庫::
git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
- 環境変数ファイルの作成プロジェクトのルート・ディレクトリに作成
.env
ファイルには以下の変数が含まれている:
API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
- Docker Composeの実行::
docker compose up --build
バックグラウンドで実行するには -d
パラメーター
docker compose up -d
Pythonを使ったデプロイ
- クローン倉庫::
git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
- 仮想環境の設定::
python3 -m venv venv
source venv/bin/activate
- 依存関係のインストール::
pip install -r requirements.txt
- 環境変数ファイルの作成プロジェクトのルート・ディレクトリに作成
.env
ファイルには上記の変数が含まれている。 - オペレーション・サーバー::
python app/main.py
使用方法
- APIへのアクセスデプロイが完了すると、サーバーは次のように動作する。
http://localhost:5050
APIエンドポイントは、HTTPリクエストを送信することでアクセスできる。APIエンドポイントには、以下のようにHTTPリクエストを送ることでアクセスできる。/v1/audio/speech
. - スピーチの生成にPOSTリクエストを送る。
/v1/audio/speech
リクエスト・ボディには以下のJSONデータが含まれる:
{
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}
- 再生速度の調整修正
speed
パラメーターは0.25から4.0まで。 - 音声を選択使用
voice
パラメータは音声を指定します。alloy
,echo
,fable
,onyx
,nova
,shimmer
その他 - オーディオフォーマット使用
format
パラメータはオーディオフォーマットを指定します。mp3
,opus
,aac
,flac
,wav
,pcm
その他
以上の手順で、ユーザーは簡単にOpenAI Edge TTSサービスを導入・利用し、高品質の音声合成出力を生成することができます。