OpenAI Edge TTS: Edge TTSを使ったフリーの音声合成APIで、OpenAIのフォーマットと互換性があります。

71.3K 00

はじめに

OpenAI Edge TTSは、OpenAI互換のネイティブ音声合成（TTS）APIを提供するオープンソースプロジェクトです。OpenAI Edge TTSは、Microsoft Edgeのオンライン音声合成サービスを使用し、ユーザーが高品質の音声出力を生成できるようにします。OpenAI Edge TTSは、幅広い音声オプションと再生速度をサポートし、幅広い音声フォーマットを生成できます。OpenAI Edge TTSは、幅広い音声オプションと再生速度をサポートし、複数の音声フォーマットを生成することができます。このサービスはDockerやPython経由でデプロイでき、素早く簡単にアクセスできます。

OpenAI Edge TTS：利用 Edge TTS 的免费文本转语音API，兼容 OpenAI 格式

機能一覧

OpenAI対応エンドポイントOpenAI TTSエンドポイントと同じリクエスト構造と動作をサポートします。
複数の音声をサポートOpenAIの音声をEdge TTSの音声にマッピング。
柔軟なオーディオフォーマットMP3、Opus、AAC、FLAC、WAV、PCMや他の多くのオーディオフォーマットをサポートしています。
再生速度の調整が可能再生速度は0.25倍から4.0倍まで調整可能。
エッジTTS音声の直接選択OpenAIの音声マッピングを使用するか、Edge TTSの音声を直接指定することができます。

ヘルプの使用

設置プロセス

Dockerを使ったデプロイ（推奨）

クローン倉庫::

   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts

環境変数ファイルの作成プロジェクトのルート・ディレクトリに作成 .env ファイルには以下の変数が含まれている：

   API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True

Docker Composeの実行::

   docker compose up --build

バックグラウンドで実行するには -d パラメーター

   docker compose up -d

Pythonを使ったデプロイ

クローン倉庫::

   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts

仮想環境の設定::

   python3 -m venv venv
source venv/bin/activate

依存関係のインストール::

   pip install -r requirements.txt

環境変数ファイルの作成プロジェクトのルート・ディレクトリに作成 .env ファイルには上記の変数が含まれている。
オペレーション・サーバー::

   python app/main.py

使用方法

APIへのアクセスデプロイが完了すると、サーバーは次のように動作する。 http://localhost:5050APIエンドポイントは、HTTPリクエストを送信することでアクセスできる。APIエンドポイントには、以下のようにHTTPリクエストを送ることでアクセスできる。 /v1/audio/speech.
スピーチの生成にPOSTリクエストを送る。 /v1/audio/speechリクエスト・ボディには以下のJSONデータが含まれる：

   {
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}

再生速度の調整修正 speed パラメーターは0.25から4.0まで。
音声を選択使用 voice パラメータは音声を指定します。 alloy, echo, fable, onyx, nova, shimmer その他
オーディオフォーマット使用 format パラメータはオーディオフォーマットを指定します。 mp3, opus, aac, flac, wav, pcm その他