はじめに
OuteTTSは、純粋な言語モデリング・アプローチを用いて高品質の音声を生成する、実験的な音声合成(TTS)モデルです。従来のTTSシステムとは異なり、OuteTTSは外部アダプターや複雑なアーキテクチャを必要としません。OuteTTSは、幅広いアプリケーションシナリオに適したシンプルなアーキテクチャにより、効率的な音声合成を実現することを目指しています。
OuteTTS-0.1-350Mは、音声合成の簡素化を一歩前進させました。 OuteTTS-0.1-350Mは、純粋な言語モデリングアプローチにより、高品質の音声を生成できることを証明します。
機能一覧
- 音声合成入力されたテキストを自然で滑らかな音声に変換します。
- ボイスクローニング音声ファイルを参照し、対応する音声を生成することで、カスタムスピーカーを作成できます。
- マルチモデル対応ハギング・フェイス・モデルとGGUFモデルに対応。
- オーディオの再生と保存生成された音声は、直接再生することも、音声ファイルとして保存することもできます。
- 温度とリピートペナルティ温度と反復ペナルティのパラメータを調整することで、生成される音声の多様性と滑らかさを制御します。
ヘルプの使用
設置プロセス
- OuteTTSのインストール::
pip install outetts
重要:GGUFをサポートするには、手動で
llama-cpp-python
.をご覧ください。 llama-cpp-python 具体的な取り付け方法をご確認ください。
使用方法
- インターフェースを初期化する::
from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF #は、Hugging Faceモデルを使用してインターフェースを初期化します。 interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M") #またはGGUFモデル初期化インターフェースを使用します。 # interface = InterfaceGGUF("path/to/model.gguf")
- TTS出力を生成する::
output = interface.generate( text="Hello, am I working?"、 text="Hello am I working?", temperature=0.1、 repetition_penalty=1.1, max_length=4096 最大長=4096 )
- 生成されたオーディオの再生と保存::
# 生成された音声を再生する output.play() # 生成された音声をファイルに保存する output.save("output.wav")
ボイスクローニング
- カスタムスピーカーの作成::
speaker = interface.create_speaker( "path/to/reference.wav", "オーディオにマッチする参照テキスト", "オーディオにマッチする参照テキスト") "オーディオにマッチする参照テキスト" )
- スピーカーの保存と読み込み::
# スピーカーをファイルに保存する interface.save_speaker(speaker, "speaker.pkl") # ファイルからスピーカーをロード speaker = interface.load_speaker("speaker.pkl")
- カスタム・スピーチによるTTSの生成::
output = interface.generate( text="これはクローン音声です、 text="これはクローン音声です", speaker=speaker、 temperature=0.1、 repetition_penalty=1.1, max_length=4096 最大長=4096 )
パラメタリゼーション
- 温度生成される音声の多様性を制御する。低い温度(例えば0.1)ではより決定論的な出力が生成され、高い温度(例えば0.7)ではより多様な出力が生成される。
- 繰り返しペナルティ(repetition_penalty)生成されるスピーチの繰り返しのレベルを制御します。繰り返しペナルティを高くすると(例えば、1.1)、重複コンテンツの生成を減らすことができます。
以上の手順により、ユーザーはOuteTTSモデルを簡単にインストールし、音声合成や音声クローン作成に使用することができます。詳細なパラメータ調整と使用例は、ユーザーが特定のニーズに応じて高品質の音声出力を生成するのに役立ちます。