OuteTTS: 実験的音声合成モデル、純粋な言語モデリングアプローチで実装されたTTS

76.7K 00

はじめに

OuteTTSは、純粋な言語モデリング・アプローチを用いて高品質の音声を生成する、実験的な音声合成（TTS）モデルです。従来のTTSシステムとは異なり、OuteTTSは外部アダプターや複雑なアーキテクチャを必要としません。OuteTTSは、幅広いアプリケーションシナリオに適したシンプルなアーキテクチャにより、効率的な音声合成を実現することを目指しています。

OuteTTS-0.1-350Mは、音声合成の簡素化を一歩前進させました。 OuteTTS-0.1-350Mは、純粋な言語モデリングアプローチにより、高品質の音声を生成できることを証明します。

機能一覧

音声合成入力されたテキストを自然で滑らかな音声に変換します。
ボイスクローニング音声ファイルを参照し、対応する音声を生成することで、カスタムスピーカーを作成できます。
マルチモデル対応ハギング・フェイス・モデルとGGUFモデルに対応。
オーディオの再生と保存生成された音声は、直接再生することも、音声ファイルとして保存することもできます。
温度とリピートペナルティ温度と反復ペナルティのパラメータを調整することで、生成される音声の多様性と滑らかさを制御します。

ヘルプの使用

設置プロセス

OuteTTSのインストール::
```
pip install outetts
```
重要：GGUFをサポートするには、手動で llama-cpp-python.をご覧ください。 llama-cpp-python 具体的な取り付け方法をご確認ください。

使用方法

インターフェースを初期化する::

from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
# 使用 Hugging Face 模型初始化接口
interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
# 或者使用 GGUF 模型初始化接口
# interface = InterfaceGGUF("path/to/model.gguf")

TTS出力を生成する::

output = interface.generate(
text="Hello, am I working?",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

生成されたオーディオの再生と保存::

# 播放生成的音频
output.play()
# 保存生成的音频到文件
output.save("output.wav")

ボイスクローニング

カスタムスピーカーの作成::

speaker = interface.create_speaker(
"path/to/reference.wav",
"reference text matching the audio"
)

スピーカーの保存と読み込み::

# 保存说话人到文件
interface.save_speaker(speaker, "speaker.pkl")
# 从文件加载说话人
speaker = interface.load_speaker("speaker.pkl")

カスタム・スピーチによるTTSの生成::

output = interface.generate(
text="This is a cloned voice speaking",
speaker=speaker,
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

パラメタリゼーション

温度生成される音声の多様性を制御する。低い温度（例えば0.1）ではより決定論的な出力が生成され、高い温度（例えば0.7）ではより多様な出力が生成される。
繰り返しペナルティ（repetition_penalty）生成されるスピーチの繰り返しのレベルを制御します。繰り返しペナルティを高くすると（例えば、1.1）、重複コンテンツの生成を減らすことができます。

以上の手順により、ユーザーはOuteTTSモデルを簡単にインストールし、音声合成や音声クローン作成に使用することができます。詳細なパラメータ調整と使用例は、ユーザーが特定のニーズに応じて高品質の音声出力を生成するのに役立ちます。