AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

OuteTTS: 実験的音声合成モデル、純粋な言語モデリングアプローチで実装されたTTS

はじめに

OuteTTSは、純粋な言語モデリング・アプローチを用いて高品質の音声を生成する、実験的な音声合成(TTS)モデルです。従来のTTSシステムとは異なり、OuteTTSは外部アダプターや複雑なアーキテクチャを必要としません。OuteTTSは、幅広いアプリケーションシナリオに適したシンプルなアーキテクチャにより、効率的な音声合成を実現することを目指しています。

OuteTTS-0.1-350Mは、音声合成の簡素化を一歩前進させました。 OuteTTS-0.1-350Mは、純粋な言語モデリングアプローチにより、高品質の音声を生成できることを証明します。

 

機能一覧

  • 音声合成入力されたテキストを自然で滑らかな音声に変換します。
  • ボイスクローニング音声ファイルを参照し、対応する音声を生成することで、カスタムスピーカーを作成できます。
  • マルチモデル対応ハギング・フェイス・モデルとGGUFモデルに対応。
  • オーディオの再生と保存生成された音声は、直接再生することも、音声ファイルとして保存することもできます。
  • 温度とリピートペナルティ温度と反復ペナルティのパラメータを調整することで、生成される音声の多様性と滑らかさを制御します。

 

ヘルプの使用

設置プロセス

  1. OuteTTSのインストール::
    pip install outetts
    

    重要:GGUFをサポートするには、手動で llama-cpp-python.をご覧ください。 llama-cpp-python 具体的な取り付け方法をご確認ください。

使用方法

  1. インターフェースを初期化する::
    from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
    # 使用 Hugging Face 模型初始化接口
    interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
    # 或者使用 GGUF 模型初始化接口
    # interface = InterfaceGGUF("path/to/model.gguf")
    
  2. TTS出力を生成する::
    output = interface.generate(
    text="Hello, am I working?",
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    
  3. 生成されたオーディオの再生と保存::
    # 播放生成的音频
    output.play()
    # 保存生成的音频到文件
    output.save("output.wav")
    

ボイスクローニング

  1. カスタムスピーカーの作成::
    speaker = interface.create_speaker(
    "path/to/reference.wav",
    "reference text matching the audio"
    )
    
  2. スピーカーの保存と読み込み::
    # 保存说话人到文件
    interface.save_speaker(speaker, "speaker.pkl")
    # 从文件加载说话人
    speaker = interface.load_speaker("speaker.pkl")
    
  3. カスタム・スピーチによるTTSの生成::
    output = interface.generate(
    text="This is a cloned voice speaking",
    speaker=speaker,
    temperature=0.1,
    repetition_penalty=1.1,
    max_length=4096
    )
    

パラメタリゼーション

  • 温度生成される音声の多様性を制御する。低い温度(例えば0.1)ではより決定論的な出力が生成され、高い温度(例えば0.7)ではより多様な出力が生成される。
  • 繰り返しペナルティ(repetition_penalty)生成されるスピーチの繰り返しのレベルを制御します。繰り返しペナルティを高くすると(例えば、1.1)、重複コンテンツの生成を減らすことができます。

以上の手順により、ユーザーはOuteTTSモデルを簡単にインストールし、音声合成や音声クローン作成に使用することができます。詳細なパラメータ調整と使用例は、ユーザーが特定のニーズに応じて高品質の音声出力を生成するのに役立ちます。

無断転載を禁じます:チーフAIシェアリングサークル " OuteTTS: 実験的音声合成モデル、純粋な言語モデリングアプローチで実装されたTTS
ja日本語