AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

ChatTTS:実際の人の話し声を模倣した音声生成モデル(ChatTTSワンクリックアクセラレーションパッケージ)

はじめに

ChatTTSは対話シナリオ用に設計された生成的音声モデルです。自然で表現力豊かな音声を生成し、多言語、複数話者をサポートし、対話型ダイアログに適しています。ChatTTSは、主に学術目的のさらなる研究開発をサポートするために、事前に訓練されたモデルを提供します。

 


ChatTTS:对话场景的生成语音模型-1

 

ChatTTS:对话场景的生成语音模型-1

 

機能一覧

  • 多言語サポート対応言語は中国語と英語で、今後さらに増やしていく予定です。
  • マルチトーカーサポート複数の話者の音声を生成できるため、インタラクティブな対話に適しています。
  • きめ細かなリズムコントロール笑い、ポーズ、間投詞などのリズミカルな特徴を予測し、コントロールすることができる。
  • 事前学習モデル更なる研究開発をサポートするため、40,000時間に及ぶ事前学習済みモデルを提供。
  • オープンソースこのコードはGitHubでオープンソースとして公開されています。

 

ヘルプの使用

設置プロセス

  1. プロジェクトコードの複製::
    git clone https://github.com/2noise/ChatTTS.git
    
  2. 依存関係のインストール::
    cd ChatTTS
    pip install -r requirements.txt
    
  3. 訓練済みモデルのダウンロードHuggingFaceまたはModelScopeから訓練済みモデルをダウンロードし、指定されたディレクトリに置きます。

使用方法

  1. 積載モデル::
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. スピーチの生成::
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. オーディオファイルの保存::
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

詳細な機能操作

  • テキスト入力中国語と英語の混在したテキスト入力をサポートします。
  • リズムコントロール笑い、間、間投詞などの韻の特徴は、パラメータを設定することで制御できます。
  • トーンコントロールトーン・シード値やトーン・コードによって、発生する音色をコントロールすることができます。
  • 感情コントロール感情のボラティリティと関連性のパラメータを設定することで、生成される音声の感情特性を制御します。
  • ストリーミング出力複雑な対話シナリオのための長い音声生成と文字ベースの読み上げをサポートします。

サンプルコード

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

ChatTTS クライアント

クイック・エクスペリエンス

ウェブアドレス 類型論
オリジナル・ウェブ オリジナル・ウェブ・エクスペリエンス
フォージ・ウェブ 強化された経験を鍛える
リナックス Pythonインストーラー
サンプル トーンシードの例
クローニング トーンクローニング体験

 

機能強化

スポーツイベント 輝点
jianchang512/ChatTTS-ui サードパーティのアプリケーションから呼び出せるAPIインターフェースを提供する。
6drf21e/ChatTTS_colab 長時間の音声生成とスプリット・ロール・リーディングに対応したストリーミング出力を提供
lenML/ChatTTS-Forge|電子書籍で漫画(マンガ)を読むならコミック.jp ボーカルの強調とバックグラウンド・ノイズの低減、キュー・ワードの追加
CCmahua/ChatTTSエンハンスド バッチファイル処理とSRTファイルのエクスポートに対応。
HKoon/ChatTTS-オープンボイス フィット オープンボイス サウンドクローニングの実行

 

機能拡張

スポーツイベント 輝点
6drf21e/ChatTTS_スピーカー トーンキャラクターマーキングと安定性評価
AIFSH/ComfyUI-ChatTTS ComfyUi ワークフローノードとして導入できる。
マテリアルシャドウ/ChatTTS-manager トーンマネジメントシステムとWebUIインターフェイスが提供される。

 

ChatTTSPlus Accelerated ワンクリックインストールパッケージ

ChatTTSPlusは、ChatTTSの拡張バージョンで、オリジナルにTensorRTアクセラレーション、音声クローニング、モバイルモデルのデプロイメントを追加したものです。使いやすく、Windowsのワンクリックインストーラを提供し、TensorRTで3倍以上の性能向上(Windows 3060 GPUで28トークン/秒から110トークン/秒)を達成しています。 ChatTTSPlusは、幅広いシナリオに対応するパワフルで使いやすい音声合成ツールであり、特に高いパフォーマンスと音声クローン機能を必要とするアプリケーションに強みを発揮します。

住所:https://github.com/warmshao/ChatTTSPlus

無断転載を禁じます:チーフAIシェアリングサークル " ChatTTS:実際の人の話し声を模倣した音声生成モデル(ChatTTSワンクリックアクセラレーションパッケージ)
ja日本語