人工知能技術の急速な発展の中で、ボイスクローン技術も新たなブレークスルーを迎えた。RVCボイスチェンジャー "Flowers don't cry "の創始者とAIトーン変換技術Sovitsの開発者Rcellが共同開発したGPT-SoVITSの第二世代が正式にリリースされた。この先進的なボイスクローニングと音声合成ツールは、操作プロセスを簡素化するだけでなく、非常に少ないボイスサンプル数で素早くリアルな声をクローニングすることができます。
核となる強み:
- 高音質クローニング第2世代のGPT-SoVITSは、低音質の音声を処理する際に、より自然で滑らかなサウンドを生み出します。
- 多言語サポート中国語、英語、日本語、韓国語、広東語の多言語マルチモーション合成に対応。
- ゼロサンプルTTSと数ショットTTSボトムモードのトレーニングセットは5,000時間に拡張され、ゼロサンプル性能が大幅に向上しました。
- 統合ツール声帯分離、音声スライシング、ノイズ除去、中国語ASR、テキストアノテーションを含むUVR5のようなツールの統合は、トレーニングデータセットとモデルの作成プロセスを簡素化します。
- 最適化されたテキスト・フロントエンド第二世代の中国語と英語は、テキスト処理の精度を向上させるためにポリフォニーの最適化を取り入れています。
最終更新日
- 音声合成品質の向上V2バージョンは、低音質のリファレンス・オーディオ(特に高音域が著しく欠落し、音がこもっているウェブ・オーディオ)を最適化し、より良い音質を実現します。
- 拡張トレーニングセットトレーニングセットが5000時間に拡張され、よりリアルな音色のためのゼロサンプル性能が向上しました。
- 言語サポートの追加中国語、日本語、英語、韓国語、広東語の5言語間のクロスランゲージ合成に対応しました。
- テキスト・フロントエンドの改善V2バージョンでは、テキスト処理の精度を向上させるため、英語のポリフォニー最適化が追加されました。
- 新機能より良い混合言語スライシングを提供するために、スピーチレート調整と参照なしテキストモードを追加。
アプリケーションのシナリオ:
- パーソナライズされた音声アシスタントスマートアシスタントやチャットボット用にパーソナライズされた音声を作成し、ユーザー体験を向上させる。
- バーチャルキャラクターダビング(VCD)ゲーム、アニメーション、バーチャルリアリティのバーチャルキャラクターにリアルな音声を提供します。
- オーディオブック制作テキストコンテンツを音声に変換し、高品質のオーディオブックを作成します。
- アクセシビリティ視覚障害者や難読者のための音声合成サービス。
- ボイス・エンターテイメントなりすまし音声の制作、有名人の声マネなど、リッチなエンターテインメント体験を提供。
- 音声プライバシー保護ユーザーのプライバシーを保護するため、声のトーンを変更します。
- 音声あり聴覚障害者のために、音声を認識し理解しやすくするための音声補助。
Windowsローカル展開ワンクリック統合パック:
利用の敷居を下げるため、F5 AIコミュニティは、ユーザーが複雑な環境設定をすることなくすぐに使い始められるよう、第2世代のGPT-SoVITS統合パッケージのローカルワンクリックデプロイを開始しました。パッケージのダウンロードと解凍後、複雑な環境設定をすることなく、高品質な音声を素早く生成することができます。
GPT-SoVITSの第2世代のリリースは、サウンドクローン技術における新たな飛躍を意味します。GPT-SoVITSは、個人ユーザーと企業の双方に恩恵をもたらし、より便利で効率的なサウンド合成サービスを体験することができます。