はじめに
GPT-SoVITSは、GPTモデルとSoVITSボイスチェンジャー技術を組み合わせたオープンソースの音声変換・合成ツールです。このツールは、0サンプルや少ないサンプル数での即時のテキスト音声変換や、わずか5秒間の音声サンプルでの音声スタイル移行をサポートしています。言語間サポート、内蔵トラック分離、その他便利な機能を備え、初心者でも簡単にパーソナライズされた音声モデルを作成できます。英語、日本語、中国語に対応し、WebUIツールセットと組み合わせることで、データの前処理からモデルのトレーニングまで、あらゆる作業を支援します。AI初心者もプロフェッショナルも、音声技術の魅力をここで体験できる。
機能一覧
- ゼロサンプルTTS:5秒間の音声サンプルを入力すると、すぐに音声合成を体験できます。
- サンプルレスTTS:1分間のトレーニングデータのみを使用してモデルを微調整し、音の類似性と臨場感を向上させます。
- 他言語サポート:現在、英語、日本語、韓国語、広東語、北京語を含む、トレーニングセットとは異なる言語の推論をサポートしています。
- WebUIツール:統合された音声伴奏分離、自動トレーニングセット分割、中国語ASRとテキストアノテーションにより、初心者がトレーニングデータとGPT/SoVITSモデルを作成するのに役立ちます。
ヘルプの使用
設置プロセス
Windowsユーザー
- 統合パッケージをダウンロードする。
- ダブルクリック
go-webui.bat
GPT-SoVITS-WebUIを起動します。 - インターフェイスのプロンプトに従ってください。
Linuxユーザー
- 仮想環境を作る:
conda create -n GPTSoVits python=3.9
- 仮想環境をアクティブにする:
GPTSoVitsを起動する
- 依存関係をインストールします:
バッシュ install.sh
macOSユーザー
- Xcodeコマンドラインツールをインストールする:
xcode-select --install
- FFmpegをインストールする:
brew install ffmpeg
- 仮想環境を作成し、依存関係をインストールする:
conda create -n GPTSoVits python=3.9 condaでGPTSoVitsをアクティブにする pip install -r requirements.txt
使用プロセス
- データ準備WebUI インターフェースにアップロードする 5 秒以上の音声サンプルを用意します。
- モデルトレーニングサンプル数ゼロまたは少ないモードを選択し、対応するトレーニングデータをアップロードします。
- おんせいひょうきテキストの内容を入力し、変換対象の音声サンプルを選択して、変換ボタンをクリックします。
- 結果のエクスポート変換が完了したら、オーディオファイルをダウンロードできます。
機能
- ゼロサンプルTTSWebUIインターフェイスで5秒間の音声サンプルをアップロードし、テキスト内容を入力して変換ボタンをクリックすると、対応する音声ファイルが生成されます。
- サンプル・レス・TTS生成された音声の類似性とリアリズムを向上させるために、モデルの微調整のために少なくとも1分間のトレーニングデータをアップロードしてください。
- クロスランゲージ・サポート異なる言語のテキストを選択すると、自動的に言語変換と音声生成が行われます。
- WebUIツール音声伴奏の分離、トレーニングセットの自動セグメンテーション、中国語ASR、テキストアノテーションなどの内蔵機能を使用して、データ処理とモデルトレーニングプロセスを簡素化します。