はじめに
検索ベースの音声変換WebUIは、シンプルで使いやすいVITSベースの音声変換フレームワークです。Nカード、Aカード、Iカードアクセラレーションをサポートし、ウェブインタフェースとリアルタイム音声変換インタフェースを提供します。また、UVR5モデルを呼び出して、人間の声とバッキングボーカルを素早く分離し、最先端の人間の声ピッチ抽出アルゴリズムRMVPEを使用して、ミュートボイスの問題を解消することができます。
一番下のモデルは、オープンソースの高品質なVCTKトレーニングセットを50時間近く使用してトレーニングされており、著作権上の問題はない。
より大きなパラメーター、より大きなデータ、より良い結果、基本的に同等の推論スピード、より少ないトレーニングデータで、RVCv3のボトムモデルを楽しみにしていてほしい。
機能一覧
- わずか10分の音声データで独自の音声変換モデルをトレーニング
- 事前に訓練された音声変換モデルを使用して、複数のサンプルレートとトーンをサポートします。
- エンド・ツー・エンドの低遅延をサポートするウェブ・インターフェイスまたはリアルタイム音声変換インターフェイスを使用した音声変換
- UVR5モデリングを使用してボーカルとバッキングトラックを分離、複数のオーディオファイル形式に対応
- RMVPEアルゴリズムを使ってボーカルのピッチを抽出し、pytorch/onnx/DirectMLをサポートする。
ヘルプの使用
- このリポジトリをダウンロードまたはクローンし、必要な依存関係とプリモデルをインストールする。
- go-web.batまたはgo-realtime-gui.batを実行し、実行したいアクションを選択する。
- インターフェイスのプロンプトに従って、入力と出力の音声ファイルまたはデバイスを選択し、パラメータとオプションを調整します。
- 開始または停止をクリックして、音声変換をお楽しみください!