はじめに
クローンボイスはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーは任意のサウンドまたは個人的なボイス録音を使用してボイスをクローンすることができます。このツールは使いやすく、NVIDIA GPUがなくてもコンパイル済みのアプリケーションでローカルに実行できます。中国語、英語、日本語、韓国語、フランス語、ドイツ語、イタリア語など16言語を含む多言語をサポートしています。マイクで音声を録音したり、音声ファイルをアップロードして変換することができます。
機能一覧
- テキストからサウンドへ:テキストを入力するか、字幕ファイルをインポートして、指定した音色の音声を生成します。
- サウンドからサウンドへ:オーディオファイルをアップロードするか、オンラインでサウンドを録音し、指定された音色に変換します。
- 多言語サポート:16言語の音声合成と変換をサポート。
- 使いやすさ:NVIDIA GPUは不要で、コンパイル済みバージョンをダウンロードして使用します。
- オンライン録音:マイクを通して音を録音し、リアルタイムで変換。
- モデルダウンロード:様々なニーズに対応するために、様々なモデルダウンロードオプションを提供します。
ヘルプの使用
設置プロセス
- の使用(他のシステムは、ソースコードを展開することができます)のウィンドウのプリコンパイルバージョンをダウンロードする
- インタビュー リリースページ 最新のコンパイル済みバージョンとモデルファイルをダウンロードしてください。
- ダウンロードし、指定のディレクトリに解凍する。
E:/clone-voice
.
- アプリケーションの実行::
- ダブルクリック
アプリエグゼ
ウェブインターフェイスが自動的に開きます。 - CMDウィンドウのプロンプトを注意深く読んでください。
- ダブルクリック
- モデル構成::
- ダウンロードしたモデルファイルを
tts
フォルダの中
- ダウンロードしたモデルファイルを
使用プロセス
- テキストからサウンドへ::
- テキスト->サウンド]ボタンを選択し、テキストボックスにテキストを入力するか、字幕ファイルをクリックしてインポートします。
- 使用したいトーンを選択し、"Start Now "ボタンをクリックすると、音声ファイルが生成されます。
- 音から音へ::
- Sound->Sound]ボタンを選択し、変換する音声ファイルをアップロードします(mp3/wav/flac形式に対応)。
- 使用するサウンドファイル "ドロップダウン・ボックスからクローンしたい音色を選択するか、"ローカル・アップロード "ボタンをクリックして録音したサウンドファイルを選択します。
- Start Now」ボタンをクリックして、変換されたオーディオファイルを生成します。
- オンライン・レコーディング::
- 録音開始 "ボタンをクリックすると、マイクを通して5~20秒間の音声が録音されます。
- 録音後、"使用 "ボタンをクリックすると、音声が変換されます。
ソースコードの展開(Linux、Mac、Windows用)
- 環境設定::
- Python 3.9以上とgit-cmdツールをインストールする。
- 仮想環境を作成し、起動する:
python -m venv venv
属ソース venv/bin/activate
(Linux/Mac)またはvenvvScriptsactivate
(ウィンドウズ)。
- ソースコードのダウンロード::
- ターゲット・ディレクトリでCMDウィンドウを開き、以下のコマンドを実行する。
git clone https://github.com/jianchang512/clone-voice.git
.
- ターゲット・ディレクトリでCMDウィンドウを開き、以下のコマンドを実行する。
- 依存関係のインストール::
- はこびだす
pip install -r requirements.txt
必要な依存関係をインストールします。 - CUDAアクセラレーションが必要な場合は、既存のトーチをアンインストールし、CUDAをサポートするバージョンを再インストールしてください:
pip uninstall -y torch
属pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu121
.
- はこびだす
- アプリケーションの実行::
- はこびだす
python app.py
ウェブインターフェースを起動する。
- はこびだす