MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

2.7K 00

はじめに

MockingBirdは、AI技術によって高速な音声クローンと音声合成を実現することを目的としたオープンソースプロジェクトである。ユーザーは5秒間の音声サンプルを提供するだけで、あらゆる音声コンテンツを生成することができる。MockingBirdはPyTorchフレームワークを使用し、開発者や研究者向けに使いやすいツールと詳細なインストール手順を提供している。

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

機能一覧

音声クローニング：5秒間の音声サンプルから任意の音声コンテンツを生成
音声合成：テキストを入力し、対応する音声を生成する
多言語サポート：北京語と複数の中国語データセットをサポート
クロスプラットフォーム動作：WindowsとLinuxシステムに対応
リアルタイム処理：リアルタイムの音声生成を提供
オープンソース・コード：二次開発や研究を容易にするためにコードが公開されている。

ヘルプの使用

設置プロセス

環境準備::
- Python 3.7以降をインストールする。
- PyTorchをインストールする（バージョン1.9.0推奨）。
- ffmpegをインストールする。
ダウンロード・プロジェクト::
- MockingBirdプロジェクトのアドレスを開き、緑の "Code "ボタンをクリックし、"Download ZIP "を選択してプロジェクトファイルをダウンロードする。
- またはgitコマンドを使ってダウンロードする：git clone https://github.com/babysor/MockingBird.git
依存関係のインストール::
- プロジェクト・ディレクトリに移動し、以下を実行する。 pip install -r requirements.txt 必要なPythonパッケージをインストールする。
- 必要であれば、condaを使って仮想環境を作成し、依存関係をインストールすることができる：conda env create -n env_name -f env.ymlそして環境をアクティブにする：conda activate env_name.
音声転写モデル

あなたが個別にダウンロードする必要がある場合は、メインファイルのサイズを小さくするために、サウンドモデルに音が含まれていない、に移動するにはクリックしてください。ダウンロードモデル（3G）

使用プロセス

ランタイムツールボックス::
- うごきだす demo_toolbox.pyをクリックしてツールボックス画面を開きます。
- ツールボックスで音声サンプルファイルを選択し、テキスト内容を入力して「生成」ボタンをクリックすると、対応する音声ファイルが生成されます。
トレーニングモデル::
- 独自のモデルをトレーニングする必要がある場合は、プロジェクトのトレーニングチュートリアルに従うことができます。
- トレーニングデータセットをダウンロードして準備し、以下を実行する。 train.py トレーニングを開始する。
- トレーニングモデル用中国語ヘルプファイル
リモートコール::
- MockingBirdはウェブサーバー機能を提供しており、生成された発話結果をリモート呼び出しで利用することができます。
- APIインターフェースを使用して呼び出されるウェブサーバーを設定し、起動する。

一般的な問題

設置失敗Pythonのバージョンが要件を満たしていることを確認し、PyTorchをインストールする際にはバージョンの互換性に注意してください。
声質音声サンプルの品質とトレーニングデータセットの豊富さは、生成音声の有効性に影響するため、トレーニングには高品質の音声サンプルと多様なデータセットを使用することが推奨されます。