はじめに
MockingBirdは、AI技術によって高速な音声クローンと音声合成を実現することを目的としたオープンソースプロジェクトである。ユーザーは5秒間の音声サンプルを提供するだけで、あらゆる音声コンテンツを生成することができる。MockingBirdはPyTorchフレームワークを使用し、開発者や研究者向けに使いやすいツールと詳細なインストール手順を提供している。
機能一覧
- 音声クローニング:5秒間の音声サンプルから任意の音声コンテンツを生成
- 音声合成:テキストを入力し、対応する音声を生成する
- 多言語サポート:北京語と複数の中国語データセットをサポート
- クロスプラットフォーム動作:WindowsとLinuxシステムに対応
- リアルタイム処理:リアルタイムの音声生成を提供
- オープンソース・コード:二次開発や研究を容易にするためにコードが公開されている。
ヘルプの使用
設置プロセス
- 環境準備::
- Python 3.7以降をインストールする。
- PyTorchをインストールする(バージョン1.9.0推奨)。
- ffmpegをインストールする。
- ダウンロード・プロジェクト::
- MockingBirdプロジェクトのアドレスを開き、緑の "Code "ボタンをクリックし、"Download ZIP "を選択してプロジェクトファイルをダウンロードする。
- またはgitコマンドを使ってダウンロードする:
git clone https://github.com/babysor/MockingBird.git
- 依存関係のインストール::
- プロジェクト・ディレクトリに移動し、以下を実行する。
pip install -r requirements.txt
必要なPythonパッケージをインストールする。 - 必要であれば、condaを使って仮想環境を作成し、依存関係をインストールすることができる:
conda env create -n env_name -f env.yml
そして環境をアクティブにする:condaはenv_nameをアクティブにする
.
- プロジェクト・ディレクトリに移動し、以下を実行する。
- 音声転写モデル
あなたが個別にダウンロードする必要がある場合は、メインファイルのサイズを小さくするために、サウンドモデルに音が含まれていない、に移動するにはクリックしてください。ダウンロードモデル(3G)
使用プロセス
- ランタイムツールボックス::
- うごきだす
demo_toolbox.py
をクリックしてツールボックス画面を開きます。 - ツールボックスで音声サンプルファイルを選択し、テキスト内容を入力して「生成」ボタンをクリックすると、対応する音声ファイルが生成されます。
- うごきだす
- トレーニングモデル::
- 独自のモデルをトレーニングする必要がある場合は、プロジェクトのトレーニングチュートリアルに従うことができます。
- トレーニングデータセットをダウンロードして準備し、以下を実行する。
train.py
トレーニングを開始する。 - トレーニングモデル用中国語ヘルプファイル
- リモートコール::
- MockingBirdはウェブサーバー機能を提供しており、生成された発話結果をリモート呼び出しで利用することができます。
- APIインターフェースを使用して呼び出されるウェブサーバーを設定し、起動する。
一般的な問題
- 設置失敗Pythonのバージョンが要件を満たしていることを確認し、PyTorchをインストールする際にはバージョンの互換性に注意してください。
- 声質音声サンプルの品質とトレーニングデータセットの豊富さは、生成音声の有効性に影響するため、トレーニングには高品質の音声サンプルと多様なデータセットを使用することが推奨されます。