はじめに
VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルヒューマンプロジェクトで、エンドツーエンドの音声スキーム(GLM-4-Voice - THG)とカスケードスキーム(ASR-LLM-TTS-THG)をサポートしています。このプロジェクトでは、ユーザーがデジタルヒューマンのイメージと音色をカスタマイズすることができ、音色のクローニングと唇の同期、ビデオストリーミング出力、最初のパケット遅延は3秒と低い。ユーザーはオンライン・デモでその機能を体験したり、詳細な技術文書を通じてローカルに導入して使用することができる。
機能一覧
- リアルタイムの音声対話:エンド・ツー・エンドの音声ソリューションとカスケード・ソリューションのサポート
- カスタマイズされたイメージとトーン:デジタルパーソンのルックとサウンドをニーズに応じてカスタマイズすることができる。
- 音声クローニング:ユーザーの声のクローニングをサポートし、パーソナライズされた音声体験を提供する。
- 低遅延:最初のパケット遅延は3秒と短く、スムーズなインタラクションを実現
- オープンソースプロジェクト:オープンソース技術に基づき、ユーザーが自由に機能を変更・拡張できる。
ヘルプの使用
設置プロセス
- 環境設定
- オペレーティングシステム:Ubuntu 22.04
- Pythonバージョン:3.10
- CUDAバージョン:12.2
- トーチのバージョン: 2.1.2
- クローンプロジェクト
git lfs install git clone https://github.com/Henry-23/VideoChat.git cd video_chat
- 仮想環境の作成と依存関係のインストール
conda create -n metahuman python=3.10 conda metahumanをアクティブにする pip install -r requirements.txt pip install --upgrade gradio
- ウェイトファイルのダウンロード
- ダウンロードにはCreateSpaceを使うことをお勧めする。
git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
- サービス開始
python app.py
使用プロセス
- API-KEYの設定::
- ローカルマシンの性能に制限がある場合は、阿里雲のビッグモデルサービスプラットフォームである百錬が提供するQwen APIとCosyVoice APIを、ローカルマシン上で使用することができます。
app.py
でAPI-KEYを設定する。
- ローカルマシンの性能に制限がある場合は、阿里雲のビッグモデルサービスプラットフォームである百錬が提供するQwen APIとCosyVoice APIを、ローカルマシン上で使用することができます。
- 局所推論::
- API-KEYを使用しない場合は
src/llm.py
歌で応えるsrc/tts.py
不要なAPI呼び出しコードを削除するために、ローカル推論メソッドを設定する。
- API-KEYを使用しない場合は
- サービス開始::
- うごきだす
python app.py
サービスを開始する。
- うごきだす
- デジタル・ペルソナのカスタマイズ::
- ある
/データ/ビデオ
デジタル人体像の録画ビデオを追加するカタログ。 - 修正
/src/thg.py
を Muse_Talk クラスの avatar_list に追加し、画像名と bbox_shift を追加します。 - ある
app.py
Gradioのavatar_nameにデジタルペルソナの名前を追加したら、サービスを再起動し、初期化が完了するのを待ちます。
- ある
詳しい操作手順
- カスタマイズされたイメージとトーンで
/データ/ビデオ
ディレクトリにデジタル人体像の録画ビデオを追加する。src/thg.py
修正ミュゼトーク
クラスアバターリスト
画像名とbbox_shift
パラメーター - ボイスクローニングで
app.py
ミディアム構成CosyVoice API
またはエッジ_TTS
ローカル推論を行う。 - エンド・ツー・エンドの音声ソリューション使用
GLM-4-ボイス
効率的な音声生成と認識を提供するモデル。
- ローカルに配置されたサービスのアドレスにアクセスし、Gradioのインターフェイスに移動します。
- カスタムデジタルペルソナビデオを選択またはアップロードします。
- ボイスクローン機能を設定し、ユーザーのボイスサンプルをアップロードします。
- リアルタイムの音声対話を開始し、低遅延の対話機能を体験してください。