VideoChat：カスタムイメージとトーンクローニングによるリアルタイムの音声対話デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

はじめに

VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルヒューマンプロジェクトで、エンドツーエンドの音声スキーム（GLM-4-Voice - THG）とカスケードスキーム（ASR-LLM-TTS-THG）をサポートしています。このプロジェクトでは、ユーザーがデジタルヒューマンのイメージと音色をカスタマイズすることができ、音色のクローニングと唇の同期、ビデオストリーミング出力、最初のパケット遅延は3秒と低い。ユーザーはオンライン・デモでその機能を体験したり、詳細な技術文書を通じてローカルに導入して使用することができる。

デモアドレス：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

機能一覧

リアルタイムの音声対話：エンド・ツー・エンドの音声ソリューションとカスケード・ソリューションのサポート
カスタマイズされたイメージとトーン：デジタルパーソンのルックとサウンドをニーズに応じてカスタマイズすることができる。
音声クローニング：ユーザーの声のクローニングをサポートし、パーソナライズされた音声体験を提供する。
低遅延：最初のパケット遅延は3秒と短く、スムーズなインタラクションを実現
オープンソースプロジェクト：オープンソース技術に基づき、ユーザーが自由に機能を変更・拡張できる。

ヘルプの使用

設置プロセス

環境設定
- オペレーティングシステム：Ubuntu 22.04
- Pythonバージョン：3.10
- CUDAバージョン：12.2
- トーチのバージョン: 2.1.2

クローンプロジェクト

git lfs install
git clone https://github.com/Henry-23/VideoChat.git
cd video_chat

仮想環境の作成と依存関係のインストール

conda create -n metahuman python=3.10
conda metahumanをアクティブにする
pip install -r requirements.txt
pip install --upgrade gradio

ウェイトファイルのダウンロード
- ダウンロードにはCreateSpaceを使うことをお勧めする。
```
git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
```
サービス開始
```
python app.py
```

使用プロセス

API-KEYの設定::
- ローカルマシンの性能に制限がある場合は、阿里雲のビッグモデルサービスプラットフォームである百錬が提供するQwen APIとCosyVoice APIを、ローカルマシン上で使用することができます。app.pyでAPI-KEYを設定する。
局所推論::
- API-KEYを使用しない場合はsrc/llm.py歌で応えるsrc/tts.py不要なAPI呼び出しコードを削除するために、ローカル推論メソッドを設定する。
サービス開始::
- うごきだすpython app.pyサービスを開始する。
デジタル・ペルソナのカスタマイズ::
- ある/データ/ビデオデジタル人体像の録画ビデオを追加するカタログ。
- 修正/src/thg.pyを Muse_Talk クラスの avatar_list に追加し、画像名と bbox_shift を追加します。
- あるapp.pyGradioのavatar_nameにデジタルペルソナの名前を追加したら、サービスを再起動し、初期化が完了するのを待ちます。

詳しい操作手順

カスタマイズされたイメージとトーンで /データ/ビデオ ディレクトリにデジタル人体像の録画ビデオを追加する。 src/thg.py 修正 ミュゼトーク クラス アバターリスト画像名と bbox_shift パラメーター
ボイスクローニングで app.py ミディアム構成 CosyVoice API または エッジ_TTS ローカル推論を行う。
エンド・ツー・エンドの音声ソリューション使用 GLM-4-ボイス 効率的な音声生成と認識を提供するモデル。

ローカルに配置されたサービスのアドレスにアクセスし、Gradioのインターフェイスに移動します。
カスタムデジタルペルソナビデオを選択またはアップロードします。
ボイスクローン機能を設定し、ユーザーのボイスサンプルをアップロードします。
リアルタイムの音声対話を開始し、低遅延の対話機能を体験してください。

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ

VideoChat：カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

はじめに

機能一覧

ヘルプの使用

設置プロセス

使用プロセス

詳しい操作手順

関連記事

Wav2Lip: オープンソースの高精度リップシンク生成ツール（推奨）

DreamTalk：1枚のアバター画像で表情豊かなトーキングビデオを生成！

MuseV: 完全なデジタル人物ビデオ生成フレームワーク｜ポートレートからビデオへ｜ポーズからビデオへ｜リップシンク

VideoReTalking：音声駆動型リップシンクロ・ビデオ編集システム

tldraw: オープンソースの無制限キャンバス・ホワイトボードSDK、最小限のワイヤーフレームとUMLダイアグラムを生成するAI

AIを始めるための素人ガイド

おすすめ

有料大型モデルの無料使用

FLUX.1イメージジェネレーター（中国語入力対応）

新着情報

人気記事

ホットタグ

チーフAIシェアリングサークル