AIパーソナル・ラーニング
と実践的なガイダンス

VideoChat:カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

はじめに

VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルヒューマンプロジェクトで、エンドツーエンドの音声スキーム(GLM-4-Voice - THG)とカスケードスキーム(ASR-LLM-TTS-THG)をサポートしています。このプロジェクトでは、ユーザーがデジタルヒューマンのイメージと音色をカスタマイズすることができ、音色のクローニングと唇の同期、ビデオストリーミング出力、最初のパケット遅延は3秒と低い。ユーザーはオンライン・デモでその機能を体験したり、詳細な技術文書を通じてローカルに導入して使用することができる。

デモアドレス:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


 

機能一覧

  • リアルタイムの音声対話:エンド・ツー・エンドの音声ソリューションとカスケード・ソリューションのサポート
  • カスタマイズされたイメージとトーン:デジタルパーソンのルックとサウンドをニーズに応じてカスタマイズすることができる。
  • 音声クローニング:ユーザーの声のクローニングをサポートし、パーソナライズされた音声体験を提供する。
  • 低遅延:最初のパケット遅延は3秒と短く、スムーズなインタラクションを実現
  • オープンソースプロジェクト:オープンソース技術に基づき、ユーザーが自由に機能を変更・拡張できる。

 

ヘルプの使用

設置プロセス

  1. 環境設定
    • オペレーティングシステム:Ubuntu 22.04
    • Pythonバージョン:3.10
    • CUDAバージョン:12.2
    • トーチのバージョン: 2.1.2
  2. クローンプロジェクト
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. 仮想環境の作成と依存関係のインストール
    conda create -n metahuman python=3.10
    conda metahumanをアクティブにする
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. ウェイトファイルのダウンロード
    • ダウンロードにはCreateSpaceを使うことをお勧めする。
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. サービス開始
    python app.py
    

使用プロセス

  1. API-KEYの設定::
    • ローカルマシンの性能に制限がある場合は、阿里雲のビッグモデルサービスプラットフォームである百錬が提供するQwen APIとCosyVoice APIを、ローカルマシン上で使用することができます。app.pyでAPI-KEYを設定する。
  2. 局所推論::
    • API-KEYを使用しない場合はsrc/llm.py歌で応えるsrc/tts.py不要なAPI呼び出しコードを削除するために、ローカル推論メソッドを設定する。
  3. サービス開始::
    • うごきだすpython app.pyサービスを開始する。
  4. デジタル・ペルソナのカスタマイズ::
    • ある/データ/ビデオデジタル人体像の録画ビデオを追加するカタログ。
    • 修正/src/thg.pyを Muse_Talk クラスの avatar_list に追加し、画像名と bbox_shift を追加します。
    • あるapp.pyGradioのavatar_nameにデジタルペルソナの名前を追加したら、サービスを再起動し、初期化が完了するのを待ちます。

詳しい操作手順

  • カスタマイズされたイメージとトーン/データ/ビデオ ディレクトリにデジタル人体像の録画ビデオを追加する。 src/thg.py 修正 ミュゼトーク クラス アバターリスト画像名と bbox_shift パラメーター
  • ボイスクローニングapp.py ミディアム構成 CosyVoice API または エッジ_TTS ローカル推論を行う。
  • エンド・ツー・エンドの音声ソリューション使用 GLM-4-ボイス 効率的な音声生成と認識を提供するモデル。

 

  1. ローカルに配置されたサービスのアドレスにアクセスし、Gradioのインターフェイスに移動します。
  2. カスタムデジタルペルソナビデオを選択またはアップロードします。
  3. ボイスクローン機能を設定し、ユーザーのボイスサンプルをアップロードします。
  4. リアルタイムの音声対話を開始し、低遅延の対話機能を体験してください。
AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " VideoChat:カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語