ウルトラライトデジタルヒューマン：ワンクリックでインストーラをインストールできるオープンソースのエンドサイドリアルタイム動作のウルトラライトデジタルヒューマン

はじめに

Ultralight Digital Humanは、モバイルデバイス上でリアルタイムに動作する超軽量デジタル人体モデルの開発を目指すオープンソースプロジェクトです。このプロジェクトでは、ソーシャルアプリケーション、ゲーム、バーチャルリアリティなど、様々なシナリオに対応したアルゴリズムとモデル構造を最適化することで、モバイルデバイス上でのスムーズな動作を実現しています。ユーザーは、自分のデジタル人体モデルを簡単にトレーニングし、展開することで、パーソナライズされた没入感のある体験を楽しむことができます。

モバイルで問題なく動作することについては、この現行モデルのチャンネル数を少し小さく変更し、オーディオ機能にwenetを使用すれば問題ない。

UltraLight Digital Human：モバイルデバイス上でリアルタイムに動作する超軽量デジタル人体モデル-1

機能一覧

リアルタイム操作モデルはモバイルデバイスでリアルタイムに実行でき、レスポンシブです。
軽量設計リソースが限られたモバイル機器に最適化されたモデル構造。
オープンソースプロジェクトコードとモデルは完全にオープンソースであり、ユーザーが自由に変更して使用することができます。
マルチシナリオアプリケーションソーシャルアプリケーション、ゲーム、バーチャルリアリティなど、さまざまなシナリオに適しています。
音声特徴の抽出wenetとhubertの両方の音声特徴抽出方式をサポートしています。
同期ネットワークシンクネット・テクノロジーによるリップ・シンクロの強化。
詳細チュートリアル詳細なトレーニングと使い方のチュートリアルが用意されており、すぐに使い始めることができます。

ヘルプの使用

設置プロセス

環境準備::

Python 3.10以上をインストールしてください。

PyTorch 1.13.1とその他の依存関係をインストールします：

conda create -n dh python=3.10
conda dh をアクティブにする
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
conda install mkl=2024.0
pip install opencv-python transformers numpy==1.23.5 soundfile librosa onnxruntime

モデルファイルのダウンロード::
- 以下のリンクからwenet encoder.onnxファイルをダウンロードし、それを data_utils/ カタログダウンロードリンク

使用プロセス

ビデオの準備::
- 3～5分のビデオを用意し、各フレームに顔の露出が十分にあり、音声がクリアでノイズがないことを確認する。
- ビデオを新しいフォルダに入れる。
音声特徴の抽出::
- オーディオの特徴を抽出するには、以下のコマンドを使用します：
```
cd data_utils
python process.py YOUR_VIDEO_PATH --asr hubert
```
トレーニングモデル::
- より良い結果を得るためにsyncnetモデルをトレーニングする：
```
cd ...
python syncnet.py ---save_dir ./syncnet_ckpt/ --dataset_dir ./data_dir/ --asr hubert
```
- 最も損失の少ないチェックポイントを使用して、デジタル・ヒューマン・モデルをトレーニングする：
```
python train.py --dataset_dir ./data_dir/ ---save_dir ./checkpoint/ --asr hubert --use_syncnet --syncnet_checkpoint syncnet_ckpt
```

推論::

テスト音声の特徴を抽出：

python extract_test_audio.py YOUR_TEST_AUDIO_PATH --asr hubert

走る推理：

python inference.py --dataset ./data_dir/ --audio_feat ./your_test_audio_hu.npy ---save_path ./output.mp4 --checkpoint ./チェックポイント/best_model.pth

ほら

ビデオのフレームレートが、選択した音声特徴抽出スキーム（wenetの場合は20fps、hubertの場合は25fps）と一致していることを確認する。
学習と推論のプロセスでは、モデルの損失値が定期的に監視され、最適なチェックポイントが選択されて学習が行われる。

モンキー・ワンクリック・インテグレーション・パック

このコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。

このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種（コンピューティング）"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ

UltraLight Digital Human: ワンクリックでインストールできるオープンソースのエンドサイドリアルタイムランニング超軽量デジタルヒューマン

はじめに

機能一覧

ヘルプの使用

設置プロセス

使用プロセス

ほら

モンキー・ワンクリック・インテグレーション・パック

関連記事

Dreamface (Pro)：個人的なイメージや音声をクローンし、ビデオデジタルピープルを生成する

Gan.AI：デジタル・ドッペルゲンガーのブランドアドボケイトに焦点を当てた、パーソナライズされたアバター動画の作成

デジタルマン統合パックのWav2Lipベースのビジュアル操作バージョン

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

ER NeRF：トーキングヘッド用高忠実度ビデオ合成システムの構築

おすすめ

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

新着情報

人気記事

ホットタグ

チーフAIシェアリングサークル