AIパーソナル・ラーニング
と実践的なガイダンス

AniPortrait:音声による画像やビデオの動きで、リアルなデジタル音声ビデオを生成

この記事は2025-01-10 17:15に更新されました。内容の一部は一刻を争うものですので、無効な場合はメッセージを残してください!

はじめに

AniPortraitは、音声によってリアルな似顔絵アニメーションを生成する革新的なフレームワークです。Tencentゲーム・ノウ・ユアセルフ・ラボのHuawei、Zechun Yang、Zhisheng Wangによって開発されたAniPortraitは、音声と参照用の肖像画像から高品質なアニメーションを生成することができ、以下のようなことも可能です。顔の再現のためにビデオを提供する.高度な3D中間表現と2Dフェイシャルアニメーション技術を使用することで、このフレームワークは、映画やテレビの制作、バーチャルキャスターやデジタルピープルなど、さまざまな応用シーンで自然で滑らかなアニメーション効果を生成することができます。

AniPortrait:音声駆動によるリアルなデジタル人間の発話映像の生成-1

デモアドレス:https://huggingface.co/spaces/ZJYang/AniPortrait_official


 

AniPortrait:リアルなデジタル・スピーチ・ビデオを生成するための音声駆動型画像またはビデオ・モーション-1

 

機能一覧

  • オーディオ・ドリブン・アニメーション:オーディオ入力から対応するポートレート・アニメーションを生成します。
  • ビデオ・ドリブン・アニメーション:顔の再生にビデオを提供し、リアルな顔のアニメーションを生成する。
  • ハイクオリティなアニメーション生成:3D中間表現と2Dフェイシャルアニメーション技術を駆使し、ハイクオリティなアニメーションエフェクトを生成。
  • ウェブUIデモ:ユーザーフレンドリーな体験のために、GradioウェブUIを通じてオンラインデモを提供します。
  • モデルの訓練と推論:モデルの訓練と推論をサポートし、ユーザーは訓練と生成のためのデータをカスタマイズできる。

 

ヘルプの使用

取り付け

環境ビル

Pythonのバージョンは3.10以上、CUDAのバージョンは11.7以上を推奨。以下の手順で環境を構築する:

pip install -r requirements.txt

ダウンロード・ウェイト

すべてのウェイトファイルは./pretrained_weightsディレクトリからダウンロードします。ウェイトファイルは以下のように手動でダウンロードする:

  1. 以下の部分を含む学習済みウェイトをダウンロードする:デノイジング_unet.pthそしてreference_unet.pthそしてポーズガイダーそしてmotion_module.pthその他
  2. ベースモデルやその他のコンポーネントのために事前に訓練された重みをダウンロードする:
    • StableDiffusion V1.5
    • SD-VAE-FT-MSE
    • イメージ・エンコーダ
    • wav2vec2-base-960h

ウェイトファイルの構成は以下の通り:

./pretrained_weights/
|-- image_encoder
|-- config.json
|-- pytorch_model.bin
|-- sd-vae-ft-mse
|-- config.json
|-- diffusion_pytorch_model.bin
|-- diffusion_pytorch_model.safetensors
|-- stable-diffusion-v1-5
|-- feature_extractor
|-- プリプロセッサ設定.json
|- model_index.json
|-- unet
|-- config.json
|-- diffusion_pytorch_model.bin
|-- v1-inference.yaml
|-- wav2vec2-base-960h
|-- config.json
|-- feature_extractor_config.json
|-- プリプロセッサ設定.json
|- pytorch_model.bin
|-- README.md
|- special_tokens_map.json
|-- tokeniser_config.json
|-- vocab.json
|-- audio2mesh.pt
|-- audio2pose.pt
|-- denoising_unet.pth
|-- film_net_fp16.pt
|-- motion_module.pth
|-- pose_guider.pth
|-- reference_unet.pth

グラディオWeb UI

以下のコマンドでウェブデモをお試しください。またオンラインデモ.

python -m scripts.app

推論

なお、コマンド-L生成されるフレームの所望の数に対して、例えば-L 300.

加速方法ビデオの生成に時間がかかりすぎる場合はFILM_NET_FP16.PTに置かれた。./pretrained_weightsカタログ

以下は、推論スクリプトを実行するためのCLIコマンドです:

じしゅてき

python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc

参照可能アニメーション.yamlフォーマットを使用して、独自の参照画像またはポーズビデオを追加することができます。オリジナルのビデオをポーズビデオ(キーポイントシーケンス)に変換するには、次のコマンドを実行します:

python -m scripts.vid2pose --video_path pose_video_path.mp4

顔出し

python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc

あるアニメーション_facereenac.yamlソース顔ビデオとリファレンス画像を

オーディオドライバ

python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc

あるanimation_audio.yaml音声と参考画像を削除するanimation_audio.yaml正鵠を得るpose_tempaudio2poseモデルを有効にすることができます。また、このコマンドを使ってpose_temp.npy::

python -m scripts.generate_ref_pose --ref_video ./configs/inference/head_pose_temp/pose_ref_video.mp4 --save_path ./configs/inference/head_pose_temp/pose.npy

電車

データ準備

ダウンロードブイエフエッチキュー歌で応えるセレブV-HQ.元映像からキーポイントを抽出し、トレーニングjsonファイルを書き出す(以下はVFHQの処理例):

python -m scripts.preprocess_dataset --input_dir VFHQ_PATH --output_dir SAVE_PATH --training_json JSON_PATH

トレーニングプロファイルの行を更新する:

データを返します。
json_path: JSON_PATH

ステージ1

コマンドを実行する:

accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml

ステージ2

事前学習されたモーションモジュールの重み付けmm_sd_v15_v2.ckpt(ダウンロードリンク)に置かれた。./pretrained_weightsディレクトリにある。ディレクトリ内のstage2.yamlコンフィギュレーション・ファイルは、例えばステージ1のトレーニングの重みを指定する:

stage1_ckpt_dir: './exp_output/stage1'.
stage1_ckpt_step: 30000

コマンドを実行する:

train_stage_2.py --config ./configs/train/stage2.yaml
無断転載を禁じます:チーフAIシェアリングサークル " AniPortrait:音声による画像やビデオの動きで、リアルなデジタル音声ビデオを生成

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語