要約:グーグルの研究者は、静止画像と音声クリップのみから、上半身を完全に動かしたリアルなトーキングヘッド動画を生成する新しいAIモデル「VLOGGER」を開発した。
詳細は?
VLOGGERは操作可能なアバターを作成し、類似点や行動をキャプチャする。
このモデルは、顔や体の各部位にラベル付けされた、人が話している80万本のビデオを含む大規模なマルチメディア・データセットで学習された。
想定される用途としては、他言語でのビデオの吹き替え、ゲームやアシスタント用のリアルなアバターの作成、低帯域幅ビデオチャットのサポートなどがある。
重要:AIアシスタントにリアリズムを提供したり、言語を超えたリアルタイムのビデオ吹き替えを可能にしたり、お気に入りのアバターとしてビデオチャットをさせたりと、VLOGGERのようなモデルは、物理的な自分とデジタルな自分との境界線が曖昧になる未来を予感させる魅力的なものだ。新しいアプローチ。