概要:谷歌研究人员刚刚开发了VLOGGER,这是一种新的人工智能模型,可以仅从静态图像和音频剪辑中生成具有完整上半身运动的逼真的说话头像视频。
细节:
VLOGGER 创建了一个可控制的头像,可以捕捉相似之处和动作。
该模型在一个大型多媒体数据集上进行训练,该数据集包含 800,000 个人们交谈的视频,并为面部和身体的每个部位贴上了标签。
潜在的应用包括用其他语言配音视频、为游戏或助手创建逼真的化身以及支持低带宽视频聊天。
重要性:无论是为人工智能助手提供真实感,允许跨语言实时视频配音,还是让我们以自己最喜欢的化身进行视频聊天,VLOGGER 等模型都预示着未来,我们的物理自我和数字自我之间的界限将变得模糊,令人着迷。新方法。