最近 AI 圈子里,数字人技术真是火得一塌糊涂,各种“开源最强”的数字人方案层出不穷,让人眼花缭乱。虽然笔者也为大家分享了不少数字人整合包,但是面对如此多的选择,大家难免会感到困惑,不知道哪个才最适合自己。
之前为读者介绍了:12款免费在本地部署的数字人,正所谓“选择困难症”是当代人的通病,为了解决大家的烦恼,这次一口气拿出六款数字人进行盘点!
笔者将之前分享过的数字人相关资源进行一次全面盘点,详细对比 实现效果、配置要求、生成时间 等关键信息,让大家能够 一目了然 地了解目前开源数字人技术的现状,从而选择最适合自己的“数字人”。
数字人:AI 领域的“当红炸子鸡”
要说 AI 领域目前最火热的技术,数字人绝对榜上有名。
与 AI 绘画发布者 Stability AI 频传倒闭消息,以及国内外大模型厂商陷入价格战的“内卷”局面不同,数字人在 AI 领域展现出了实实在在的商业价值和盈利潜力。
举个例子,今年 4 月中旬,京东创始人刘强东的数字人 “采销东哥” 在京东直播间亮相,其逼真程度令人惊叹,不仅语速、口音与真人高度相似,就连习惯性动作也几乎一模一样。
“采销东哥” 在讲话时会不时搓动手指,强调重点时会配合幅度更大的手势,还会自然地点头。许多围观网友表示,几乎看不出这是个数字人!
这场数字人直播首秀不到 1 小时,观看量就突破 2000 万,整场直播累计成交额更是超过 5000 万 元人民币
首秀的巨大成功,直接推动了京东在今年 618 大促期间发起了 “总裁数字人直播” 活动。格力、海信、LG、名创优品、洁丽雅、科沃斯、vivo、三星等众多知名企业的高管纷纷化身数字人,亲自下场直播带货。
京东官方数据显示,截至目前,京东言犀数字人已累计服务超过 5000 家品牌,带动商品交易总额(GMV) 超过百亿元 人民币。
数字人所展现出的巨大商业潜力,吸引了越来越多人的关注。虽然目前要实现类似 “采销东哥” 这样超真实效果的数字人,成本仍然不菲,但随着 AI 技术的快速发展,开源社区涌现出了越来越多功能强大的数字人项目,大大降低了技术门槛。
接下来,就让笔者为大家详细盘点那些优秀的开源数字人项目。
开源数字人技术哪家强?六大项目硬核测评
数字人技术,这个曾经只存在于科幻电影中的概念,正在逐步走进现实生活。随着人工智能技术的突飞猛进,开源数字人领域也变得竞争激烈,各大研究机构和科技公司纷纷推出自家的开源方案。
下面,笔者将对六款具有代表性的开源数字人项目进行详细测评,并 按照技术发展的先后顺序 进行介绍,方便大家直观地了解数字人技术的演进历程。
1.Wav2lip:初代数字人技术的代表
Wav2Lip 算法是一种基于深度学习的语音驱动面部动画生成算法,是早期数字人技术中应用较为广泛的方案。其核心思想是将语音信号中的信息映射到面部动画参数,从而生成与语音同步的面部动画。
- 生成案例:下图展示了 Wav2Lip 生成的数字人效果。可以看出,画面中人物的面部动作较为僵硬,主要集中在嘴唇的机械式运动,数字人的整体成熟度相对较低。
- 配置要求:Wav2Lip 对硬件配置要求不高,只需 4GB 显存的 GPU 即可运行。生成一段 1 分钟左右的数字人视频,大约需要 5-15 分钟的处理时间。
2.SadTalker:面部动作更自然的进阶方案
SadTalker 是由西安交通大学开源的项目,它通过从音频中学习生成 3D 运动系数,并结合全新的 3D 面部渲染器来生成头部运动,实现了仅用单张照片和一段音频就能生成高质量数字人视频的效果。
- 生成案例:下图展示了 SadTalker 生成的数字人效果。相比 Wav2Lip,SadTalker 在面部动作的自然度上有所提升,头部不再是完全静止,而是增加了一些轻微的动作。但仔细观察可以发现,在人物边缘部分仍然存在一些错位现象。所以就出现了 SadTalker增强版,使用人像视频生成数字人
- 配置要求:由于 SadTalker 生成的数字人效果有所提升,因此对硬件配置的要求也相应提高。建议使用 6GB 显存的 GPU 以保证流畅运行。如果显存低于 6GB 或使用 CPU 运行,生成速度会比较慢。生成一段 1 分钟左右的数字人视频,大约需要 10-20 分钟的处理时间。
3.MuseTalk:腾讯出品,唇形同步更精准
MuseTalk 是腾讯推出的一款数字人项目,专注于实时音频驱动的唇形同步数字人生成。MuseTalk 的核心技术在于能够根据音频信号自动调整数字人物的面部图像,确保唇形与音频内容高度一致,从而实现更自然的口型同步效果。
- 生成案例:下图展示了 MuseTalk 生成的数字人效果。可以看出,MuseTalk 在 SadTalker 的基础上又有了进步,头部和面部动作更加自然,边缘部分的错位现象也得到缓解。但在嘴唇动画的精细度方面,仍有提升空间。
- 配置要求:MuseTalk 对硬件配置的要求与 SadTalker 相似,建议使用 6GB 显存的 GPU 以获得较好的运行体验。生成一段 1 分钟左右的数字人视频,处理时间约为 10-20 分钟。
4.Hallo:百度 & 复旦 & 苏黎世联邦理工 & 南京大学联合出品,效果惊艳
Hallo 是一款由百度联合复旦大学、苏黎世联邦理工学院和南京大学共同研发的数字人项目,在音频驱动的肖像动画生成领域取得了显著进展。Hallo 利用先进的 AI 技术,能够根据语音输入生成逼真且动态的肖像视频。该技术通过深度分析语音输入,同步生成人物的面部动作,包括嘴唇、表情和头部姿势,最终呈现出令人印象深刻的数字人效果。
- 生成案例:下图展示了 Hallo 生成的数字人效果。无论是画面清晰度、头部动作的丰富程度,还是面部表情的细腻程度,Hallo 生成的数字人相比前几款方案都有了质的飞跃。
- 配置要求:Hallo 虽然效果出众,但对硬件性能的要求也更高。根据笔者的评测,建议使用 10GB 显存以上的 GPU 才能流畅运行。生成一段 1 分钟左右的数字人视频,需要 30-40 分钟的处理时间。
5.LivePortrait:快手开源,多人物 seamless 拼接
LivePortrait 是快手开源的一款令人眼前一亮的数字人项目。其独特之处在于,它不仅能够精确控制人物眼睛的注视方向和嘴唇的开合动作,还能够实现多个人物肖像的无缝拼接。
- 生成案例:下图展示了 LivePortrait 生成的数字人效果。可以看到,LivePortrait 在处理多人物场景时,人物之间的过渡非常平滑自然,不会出现突兀的边界或拼接痕迹。
- 配置要求:相比 Hallo,LivePortrait 在保证优秀生成效果的同时,对硬件配置的要求有所降低。根据笔者的评测,8GB 显存的 GPU 即可流畅运行,6GB 显存的 GPU 也可勉强运行。生成一段 1 分钟左右的数字人视频,处理时间约为 10-20 分钟。
6.EchoMimic:音视频双驱动,更逼真自然
传统的数字人技术,要么依赖音频驱动,要么依赖面部关键点驱动,各有优缺点。而 EchoMimic 则巧妙地结合了这两种驱动方式,通过音频和面部关键点的双重训练,实现了更加逼真、自然的动态肖像生成。
- 生成案例:下图展示了 EchoMimic 生成的数字人效果。可以看出,EchoMimic 生成的数字人面部表情和肢体动作都非常自然流畅,几乎难以分辨真假。
- 配置要求:EchoMimic 在生成效果大幅提升的同时,对硬件配置的要求并没有明显增加,8GB 显存的 GPU 即可流畅运行。但生成时间略有增加,生成一段 1 分钟左右的数字人视频,大约需要 15-30 分钟的处理时间。
总结与展望
数字人技术的发展速度令人惊叹,不断突破着人们的想象边界。为了更直观地展示各开源数字人技术的效果提升,笔者特意制作了一张技术进步对比图:
随着 AI 技术的持续进步,我们有理由相信,未来将会涌现出更多更强大的开源 AI 数字人项目。如果你对数字人技术充满好奇,渴望亲身体验数字人带来的震撼效果,现在正是最佳时机。让我们共同见证数字人技术的蓬勃发展和无限可能!