今年早些时候,谷歌推出了视频生成模型 Veo 和最新的图像生成模型 Imagen 3。从那时起,看到人们通过这些模型将他们的创意变为现实,令我们感到兴奋:YouTube 创作者正在探索为 YouTube Shorts 创作视频背景的创意可能性,企业客户正在通过 Vertex AI 提升创意工作流程,创意人士则使用 VideoFX 和 ImageFX 来讲述他们的故事。与从电影制作人到企业等各方合作伙伴一起,我们继续开发和演进这些技术。
大半夜的,OpenAI的垃圾直播没任何看头,就发了个个性化的AI搜索。但是,Google没有预告、没有营销,默默的在X上发了两个大货。
今天,谷歌推出了一个新的视频模型 Veo 2 和最新版本的 Imagen 3,这两款模型都达到了最先进的成果。这些模型现在已在 VideoFX、ImageFX 以及我们最新的实验项目 Whisk 中提供。
Veo 2:最先进的视频生成技术
Veo 2 可以创建极高质量的多种主题和风格的视频。在人类评审员的头对头比较中,Veo 2 在与领先模型的竞争中取得了最先进的成果。
它带来了对现实世界物理学以及人类运动和表情细节的改进理解,这有助于提升整体的细节和真实感。Veo 2 理解电影摄影术的独特语言:只需提供一个类型、指定镜头、建议电影效果,Veo 2 就能完成——分辨率高达 4K,时长可延伸至数分钟。要求它做一个从低角度穿越场景的追踪镜头,或者拍摄一个科学家透过显微镜观察的特写镜头,Veo 2 都能创造出来。只需在提示中输入“18mm 镜头”,Veo 2 就知道如何拍摄这个镜头特有的广角效果,或者通过在提示中加入“浅景深”,使背景模糊,聚焦于主体。
当今最先进的AI视频模型Veo 2,还有AI绘图模型Imagen 3改进版。我们一群人,一边看效果,一边不断的惊呼卧槽。我几乎从来不使用炸裂这个词,但是AI视频Veo 2的效果,真的让我有点想欢呼,甚至,有点像2月16号那个宿命的一夜,看Sora的感觉。一个一个来说。
一. AI视频Veo 2
线上效果Veo 2未经修建的效果
尽管视频模型通常会“幻觉”产生不需要的细节——例如多余的手指或意外出现的物体——但 Veo 2 产生这些问题的频率较低,使得输出结果更加逼真。
我们对安全和负责任开发的承诺指导了 Veo 2 的设计。我们在扩展 Veo 的可用性时采取了谨慎的态度,以便在通过 VideoFX、YouTube 和 Vertex AI 慢慢推出的过程中,能够帮助识别、理解并改进模型的质量和安全性。
与我们所有的图像和视频生成模型一样,Veo 2 的输出包含一个隐形的 SynthID 水印,帮助识别其为 AI 生成的内容,从而减少误信息和错误归属的可能性。
今天,我们将新的 Veo 2 功能带入 Google Labs 视频生成工具 VideoFX,并扩大了可访问用户的范围。访问 Google Labs 注册等待名单。我们还计划明年将 Veo 2 扩展到 YouTube Shorts 和其他产品中。
Google自己也做了一个人类观察者的评测,通过Meta发布的基准数据集 MovieGenBench,做了1003个数据,来让大家盲测,哪个效果更好。最后得到的结果,是这样的。
这块我稍微解释一下,有两个表,分为Overall Preference(整体偏好度)和Prompt Adherence(提示匹配度)。
每个图表的横轴表示不同的被对比模型,分别是Meta、可灵v1.5、Minimax、Sora Turbo。Google做的是把Veo 2跟这些模型做点对点的盲测。
真的,国产模型居然也能作为对比基准了,突然有一股热血涌上心头。。。
而每个柱由三个部分组成,颜色代表结果分类:
绿色部分(Veo):评测者在对比中更偏好Veo输出的比例。
白色部分(Ties):评测者认为两者不分上下,即没有明显偏好的比例。
粉色部分(Other preferred):评测者更偏好另一模型(非Veo)的比例。
以Google DeepMind浓眉大眼的一贯作风,基本不会造假,所以能看到,Google的Veo 2在大多数情况下,取得了最优结果。
而在Google的评测里,除了Veo 2之外,另外四个模型里,最强的是可灵v1.5,这个结果也是挺有趣的。而且,有一点是需要注意的,Veo 2,是可以直出4K视频的。
他们在Youtube上传的视频,也是原生4K,这个就非常的恐怖。他们自己也说,目前最大的难点和限制,还是在运动上。
原话是:“创建真实、动态或复杂的视频,并在复杂场景或具有复杂运动的场景中保持完全一致性仍然是一项挑战。”
二. AI绘图Imagen 3
谷歌还改进了他们的 Imagen 3 图像生成模型,现在生成的图像更加明亮、构图更佳。它现在能够以更高的精度渲染更多样的艺术风格——从摄影写实主义到印象派,从抽象艺术到动漫。此次升级还使模型能够更忠实地遵循提示,并渲染更丰富的细节和纹理。在由人工评审员进行的与领先图像生成模型的对比中,Imagen 3 达到了最先进的水平。
从今天起,最新的 Imagen 3 模型将在 Google Labs 的图像生成工具 ImageFX 中全球推出,覆盖 100 多个国家。访问 ImageFX 开始使用。
除了Veo 2之外,Google这波还直接发了他们改进版的AI绘图Imagen 3模型,其实严格来说,是Imagen 3-002模型,Imagen 3的第二代。第一代Imagen 3是2024年5月14日,在谷歌的I/O开发者大会上发的。半年过去,Google对Imagen 3进行了一次大幅的进化,推出了改进版的第二代,他们自己的评测上,直接屠榜。
目前无需排队,可以直接玩,而且,免费。
直接在输入框里写Prompt,就可以开始玩。
他们这个Prompt的设计,也很有意思,你可以输入各种奇奇怪怪的一大串Prompt,他会自动给你拆解分词,有点像老罗当年那个胶囊大爆炸的感觉,把一些词分出来后,给你变成下拉框,自动联想几个其他的选项。
下面是一些官方放出的效果图