谷歌近日宣布,其视频生成模型 Veo 2 已正式集成至 Gemini Advanced 服务以及其实验性平台 Whisk 中。此举意味着 Google One AI Premium 的订阅用户现在可以直接通过文本提示或已有图像,生成短视频内容。
Veo 2 被谷歌定位为其先进的视频生成技术,旨在将文本描述转化为长达 8 秒、720p 分辨率、16:9 宽高比的 MP4 格式视频。据称,该模型在理解现实物理规律和人类运动方面有所增强,能够生成动作流畅、场景逼真且细节丰富的视频片段,覆盖多样化的主题和风格。
Gemini 中的文本到视频生成
在 Gemini Advanced 中,用户可以通过下拉菜单选择 Veo 2 模型来进行视频创作。操作流程相对直接:用户输入详细的场景描述,Gemini 便会尝试生成相应的视频。官方演示展示了不同风格的生成效果,例如:
- 场景一: 宽广、缓慢移动的镜头扫过一个巨大的冰川洞穴,两名穿着白色外骨骼服的人物在其中行走,头盔灯光照亮冰壁中冻结的糖果状物体。
- 视频示例链接: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__37_aDEwjss.mp4
- 场景二: 动画风格,一只戴着超大眼镜的小老鼠在舒适的森林巢穴里,借着发光蘑菇的光线阅读书籍。
- 视频示例链接: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Mouse_Reads_Video_Generated.mp4
- 场景三: 航拍视角,覆盖着草地的悬崖连接到沙滩,海浪拍岸,一块突出的海蚀柱矗立在海中,沐浴在日出或日落的金色光芒中。
- 视频示例链接: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__13.mp4
- 场景四: 体素风格的延时摄影,一个粉、灰、白三色的冰淇淋在晴朗蓝天下融化。
- 视频示例链接: https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/KR_Veo2_4.mp4
谷歌强调,描述越详尽,用户对最终视频的控制力就越强。这一功能为快速可视化概念、叙述短小的视觉故事或进行创意组合提供了新的可能性。生成的视频可以通过分享按钮轻松上传至 TikTok 或 YouTube Shorts 等平台。
值得注意的是,目前 Veo 2 生成的视频长度限制在 8 秒,分辨率为 720p。虽然这足以满足短视频平台的部分需求或快速概念验证,但与业界(如 OpenAI Sora 模型所展示的)追求更长时长、更高分辨率和更强叙事能力的趋势相比,Veo 2 当前在 Gemini 中的应用似乎更侧重于轻量级、即时性的创作体验。此外,该功能设有月度生成数量限制,这可能影响重度使用者的创作流程。
此项视频生成功能正逐步向全球 Gemini Advanced 网页版和移动端用户推送,覆盖 Gemini 支持的所有语言。
Whisk Animate:让静态图像动起来
除了文本生成视频,谷歌还将 Veo 2 的能力赋予了 Whisk 平台,推出了 Whisk Animate 功能。Whisk 本是谷歌实验室于去年 12 月推出的一个实验项目,允许用户结合文本和图像提示来探索和可视化创意。
现在,通过 Whisk Animate,Google One AI Premium 订阅用户可以将自己创作或上传的静态图像转化为 8 秒钟的动态视频。这为那些希望给现有图片增加动态效果的用户提供了一个便捷工具。该功能目前已在 60 多个国家上线。
- Whisk Animate 相关介绍视频链接: https://www.youtube.com/watch?v=2yYDI-p5aGs (原链接为缩略图,此处提供推测的 YouTube 观看链接)
将视频生成能力整合进 Gemini 和 Whisk,显示了谷歌希望将 AI 创作工具融入其现有生态系统和订阅服务的策略。这降低了用户接触和使用先进 AI 功能的门槛,但也将其与特定的付费订阅绑定。
安全性考量与行业责任
在推出视频生成功能的同时,谷歌也提到了其采取的安全措施。这包括进行广泛的“红队演练”(Red Teaming)和评估,以防止生成违反其政策的内容。
一个关键举措是,所有由 Veo 2 生成的视频都将嵌入 SynthID 数字水印。这种水印被设计为嵌入视频的每一帧,用于标识视频是由 AI 生成的。在 AI 生成内容日益普遍、真假难辨的背景下,采用可靠的水印技术对于提升透明度和打击虚假信息至关重要,是负责任的 AI 发展中不可或缺的一环。
谷歌也承认,像所有生成式 AI 工具一样,Gemini 的输出主要由用户提示决定,可能在某些情况下生成令人反感的内容,并鼓励用户通过反馈按钮提供意见以持续改进。