每个人心中都有一个电影梦——想要走入不同角色体验戏中人生,或成为导演编排每一组镜头,或作为编剧书写平行宇宙里的无限可能。
海螺AI是一台造梦机,让不同人都能拥有接近电影的方式。新年伊始,海螺AI为全球用户带来新的创作帮手——主体参考。
MiniMax 最新自研S2V-01视频模型,通过单图主体参考架构,以传统方案1%以下的输入和计算成本,只需输入一张图片, 即可实现视觉细节的精确还原, 同时具备高自由度和组合性。 用户等待时长大幅降低,达到高可用的效果。
目前,主体参考功能已全球全量上线,前往 海螺视频 创作平台即刻体验。
输入一张图片,输出一段高清大片
在AI视频生成领域,如何在动态视频中保持人物面部多角度的真实度和稳定性;如何在使用连续片段拼接创作时,使人物角色保持高度一致,一直是困扰业界的难题。我们通过自研的S2V-01视频模型,给用户提供一个最优解。
用户在海螺AI中选择“主体参考”功能后,仅需上传一张图片即可识别并锁定主体角色。文本框内输入Prompt提示词,无需漫长等待,即可生成富有创意且主体保持一致的高质量视频。
S2V-01模型能够准确识别照片中不同性别、年龄、肤色、五官结构等面部特征,所生成的角色稳定、连贯,且在每一帧中均可以保持角色一致。主体人物的面部表情控制,非主体场景的画面质感,依旧是海螺AI的“拿手好戏”。
主体参考+Prompt:A close-up of a young boy in a dimly lit room, his eyes fixed on the glowing screen of a gaming console. The camera is positioned slightly above eye level, focusing on his concentrated expression as his fingers nimbly manipulate the controller. A game character appears, breaking free from the screen's confines.
创作者@OlivioSarikas 上传油画动漫肖像为主体,所创作动画作品把观众带入了童话乐园。
目前,海螺AI开放对单个人物进行参考的能力,需要上传可识别的面部信息,作为视频主体生成的面部参考。未来,海螺AI将继续开放多人、物体、场景等更加丰富的参考能力。
输入成本、计算成本大幅降低,重塑视频创作体验
MiniMax自早期便持续探索图片参考的能力,包括角色、风格等。基于大量的技术探索,我们认为在考虑到效果和扩展性的情况下,对于主体类的参考问题,图片参考方案的效果上限足够高,甚至可以优于精调的LoRA(Low-Rank Adaptation)方案。我们认为一项好的技术应该可以服务尽可能广泛的用户,同时效果也足够好,可以解决实际问题。
由于MiniMax的主体参考方案只需要一张图片作为输入,没有额外的训练计算成本和等待时间,生成成本和常规文生视频、图生视频接近。相较于目前的LoRA方案,主体参考既降低了用户的输入成本,也将计算成本降低至百分之一以下,用户的等待时间大幅减少,使用体验翻倍提升。
主体参考+Prompt:A woman in an elaborate gown and a pair of white gloves walks through a corridor in a medieval castle. She runs with her back to the camera, then looks back to the camera, her expression changing from calm to horror. The end of the corridor is dimly lit. The camera follows the woman as she pushes closer and the view changes from medium to close-up, focusing on the woman's face.
为了让视频中只保有主体自身的必要视觉信息(如人的面部特征),而不受姿态、表情、光照等其他信息干扰,MiniMax在数据构造、模型架构和训练策略上持续做大量优化。在已上线的S2V-01模型中,我们同时实现了两方面的关键效果:
- 视觉细节的精准还原:生成视频中角色的面部特征与参考图片有较高的相似度;
- 高自由度+组合性:除了代表身份的面部特征,其他维度都有极高的自由度。例如,可以通过文本控制让角色呈现任意姿势、表情;将角色置于任一环境中都有自然和谐的光照表现等。
有了主体参考技术,用户不再受制于通过抽卡解决一致性问题,可以把更多精力放在内容表达上,从而大幅提高创作长视频内容的效率。你的角色,天然就是一致的。
视觉模态开启AI共创新时代
AI技术已经为微电影、广告、综艺、动画、CG特效等内容制作行业带来了便利,但视频主体在生成过程中容易崩坏是最大的问题,呈现内容往往缺乏灵活性且有割裂感。
主体参考功能的推出为专业创作者提供高度一致的视觉呈现和创作灵活性,将为短视频、广告等多个视频生产行业带来颠覆性创新,让一致性和连贯性不再是难题。目前,MiniMax将主体参考功能以API服务形式上线开放平台,并将在多主体参考方面持续探索,为企业与专业创作者提供更加完善的解决方案。
自MiniMax推出视频模型起,海螺AI便持续成为业界焦点。2024年12月,MiniMax所推出的图生视频模型I2V-01-Live受到广泛好评,海螺AI海外访问量超2700万,突破历史新高并荣登12月全球AI视频产品榜首位。
- 2024年12月全球AI视频产品榜
人和世界交互的方式本身就是多模态的,所以多模态的理解与生成正是通往AGI、开启AI共创新时代的关键一环。我们期待有更多用户与MiniMax共创智能,在海螺AI中收获创作的喜悦。这里准备了一份如何玩转主体参考功能的教学文档,点击阅读原文即可跳转。感谢每一位支持和喜爱MiniMax和海螺AI的你。