通用场景与垂直场景,这是 AI 大模型发展面临的首要抉择。
当前市场上的视频大模型多为通用模型,能够根据用户输入的提示词生成各种场景的视频内容。与此同时,部分视频大模型也开始探索更贴近应用场景的垂直领域,例如字节跳动近期发布的 Goku 模型,便聚焦于数字人直播带货应用。
SkyReels V1:中国 AI 短剧视频生成模型的里程碑
昆仑万维今日发布 SkyReels V1,这是中国首个面向 AI 短剧创作的视频生成大模型。 昆仑万维于 2024 年 12 月正式上线 AI 短剧平台 SkyReels,而 SkyReels V1 将为该平台提供强大的大模型技术支持。
据实际观察和体验,SkyReels V1 堪称市面上 “最懂表演” 的视频大模型。它在人物微表情、动作细节、场景构建、画面构图以及镜头运镜等诸多方面,均展现出媲美影视级制作水准的表现力,能够生成 “影帝影后级” 的表演镜头。
SkyReels A1:表情动作可控算法同步开源
与 SkyReels V1 同步发布的,还有 SkyReels A1,这是昆仑万维自研的首个 SOTA 级别、基于视频基座模型的表情动作可控算法。
更值得关注的是,SkyReels V1 与 SkyReels A1 均为开源模型,所有用户均可依据开源协议免费下载使用。开源地址如下:
https://github.com/SkyworkAI/SkyReels-V1
https://github.com/SkyworkAI/SkyReels-A1
https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
如果说 DeepSeek R1 为文本大模型,特别是推理模型,树立了开源新标杆,那么昆仑万维的 SkyReels V1 和 SkyReels A1 则在蓬勃发展的 AI 短剧市场中确立了开源的新高度。 借助这两款模型的加持,AI 短剧市场有望迎来 “DeepSeek 时刻”。
1. “最懂表演” 的视频大模型
SkyReels V1 是一款受益于开源社区,并积极回馈开源社区的大模型。它基于腾讯于 2023 年 12 月开源的混元视频大模型 HunYuan-Video 训练而成。
尽管开源模型在通用任务上表现出色,但在特定领域或细分任务中,其性能可能无法达到最优水平。 因此,模型厂商在实际训练过程中,通常还需要进行大量的微调、推理优化以及安全对齐等工作。
目前,AI 短剧市场中的视频大模型普遍存在人物表情生成方面的不足,最突出的问题是人物表情空洞,缺乏生动性。 昆仑万维希望通过 SkyReels V1 突破这些行业痛点。
模型训练是大模型掌握知识和能力的关键环节。 在 SkyReels V1 的训练过程中,昆仑万维的核心目标是教会模型 “如何进行表演”。 为此,昆仑万维主要进行了以下两项核心技术创新:
数据清洗与标注:模型微调的基石
首先是数据清洗与标注,这是模型微调的关键环节。 如同教师备课需要高质量的教材,昆仑万维基于自研的高质量数据清洗和人工标注流程,构建了千万级别的高质量电影、电视剧及纪录片数据集。 这构成了 SkyReels V1 学习表演的 “教材”。
Human-Centric 视频理解多模态大模型:提升人物理解能力
仅有 “教材” 尚且不足,还需要对模型进行更深度的指导。 昆仑万维因此自研了 Human-Centric (以人物为中心) 视频理解多模态大模型, 旨在大幅提升模型对视频中人物相关信息的理解能力。
这套基于视频理解多模态大模型构建的人物智能解析系统,能够在影视化的表情识别、人物空间位置感知、行为意图理解以及表演场景理解等多个层面,实现 “影帝级别” 的人物表演效果。
何为 “影帝级别” 的表演?
例如,SkyReels V1 能够生成影视级人物微表情表演,支持 33 种细腻的人物表情以及 400 多种自然动作组合,从而高度还原真人情感表达。
又如,SkyReels V1 还掌握了电影级光影美学。 通过好莱坞级别的高质量影视数据训练,SkyReels V1 生成的每一帧画面,在构图、演员站位和相机角度等方面,均具备电影级别的质感。
SkyReels V1 与闭源模型效果对比
尽管 SkyReels V1 是一款开源模型,但其生成效果却媲美海螺 AI、可灵 AI 等闭源模型。 在相同的提示词条件下,SkyReels V1、海螺 AI 和可灵 AI 的生成效果对比如下:
提示词 1: 一张棕色头发女性的照片,华丽的红色染色眼镜和深红色口红。她朝着前方挥了挥手,先是微笑,然后大笑。
SkyReels V1:
海螺 AI:
可灵 AI:
提示词 2: 戏剧性的正面特写镜头揭示了一位深海潜水员戴着老式铜制潜水头盔的面容。头盔厚厚的圆形玻璃提供了清晰视野,可以看到他平静的表情。微小的气泡在头盔内向上飘浮,水滴附着在内壁上。他小心翼翼地捧着一本敞开的书,书页在海底水流中轻轻飘动。这本书看起来干燥完好,与周围的水环境形成鲜明对比。柔和的阳光束穿透水面,照亮了他的脸庞,并在书页上洒下金色光芒。鱼儿在周围游动,颜色因深度而变得柔和,但在蓝绿色背景前依然生动。潜水员专注地阅读着文本,尽管身处水下,却完全沉浸在阅读中。文学与海洋深处的超现实结合营造出梦幻般的氛围,突出了在最意想不到的地方追求知识的追求。
SkyReels V1:
海螺 AI:
可灵 AI:
从实际效果来看,无论是画面清晰度还是人物表演的细腻程度,SkyReels V1 都展现出媲美闭源模型的实力。 甚至在头发丝动态等细节处理上,SkyReels V1 的表现更胜一筹。
开源模型中首屈一指的图生视频能力
此外,SkyReels V1 不仅支持文本生成视频,还支持图像生成视频,是目前开源模型中,图生视频功能最强大的模型之一。
为了验证 SkyReels V1 的图生视频能力,我们将春节档热门电影《哪吒之魔童降世》中深入人心的土拨鼠剧照输入模型,并设定提示词:土拨鼠抬起头停顿了一秒,然后大吼大叫。 SkyReels V1 生成的效果令人惊艳:
可以说,SkyReels V1 是当前市场上最懂表演的视频大模型。
2. 自研推理框架 SkyReels Infer:打造人人可用的开源模型
更难能可贵的是,SkyReels V1 作为一款开源模型,不仅在生成效果上取得了显著突破,更具备极高的推理效率。 这得益于昆仑万维自研的推理框架 SkyReels Infer。
自研推理框架的意义
自研推理框架有何重要意义?
通常而言,开源模型较少针对推理框架进行专门优化,尤其是在大规模应用场景下。 然而,若不对推理框架进行优化,推理效率和成本都难以满足用户体验的需求。
一个典型的案例是,2024 年初 OpenAI 刚发布 Sora 时,曾有用户爆料 Sora 生成一分钟视频需要耗时一小时。 这也是 Sora 在发布近一年后才正式上线的重要原因之一。 时至今日,许多视频大模型依然面临生成视频等待时间过长的问题。
昆仑万维自研的推理框架 SkyReels Infer,不仅保持了高性能,更兼顾了效率与易用性。
SkyReels Infer 的卓越性能
SkyReels Infer 的推理速度非常出色。 在单张 RTX 4090 显卡上,生成一段 544P 分辨率的视频仅需 80 秒。 用户可能只是短暂走神或浏览一下手机,视频便已生成完成。
SkyReels Infer 支持分布式多卡并行计算。 这是一项强大的技术。 简单来说,它允许多张显卡协同工作,共同完成视频生成任务。
通过 Context Parallel (上下文并行)、CFG Parallel (分类器自由引导并行) 和 VAE Parallel (变分自编码器并行) 等技术,多张显卡如同一个高效协作的团队,分工合作,从而显著提升处理速度。 这种技术尤其适用于需要大规模计算的应用场景,例如制作复杂的动画或特效视频等。
SkyReels Infer 在低显存优化方面同样表现出色。 它采用了 fp8 量化和参数级卸载技术,即使是显存较小的普通显卡也能流畅运行 SkyReels Infer。
显存是显卡的关键参数,它决定了显卡能够同时处理的数据量。 过去,许多视频生成模型对显存要求较高,普通用户往往因显卡性能不足而无法使用。 而 SkyReels Infer 的低显存优化彻底改变了这一现状。 这意味着,用户无需购置昂贵的高端显卡,也能轻松体验视频生成模型的强大功能。 这无疑大幅降低了 AI 视频生成的使用门槛,让更多用户能够享受到 AI 技术带来的乐趣。
SkyReels Infer 基于开源的 Diffuser 库开发。 Diffuser 库是一个优秀的开源库,提供了丰富的功能和工具。 SkyReels Infer 基于 Diffuser 库开发,天然继承了其诸多优点。 对于开发者而言,这意味着可以快速上手,轻松将 SkyReels Infer 集成到现有项目中。
性能实测对比
SkyReels Infer 的实际性能表现究竟如何? 昆仑万维使用搭载 SkyReels Infer 推理框架的 SkyReels V1,与腾讯官方开源的 HunYuan-Video 进行了性能对比测试。 测试结果显示,在生成 544p 视频时,SkyReels V1 的速度和延迟均优于 HunYuan-Video。
不仅如此,SkyReels V1 还支持多卡部署策略,可同时利用 8 张显卡加速计算任务。 此外,SkyReels V1 兼容 A800 等高端显卡以及 RTX 4090 等消费级显卡,能够同时满足专业用户和普通用户的需求。
3. 开源表情动作可控算法 SkyReels A1:业内领先的 “AI 换脸” 技术
值得一提的是,在模型训练和推理环节之后,为了实现更精准、更可控的人物视频生成,昆仑万维还进一步开源了基于视频基座模型的表情动作可控算法 SkyReels A1。
SkyReels A1 是一种位于训练和推理底层技术之上的应用层算法,对标 Runway 公司的 Act-One 技术,能够实现电影级别的表情捕捉效果。
SkyReels A1 的 “AI 换脸” 玩法
Runway Act-One 与昆仑万维 SkyReels A1 的核心玩法均为 “AI 换脸”: 用户只需准备人物 A 的照片以及人物 B 的视频素材,即可将人物 B 的表情、动作和台词等信息直接移植到人物 A 身上。
在 ID 相似度 (Identity Similarity), 图像质量 (Image Quality), 表情 (Expression), 和 姿势 (Pose) 等指标的综合表现上,SkyReels A1 相较于业内同类开源算法,取得了 SOTA (State of the Art,最前沿) 级别的效果,与闭源的 Act-One 技术效果接近,且在生成质量上更具优势。
视频驱动的电影级表情捕捉
首先,SkyReels A1 能够实现视频驱动的电影级表情捕捉,相较 Runway Act-One,SkyReels A1 实现了更大幅度的人物表情驱动。
高保真微表情还原
其次是高保真微表情还原。 SkyReels A1 能够基于任意人体比例 (包括肖像、半身及全身构图) 生成高度逼真的人物动态视频。 这种真实感源于对人物表情变化和情绪的精准模拟,以及对皮肤肌理、身体动作跟随等多维度细节的深度还原。
例如,侧脸表情控制生成:
以及更逼真的眉眼微表情生成:
人脸保持与大幅动作处理
除了微表情,在人脸保持和大幅动作处理等方面,SkyReels A1 的表现也优于 Runway Act-One。 而人脸保持和大幅动作处理,恰恰是许多视频生成模型容易出错的环节。
例如,在以下案例中,最右侧人物的面部出现明显的变形失真,与原始人物形象不符。
SkyReels A1 还可以实现更大幅度的头部和自然身体动作。 在以下案例中,最右侧人物的身体几乎没有运动。
从实际效果不难看出,SkyReels A1 这套算法通过简化传统视频制作的复杂流程,为内容创作者提供了高效、灵活且低成本的解决方案,可广泛应用于各种创意内容的制作。
4. AI 短剧市场的 “DeepSeek 时刻”
SkyReels V1 和 SkyReels A1 的开源,仅仅是昆仑万维视频大模型开源计划的第一步。 未来,昆仑万维还将持续开源相关技术,包括专业级运镜控制版本、720P 分辨率模型参数、更大规模训练数据集训练的模型参数,以及支持全身可控生成的视频生成算法等。
事实上,开源早已融入昆仑万维的 DNA。 昆仑万维董事长兼 CEO 方汉,作为中文 Linux 奠基人、中文 Linux 四剑客之一及国内最早的网络安全专家,拥有 30 年的互联网从业经验。 方汉自 1994 年起便积极参与并倡导开源运动,是互联网领域开源理念的早期推动者。
方汉曾公开表示,开源大模型是商业闭源大模型的重要补充和替代方案,希望通过开源促进技术民主化,降低行业门槛。
早在 2022 年 12 月,昆仑万维便发布了 “昆仑天工” AIGC 全系列算法与模型,并宣布全面开源。 昆仑万维不仅是国内 AIGC 领域布局最全面的企业之一,也是国内首家全身心投入 AIGC 开源社区的公司。
在过去三年中,昆仑万维持续发布并开源天工系列大模型。 2024 年 4 月,昆仑万维发布并同步开源了天工大模型 3.0。 这是一款拥有 4000 亿参数的 MoE 超级模型,性能超越同期的 Grok1.0 模型。 2024 年 6 月,昆仑万维再次开源 2 千亿稀疏大模型天工 MoE,成为首个支持在单台 RTX 4090 服务器上进行推理的开源千亿 MoE 大模型。 2024 年 11 月,昆仑万维开源了 Skywork-o1-Open 等系列模型。
昆仑万维秉持开源技术信仰,致力于推动全行业实现 AGI (通用人工智能) 的梦想。
自 2020 年进入 AI 领域以来,昆仑万维已完成 “算力基础设施 - 大模型算法 - AI 应用” 全产业链布局,并构建了多元化的 AI 业务矩阵。
AI 短剧正是昆仑万维多元化 AI 应用矩阵中的一个重要细分领域。
AI 短剧是一个新兴市场,预计在 2025 年迎来高速增长。 TikTok for Business 发布的《2024 短剧出海营销白皮书》预测,未来海外市场月均短剧用户规模将达到 2-3 亿,市场规模有望达到 100 亿美元,市场潜力巨大。
2024 年 12 月,昆仑万维在美国上线 Skyreels AI 短剧平台,标志着昆仑万维在全球 AI 娱乐市场迈出了重要一步,同时也为北美观众带来了全新的智能短剧体验。 SkyReels AI 短剧平台不仅为专业内容创作者提供了强大的创作工具,更显著降低了 AI 短剧创作门槛,使非专业用户也能轻松上手。
AI 对全球影视产业的深远意义
AI 技术究竟将为全球影视产业带来怎样的变革?
昆仑万维董事长方汉在 2024 世界人工智能大会上发表演讲时指出,AI 在海外,尤其是在小语种国家,蕴藏着巨大的发展红利。
他以影视剧行业为例,指出在尼日利亚制作一部电影的成本约为 2 万美元。 这样的作品与中国耗资 3 亿人民币制作的《流浪地球》、美国耗资数亿美元制作的《阿凡达》相比,显然缺乏竞争力。 然而,AI 技术的出现有望弥合这一差距。
“我个人预测,3-5 年后,借助 AI 技术,制作一部《流浪地球》级别的大片,成本可能会降至数万美元。 这将为海外许多地区带来巨大的发展机遇。 各地人民都渴望看到本土化的文化产品,无论是小说、音乐、视频还是漫画,都需要更贴近本土文化的内容。 因此,AI 出海蕴藏着巨大的发展红利。” 方汉表示。
从更小的层面来看,AI 带来的红利在于文化产品制作成本的指数级降低,让 “一人一剧” 的创作模式成为可能。 从更大的层面来看,通过降低创作门槛,AIGC 技术赋能弱势文化群体自主生产内容,将推动全球文化平权,这正是科技向善的最佳体现。
行业普遍认为 AI 的出现是 “iPhone 时刻”,但方汉则认为,AI 更像是手机摄像头的革命,因为摄像头引发了拍摄方式的变革,进而催生了抖音、快手等庞大的短视频平台。 同样,AI 也将催生大量新型 AI UGC 平台,开启一个个性化内容生产与消费的黄金时代。
昆仑万维发布的 SkyReels V1 —— 首个面向 AI 短剧创作的开源视频生成模型,以及 SkyReels A1 —— 首个 SOTA 级别、基于视频基座模型的表情动作可控算法,正是推动 AIGC 时代加速到来的普惠工具。
AI 短剧市场,有望迎来属于它的 “DeepSeek 时刻”。