Kaleido是什么
Kaleido是合肥工业大学、清华大学和智谱AI联合开发的开源多主体参考视频生成模型。通过多个参考图像生成主体一致的视频,解决了现有模型在多主体一致性和背景解耦方面的不足。Kaleido通过专门的数据构建管道,包括低质量样本过滤和多样化数据合成,生成高质量的训练数据。其创新的参考旋转位置编码(R-RoPE)机制能稳定且精准地整合多张参考图像,在多主体场景下保持一致性。Kaleido在多个基准测试中表现出色,显著优于先前的方法,在一致性、保真度和泛化能力方面都有显著提升。

Kaleido的功能特色
- 数据构建管道创新:采用多阶段可扩展的S2V数据构建管道,包括视频切片/字幕、主体定位、质量过滤、背景解耦和姿态-运动增强等步骤,有效提升数据的多样性和质量,为模型训练提供高质量样本。
- R-RoPE机制:引入参考旋转位置编码(R-RoPE),为参考图像赋予独特的旋转位置编码,实现多参考图像的稳定整合,显著提升多主体场景下的一致性,避免主体混淆。
- 性能卓越:在多个基准测试中,Kaleido在主体一致性、背景解耦、视频质量等方面均显著优于现有方法,表现出色,尤其在美学质量与视频平滑度上接近闭源模型水平。
Kaleido的核心优势
- 数据多样性与高质量:通过多阶段数据构建管道,实现低质量样本过滤和多样化数据合成,确保训练数据的丰富性和高保真度,为模型性能提升奠定基础。
- 多主体一致性:创新的R-RoPE机制有效整合多张参考图像,显著提升多主体场景下的一致性,避免主体混淆,生成高质量多主体视频。
- 背景解耦能力:在背景解耦方面表现出色,能清晰分离主体与背景,避免背景污染,提升视频生成的自然度和真实感。
- 卓越性能表现:在多个基准测试中,Kaleido在主体一致性、背景解耦、视频质量、美学质量及视频平滑度等方面均显著优于现有方法,接近甚至超越闭源模型水平。
- 开源推动生态:作为开源项目,Kaleido为视频生成领域的研究和应用提供了强大支持,推动了整个领域的技术发展和生态建设,具有广泛的应用前景。
Kaleido官网是什么
- 项目官网:https://criliasmiller.github.io/Kaleido_Project/
- GitHub仓库:https://github.com/zai-org/Kaleido
- HuggingFace模型库:https://huggingface.co/zai-org/Kaleido-14B-S2V
- arXiv技术论文:https://arxiv.org/pdf/2510.18573
Kaleido的适用人群
- 视频内容创作者:用Kaleido快速生成高质量视频,节省拍摄和后期制作成本,适用于广告、电商、影视等领域的内容创作。
- 人工智能研究人员:作为开源模型,Kaleido为研究人员提供了丰富的实验数据和先进的技术框架,便于开展视频生成相关的研究工作。
- 开发者与工程师:可以将Kaleido集成到自己的项目中,开发新的应用或优化现有系统,适用于需要视频生成功能的软件和平台开发。
- 创意设计人员:能借助Kaleido的多主体视频生成能力,快速实现创意构思,为设计工作提供新的思路和素材。
- 教育工作者与学生:可用于教学和学习,帮助学生理解视频生成技术的原理和应用,培养相关技能和创新能力。
© 版权声明
文章版权归 AI分享圈 所有,未经允许请勿转载。
相关文章
暂无评论...




