Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

30.4K 00

Kaleido是什么

Kaleido是合肥工业大学、清华大学和智谱AI联合开发的开源多主体参考视频生成模型。通过多个参考图像生成主体一致的视频，解决了现有模型在多主体一致性和背景解耦方面的不足。Kaleido通过专门的数据构建管道，包括低质量样本过滤和多样化数据合成，生成高质量的训练数据。其创新的参考旋转位置编码（R-RoPE）机制能稳定且精准地整合多张参考图像，在多主体场景下保持一致性。Kaleido在多个基准测试中表现出色，显著优于先前的方法，在一致性、保真度和泛化能力方面都有显著提升。

Kaleido的功能特色

数据构建管道创新：采用多阶段可扩展的S2V数据构建管道，包括视频切片/字幕、主体定位、质量过滤、背景解耦和姿态-运动增强等步骤，有效提升数据的多样性和质量，为模型训练提供高质量样本。
R-RoPE机制：引入参考旋转位置编码（R-RoPE），为参考图像赋予独特的旋转位置编码，实现多参考图像的稳定整合，显著提升多主体场景下的一致性，避免主体混淆。
性能卓越：在多个基准测试中，Kaleido在主体一致性、背景解耦、视频质量等方面均显著优于现有方法，表现出色，尤其在美学质量与视频平滑度上接近闭源模型水平。

Kaleido的核心优势

数据多样性与高质量：通过多阶段数据构建管道，实现低质量样本过滤和多样化数据合成，确保训练数据的丰富性和高保真度，为模型性能提升奠定基础。
多主体一致性：创新的R-RoPE机制有效整合多张参考图像，显著提升多主体场景下的一致性，避免主体混淆，生成高质量多主体视频。
背景解耦能力：在背景解耦方面表现出色，能清晰分离主体与背景，避免背景污染，提升视频生成的自然度和真实感。
卓越性能表现：在多个基准测试中，Kaleido在主体一致性、背景解耦、视频质量、美学质量及视频平滑度等方面均显著优于现有方法，接近甚至超越闭源模型水平。
开源推动生态：作为开源项目，Kaleido为视频生成领域的研究和应用提供了强大支持，推动了整个领域的技术发展和生态建设，具有广泛的应用前景。