LongCat-Video - 美团LongCat开源的视频生成模型

49.3K 00

LongCat-Video是什么

LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型，采用MIT开源协议，支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制，能在数分钟内生成720P高清长视频，保持色彩一致性且无质量衰减。技术亮点包括多奖励强化学习优化，性能接近商业级SOTA模型，在内部测试中多项指标超越同类开源模型。模型已在Hugging Face和GitHub开源，提供文本/图像输入、视频续写等一键式部署方案。

LongCat-Video的功能特色

多任务能力：能同时处理文本到视频、图像到视频和视频续写等多种视频生成任务。
长视频生成：擅长生成几分钟长的高质量视频，保持内容连贯性和视觉质量。
高效推理：采用先进的技术策略，快速生成高分辨率视频，显著缩短生成时间。
性能优化：通过多奖励强化学习优化，确保生成视频在多个维度上表现出色。
开源易用：模型权重开源，提供详细的使用指南和代码示例，方便开发者快速上手和应用。

LongCat-Video的核心优势

多任务一体化：一个模型即可完成文本到视频、图像到视频和视频续写等多种任务，无需针对不同任务切换模型。
长视频生成能力：能生成几分钟长的视频，在生成过程中不会出现色彩漂移或质量下降，保持视频的连贯性和稳定性。
高效推理性能：通过粗到细的生成策略和Block Sparse Attention技术，能够在短时间内生成高质量的720p、30fps视频，显著提升推理效率。
多奖励强化学习优化：借助多奖励Group Relative Policy Optimization（GRPO），在文本对齐、视觉质量和运动质量等多个维度上表现出色，生成的视频质量与领先的开源和商业解决方案相当。