LongCat-Video-Avatar 1.5是什么
LongCat-Video-Avatar 1.5 是美团 LongCat 团队开源的音频驱动数字人视频生成模型,基于 13.6B 参数的 LongCat-Video 基础模型构建,采用 MIT 协议完全开源。将音频编码器从 Wav2Vec2 升级为 Whisper-Large-v3,通过 DMD 蒸馏技术将推理步数从 50 步压缩至 8 步,效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。模型支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写三大核心任务,在唇形同步精度、长视频身份一致性、多人交互场景等方面达到生产级可用水平,在多项评测中超越 HeyGen、Kling Avatar 2.0 等头部商业闭源产品。
LongCat-Video-Avatar 1.5的功能特色
- Audio-Text-to-Video (AT2V):输入音频和文本提示词,生成对应人物说话视频。
- Audio-Text-Image-to-Video (ATI2V):输入音频、文本提示词和参考人像图片,生成指定身份的数字人视频。
- Video Continuation(视频续写):在已有视频片段基础上进行长视频续写,保持身份和画面一致性。
- 单流/多流音频输入:支持单人独白及多人对话场景,可区分不同说话者。
- 风格化泛化:除真人外,支持动漫角色、动物角色等非人类主体的音频驱动生成。
- 多分辨率输出:支持 480P 和 720P 分辨率输出,帧率 30fps。
- INT8 量化推理:提供 INT8 量化版本,降低显存占用,支持消费级 GPU 部署。
LongCat-Video-Avatar 1.5的核心优势
- 音频编码器升级:从 Wav2Vec2 替换为 Whisper-Large-v3,更细致捕捉音素和韵律,唇形同步精度大幅提升,支持 99 种语言。
- 8 步高效推理:采用 DMD2 步数蒸馏技术,将扩散采样从 50 步压缩至 8 步,推理效率提升约 15 倍。
- 长视频身份一致性:通过跨块潜变量拼接(CLS)和参考跳跃注意力(RSA),实现分钟级视频的身份零漂移。
- 全身时序稳定性:解耦式无条件引导(DUG)策略,使静音时段也能生成自然的眨眼、呼吸等微动作,告别"静音即僵尸"。
- GRPO 逐帧对齐:引入强化学习将人类偏好奖励细化到逐帧层面,优化手部变形、动作不连贯等细节。
- 生产级物理合理性:在 EvalTalker 基准测试中,物理合理性、时间稳定性、音视频协调性等多维度表现均衡领先。
- 低成本部署:采用"共享基础模型 + 多 LoRA 适配器"架构,替代传统三模型并行,显存开销大幅降低,RTX 4090(24GB)即可运行。
LongCat-Video-Avatar 1.5官网是什么
- 项目官网:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
- GitHub仓库:https://github.com/meituan-longcat/LongCat-Video
- HuggingFace模型库:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
LongCat-Video-Avatar 1.5的操作步骤
- 环境准备:克隆 GitHub 仓库
https://github.com/meituan-longcat/LongCat-Video,创建 Python 3.10 虚拟环境并安装依赖。 - 下载权重:通过
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5下载模型权重至本地。 - 单人 Audio-Text-to-Video:运行
run_demo_avatar_single_audio_to_video.py,指定--stage_1=at2v,配置--model_type avatar-v1.5 --use_distill --use_int8。 - 单人 Audio-Image-to-Video:运行同上脚本,将
--stage_1改为ai2v,提供参考图像路径。 - 多人场景:运行
run_demo_avatar_multi_audio_to_video.py,准备包含多段音频的 JSON 配置文件。 - 视频续写:在基础命令上追加
--num_segments=5 --ref_img_index=10 --mask_frame_range=3参数实现长视频生成。 - 参数调优:通过调整
audio_cfg(建议 3-5)控制唇形同步强度,在提示词中加入动作描述引导肢体语言。
LongCat-Video-Avatar 1.5的适用人群
- 数字人内容创作者:需要批量生产口播视频、虚拟主播内容的自媒体和 MCN 机构。
- 电商运营团队:需要生成商品讲解、带货直播切片等营销视频的品牌方和商家。
- 在线教育从业者:制作课程讲解、知识科普等需要稳定数字人出镜的教学内容。
- 短剧与娱乐制作方:需要虚拟演员、动画角色配音表演的内容制作团队。
- AI 开发者与研究者:希望基于开源模型进行二次开发、微调或集成到自有产品中的技术团队。
- 本地化与配音工作室:需要多语言唇形同步视频生成以替代传统配音流程的影视后期团队。
LongCat-Video-Avatar 1.5的常见问题
Q:LongCat-Video-Avatar 1.5 是否可以商用?
A:模型权重采用 MIT 许可证发布,允许商业使用、修改和再分发,无任何版权费用。但官方项目页注明生成内容目前仅限学术使用,商业使用前建议仔细阅读官方最新条款。
Q:运行该模型需要什么硬件配置?
A:支持在消费级 GPU 上运行,如 RTX 4090(24GB 显存)。开启 INT8 量化后可进一步降低显存占用,8 步蒸馏也显著减少了对算力的要求。
Q:与 1.0 版本相比,1.5 最核心的升级是什么?
A:三大核心升级:① 音频编码器从 Wav2Vec2 换为 Whisper-Large,唇形同步和多语言能力大幅提升;② 引入 DMD 蒸馏,推理从约 50 步降至 8 步,效率提升约 15 倍;③ 构建高质量数据体系并应用 GRPO 逐帧对齐,长视频稳定性和手部表现显著改善。
Q:是否支持中文语音?
A:支持。Whisper-Large-v3 覆盖 99 种语言,训练数据按实际语言使用比例分布,对中文等非英语语言的音素对齐能力远优于 1.0 版本的 Wav2Vec2。
Q:生成视频的时长上限是多少?
A:通过原生视频续写能力(Video Continuation)和跨块潜变量拼接(CLS)机制,可实现分钟级长视频生成,且身份和画面质量在片段衔接处无明显损耗。
Q:目前有哪些已知的局限性?
A:① 对极端姿态(大幅转身)和复杂遮挡处理能力有限,可能出现短暂结构扭曲;② 情感表达的细腻度与顶尖真人表演仍有差距;③ 作为开源模型,缺乏 HeyGen 式的开箱即用云端编辑器和数字人资产库,企业直接集成需要一定开发投入。
© 版权声明
文章版权归 AI分享圈 所有,未经允许请勿转载。
相关文章
暂无评论...




