LongCat-Video-Avatar 1.5 - 美团开源的音频驱动数字人视频生成模型

堆友AI

LongCat-Video-Avatar 1.5是什么

LongCat-Video-Avatar 1.5 是美团 LongCat 团队开源的音频驱动数字人视频生成模型,基于 13.6B 参数的 LongCat-Video 基础模型构建,采用 MIT 协议完全开源。将音频编码器从 Wav2Vec2 升级为 Whisper-Large-v3,通过 DMD 蒸馏技术将推理步数从 50 步压缩至 8 步,效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。模型支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写三大核心任务,在唇形同步精度、长视频身份一致性、多人交互场景等方面达到生产级可用水平,在多项评测中超越 HeyGen、Kling Avatar 2.0 等头部商业闭源产品。

LongCat-Video-Avatar 1.5 - 美团开源的音频驱动数字人视频生成模型

LongCat-Video-Avatar 1.5的功能特色

  • Audio-Text-to-Video (AT2V):输入音频和文本提示词,生成对应人物说话视频。
  • Audio-Text-Image-to-Video (ATI2V):输入音频、文本提示词和参考人像图片,生成指定身份的数字人视频。
  • Video Continuation(视频续写):在已有视频片段基础上进行长视频续写,保持身份和画面一致性。
  • 单流/多流音频输入:支持单人独白及多人对话场景,可区分不同说话者。
  • 风格化泛化:除真人外,支持动漫角色、动物角色等非人类主体的音频驱动生成。
  • 多分辨率输出:支持 480P 和 720P 分辨率输出,帧率 30fps。
  • INT8 量化推理:提供 INT8 量化版本,降低显存占用,支持消费级 GPU 部署。

LongCat-Video-Avatar 1.5的核心优势

  • 音频编码器升级:从 Wav2Vec2 替换为 Whisper-Large-v3,更细致捕捉音素和韵律,唇形同步精度大幅提升,支持 99 种语言。
  • 8 步高效推理:采用 DMD2 步数蒸馏技术,将扩散采样从 50 步压缩至 8 步,推理效率提升约 15 倍。
  • 长视频身份一致性:通过跨块潜变量拼接(CLS)和参考跳跃注意力(RSA),实现分钟级视频的身份零漂移。
  • 全身时序稳定性:解耦式无条件引导(DUG)策略,使静音时段也能生成自然的眨眼、呼吸等微动作,告别"静音即僵尸"。
  • GRPO 逐帧对齐:引入强化学习将人类偏好奖励细化到逐帧层面,优化手部变形、动作不连贯等细节。
  • 生产级物理合理性:在 EvalTalker 基准测试中,物理合理性、时间稳定性、音视频协调性等多维度表现均衡领先。
  • Недорогое развертывание:采用"共享基础模型 + 多 LoRA 适配器"架构,替代传统三模型并行,显存开销大幅降低,RTX 4090(24GB)即可运行。

LongCat-Video-Avatar 1.5官网是什么

  • Веб-сайт проекта:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
  • Репозиторий GitHub:: https://github.com/meituan-longcat/LongCat-Video
  • Библиотека моделей HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

LongCat-Video-Avatar 1.5的操作步骤

  • Подготовка к защите окружающей среды:克隆 GitHub 仓库 https://github.com/meituan-longcat/LongCat-Video,创建 Python 3.10 虚拟环境并安装依赖。
  • взвешивание при загрузке: через huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 下载模型权重至本地。
  • 单人 Audio-Text-to-Video: Беги run_demo_avatar_single_audio_to_video.pyНазначение --stage_1=at2v,配置 --model_type avatar-v1.5 --use_distill --use_int8.
  • 单人 Audio-Image-to-Video:运行同上脚本,将 --stage_1 превратиться в ai2v,提供参考图像路径。
  • 多人场景: Беги run_demo_avatar_multi_audio_to_video.py,准备包含多段音频的 JSON 配置文件。
  • Продолжение видео:在基础命令上追加 --num_segments=5 --ref_img_index=10 --mask_frame_range=3 参数实现长视频生成。
  • 参数调优:通过调整 audio_cfg(建议 3-5)控制唇形同步强度,在提示词中加入动作描述引导肢体语言。

LongCat-Video-Avatar 1.5的适用人群

  • 数字人内容创作者:需要批量生产口播视频、虚拟主播内容的自媒体和 MCN 机构。
  • 电商运营团队:需要生成商品讲解、带货直播切片等营销视频的品牌方和商家。
  • Практикующие специалисты в области онлайн-образования:制作课程讲解、知识科普等需要稳定数字人出镜的教学内容。
  • 短剧与娱乐制作方:需要虚拟演员、动画角色配音表演的内容制作团队。
  • AI 开发者与研究者:希望基于开源模型进行二次开发、微调或集成到自有产品中的技术团队。
  • 本地化与配音工作室:需要多语言唇形同步视频生成以替代传统配音流程的影视后期团队。

LongCat-Video-Avatar 1.5的常见问题

Q:LongCat-Video-Avatar 1.5 是否可以商用?

A:模型权重采用 MIT 许可证发布,允许商业使用、修改和再分发,无任何版权费用。但官方项目页注明生成内容目前仅限学术使用,商业使用前建议仔细阅读官方最新条款。


Q:运行该模型需要什么硬件配置?

A:支持在消费级 GPU 上运行,如 RTX 4090(24GB 显存)。开启 INT8 量化后可进一步降低显存占用,8 步蒸馏也显著减少了对算力的要求。


Q:与 1.0 版本相比,1.5 最核心的升级是什么?

A:三大核心升级:① 音频编码器从 Wav2Vec2 换为 Whisper-Large,唇形同步和多语言能力大幅提升;② 引入 DMD 蒸馏,推理从约 50 步降至 8 步,效率提升约 15 倍;③ 构建高质量数据体系并应用 GRPO 逐帧对齐,长视频稳定性和手部表现显著改善。


Q:是否支持中文语音?

A:支持。Whisper-Large-v3 覆盖 99 种语言,训练数据按实际语言使用比例分布,对中文等非英语语言的音素对齐能力远优于 1.0 版本的 Wav2Vec2。


Q:生成视频的时长上限是多少?

A:通过原生视频续写能力(Video Continuation)和跨块潜变量拼接(CLS)机制,可实现分钟级长视频生成,且身份和画面质量在片段衔接处无明显损耗。


Q:目前有哪些已知的局限性?
A:① 对极端姿态(大幅转身)和复杂遮挡处理能力有限,可能出现短暂结构扭曲;② 情感表达的细腻度与顶尖真人表演仍有差距;③ 作为开源模型,缺乏 HeyGen 式的开箱即用云端编辑器和数字人资产库,企业直接集成需要一定开发投入。
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...