LongCat-Video-Avatar 1.5 - 美团开源的音频驱动数字人视频生成模型

33.3K 00

LongCat-Video-Avatar 1.5是什么

LongCat-Video-Avatar 1.5 是美团 LongCat 团队开源的音频驱动数字人视频生成模型，基于 13.6B 参数的 LongCat-Video 基础模型构建，采用 MIT 协议完全开源。将音频编码器从 Wav2Vec2 升级为 Whisper-Large-v3，通过 DMD 蒸馏技术将推理步数从 50 步压缩至 8 步，效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。模型支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写三大核心任务，在唇形同步精度、长视频身份一致性、多人交互场景等方面达到生产级可用水平，在多项评测中超越 HeyGen、Kling Avatar 2.0 等头部商业闭源产品。

LongCat-Video-Avatar 1.5的功能特色

Audio-Text-to-Video (AT2V)：输入音频和文本提示词，生成对应人物说话视频。
Audio-Text-Image-to-Video (ATI2V)：输入音频、文本提示词和参考人像图片，生成指定身份的数字人视频。
Video Continuation（视频续写）：在已有视频片段基础上进行长视频续写，保持身份和画面一致性。
单流/多流音频输入：支持单人独白及多人对话场景，可区分不同说话者。
风格化泛化：除真人外，支持动漫角色、动物角色等非人类主体的音频驱动生成。
多分辨率输出：支持 480P 和 720P 分辨率输出，帧率 30fps。
INT8 量化推理：提供 INT8 量化版本，降低显存占用，支持消费级 GPU 部署。

LongCat-Video-Avatar 1.5的核心优势

音频编码器升级：从 Wav2Vec2 替换为 Whisper-Large-v3，更细致捕捉音素和韵律，唇形同步精度大幅提升，支持 99 种语言。
8 步高效推理：采用 DMD2 步数蒸馏技术，将扩散采样从 50 步压缩至 8 步，推理效率提升约 15 倍。
长视频身份一致性：通过跨块潜变量拼接（CLS）和参考跳跃注意力（RSA），实现分钟级视频的身份零漂移。
全身时序稳定性：解耦式无条件引导（DUG）策略，使静音时段也能生成自然的眨眼、呼吸等微动作，告别"静音即僵尸"。
GRPO 逐帧对齐：引入强化学习将人类偏好奖励细化到逐帧层面，优化手部变形、动作不连贯等细节。
生产级物理合理性：在 EvalTalker 基准测试中，物理合理性、时间稳定性、音视频协调性等多维度表现均衡领先。
低成本部署：采用"共享基础模型 + 多 LoRA 适配器"架构，替代传统三模型并行，显存开销大幅降低，RTX 4090（24GB）即可运行。

LongCat-Video-Avatar 1.5官网是什么

项目官网：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
GitHub仓库：https://github.com/meituan-longcat/LongCat-Video
HuggingFace模型库：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

LongCat-Video-Avatar 1.5的操作步骤

环境准备：克隆 GitHub 仓库 https://github.com/meituan-longcat/LongCat-Video，创建 Python 3.10 虚拟环境并安装依赖。
下载权重：通过 huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 下载模型权重至本地。
单人 Audio-Text-to-Video：运行 run_demo_avatar_single_audio_to_video.py，指定 --stage_1=at2v，配置 --model_type avatar-v1.5 --use_distill --use_int8。
单人 Audio-Image-to-Video：运行同上脚本，将 --stage_1 改为 ai2v，提供参考图像路径。
多人场景：运行 run_demo_avatar_multi_audio_to_video.py，准备包含多段音频的 JSON 配置文件。
视频续写：在基础命令上追加 --num_segments=5 --ref_img_index=10 --mask_frame_range=3 参数实现长视频生成。
参数调优：通过调整 audio_cfg（建议 3-5）控制唇形同步强度，在提示词中加入动作描述引导肢体语言。

LongCat-Video-Avatar 1.5的适用人群

数字人内容创作者：需要批量生产口播视频、虚拟主播内容的自媒体和 MCN 机构。
电商运营团队：需要生成商品讲解、带货直播切片等营销视频的品牌方和商家。
在线教育从业者：制作课程讲解、知识科普等需要稳定数字人出镜的教学内容。
短剧与娱乐制作方：需要虚拟演员、动画角色配音表演的内容制作团队。
AI 开发者与研究者：希望基于开源模型进行二次开发、微调或集成到自有产品中的技术团队。
本地化与配音工作室：需要多语言唇形同步视频生成以替代传统配音流程的影视后期团队。

LongCat-Video-Avatar 1.5的常见问题

Q：LongCat-Video-Avatar 1.5 是否可以商用？

A：模型权重采用 MIT 许可证发布，允许商业使用、修改和再分发，无任何版权费用。但官方项目页注明生成内容目前仅限学术使用，商业使用前建议仔细阅读官方最新条款。

Q：运行该模型需要什么硬件配置？

A：支持在消费级 GPU 上运行，如 RTX 4090（24GB 显存）。开启 INT8 量化后可进一步降低显存占用，8 步蒸馏也显著减少了对算力的要求。

Q：与 1.0 版本相比，1.5 最核心的升级是什么？

A：三大核心升级：① 音频编码器从 Wav2Vec2 换为 Whisper-Large，唇形同步和多语言能力大幅提升；② 引入 DMD 蒸馏，推理从约 50 步降至 8 步，效率提升约 15 倍；③ 构建高质量数据体系并应用 GRPO 逐帧对齐，长视频稳定性和手部表现显著改善。

Q：是否支持中文语音？

A：支持。Whisper-Large-v3 覆盖 99 种语言，训练数据按实际语言使用比例分布，对中文等非英语语言的音素对齐能力远优于 1.0 版本的 Wav2Vec2。

Q：生成视频的时长上限是多少？

A：通过原生视频续写能力（Video Continuation）和跨块潜变量拼接（CLS）机制，可实现分钟级长视频生成，且身份和画面质量在片段衔接处无明显损耗。

Q：目前有哪些已知的局限性？

A：① 对极端姿态（大幅转身）和复杂遮挡处理能力有限，可能出现短暂结构扭曲；② 情感表达的细腻度与顶尖真人表演仍有差距；③ 作为开源模型，缺乏 HeyGen 式的开箱即用云端编辑器和数字人资产库，企业直接集成需要一定开发投入。

灵珠 - 零门槛 AI 应用创作平台，精准解析需求

LanPaint：适配任何模型的ComfyUI图像修复工作流

最新AI资源 # AI图像放大与修复 # ComfyUI

1年前

095.7K

LimeWire：基于生成式AI的数字收藏NFT市场

最新AI资源 # AI副业赚钱项目 # AI在线生成图像 # AI音乐

2年前

086.9K

Twin AI：生成数字孪生视频的AI工具

最新AI资源 # AI图像转视频 # AI视频生成工具 # 口型同步

1年前

0102.4K

暂无评论

您必须登录才能参与评论！

立即登录