LongCat-Video-Avatar 1.5 - 美团开源的音频驱动数字人视频生成模型

Последние ресурсы по искусственному интеллектуОпубликовано 2 месяца назад Круг обмена ИИ

33.2K 00

LongCat-Video-Avatar 1.5是什么

LongCat-Video-Avatar 1.5 是美团 LongCat 团队开源的音频驱动数字人视频生成模型，基于 13.6B 参数的 LongCat-Video 基础模型构建，采用 MIT 协议完全开源。将音频编码器从 Wav2Vec2 升级为 Whisper-Large-v3，通过 DMD 蒸馏技术将推理步数从 50 步压缩至 8 步，效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。模型支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及视频续写三大核心任务，在唇形同步精度、长视频身份一致性、多人交互场景等方面达到生产级可用水平，在多项评测中超越 HeyGen、Kling Avatar 2.0 等头部商业闭源产品。

LongCat-Video-Avatar 1.5的功能特色

Audio-Text-to-Video (AT2V)：输入音频和文本提示词，生成对应人物说话视频。
Audio-Text-Image-to-Video (ATI2V)：输入音频、文本提示词和参考人像图片，生成指定身份的数字人视频。
Video Continuation（视频续写）：在已有视频片段基础上进行长视频续写，保持身份和画面一致性。
单流/多流音频输入：支持单人独白及多人对话场景，可区分不同说话者。
风格化泛化：除真人外，支持动漫角色、动物角色等非人类主体的音频驱动生成。
多分辨率输出：支持 480P 和 720P 分辨率输出，帧率 30fps。
INT8 量化推理：提供 INT8 量化版本，降低显存占用，支持消费级 GPU 部署。

LongCat-Video-Avatar 1.5的核心优势

音频编码器升级：从 Wav2Vec2 替换为 Whisper-Large-v3，更细致捕捉音素和韵律，唇形同步精度大幅提升，支持 99 种语言。
8 步高效推理：采用 DMD2 步数蒸馏技术，将扩散采样从 50 步压缩至 8 步，推理效率提升约 15 倍。
长视频身份一致性：通过跨块潜变量拼接（CLS）和参考跳跃注意力（RSA），实现分钟级视频的身份零漂移。
全身时序稳定性：解耦式无条件引导（DUG）策略，使静音时段也能生成自然的眨眼、呼吸等微动作，告别"静音即僵尸"。
GRPO 逐帧对齐：引入强化学习将人类偏好奖励细化到逐帧层面，优化手部变形、动作不连贯等细节。
生产级物理合理性：在 EvalTalker 基准测试中，物理合理性、时间稳定性、音视频协调性等多维度表现均衡领先。
Недорогое развертывание：采用"共享基础模型 + 多 LoRA 适配器"架构，替代传统三模型并行，显存开销大幅降低，RTX 4090（24GB）即可运行。

LongCat-Video-Avatar 1.5官网是什么

Веб-сайт проекта：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
Репозиторий GitHub:: https://github.com/meituan-longcat/LongCat-Video
Библиотека моделей HuggingFace：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

LongCat-Video-Avatar 1.5的操作步骤

Подготовка к защите окружающей среды：克隆 GitHub 仓库 https://github.com/meituan-longcat/LongCat-Video，创建 Python 3.10 虚拟环境并安装依赖。
взвешивание при загрузке: через huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 下载模型权重至本地。
单人 Audio-Text-to-Video: Беги run_demo_avatar_single_audio_to_video.pyНазначение --stage_1=at2v，配置 --model_type avatar-v1.5 --use_distill --use_int8.
单人 Audio-Image-to-Video：运行同上脚本，将 --stage_1 превратиться в ai2v，提供参考图像路径。
多人场景: Беги run_demo_avatar_multi_audio_to_video.py，准备包含多段音频的 JSON 配置文件。
Продолжение видео：在基础命令上追加 --num_segments=5 --ref_img_index=10 --mask_frame_range=3 参数实现长视频生成。
参数调优：通过调整 audio_cfg（建议 3-5）控制唇形同步强度，在提示词中加入动作描述引导肢体语言。

LongCat-Video-Avatar 1.5的适用人群

数字人内容创作者：需要批量生产口播视频、虚拟主播内容的自媒体和 MCN 机构。
电商运营团队：需要生成商品讲解、带货直播切片等营销视频的品牌方和商家。
Практикующие специалисты в области онлайн-образования：制作课程讲解、知识科普等需要稳定数字人出镜的教学内容。
短剧与娱乐制作方：需要虚拟演员、动画角色配音表演的内容制作团队。
AI 开发者与研究者：希望基于开源模型进行二次开发、微调或集成到自有产品中的技术团队。
本地化与配音工作室：需要多语言唇形同步视频生成以替代传统配音流程的影视后期团队。