MOVA - 创智学院联合模思智能开源的端到端音视频生成模型
MOVA是什么
MOVA(MOSS-Video-and-Audio) 是上海创智学院 OpenMOSS 团队联合模思智能(MOSI)开源的端到端音视频生成模型,是中国首个高性能开源音视频模型。突破了传统"先画面后配音"的级联流水线模式,实现真正的"音画同出"——单次推理即可生成最长8秒、最高720p分辨率的同步视听片段,支持多语言口型精准对齐与环境音效生成。

MOVA的功能特色
- 端到端音视频同步生成:单次推理同时生成视频画面与同步音频,无需后期配音
- 多语言口型同步:支持多种语言的人物说话视频生成,口型与语音精准对齐
- 环境音效生成:自动匹配场景环境音(如室内回声、户外自然声),增强沉浸感
- 双模态输入支持:支持"文本+图像"或纯文本提示词驱动生成
- 多人物对话生成:可生成多人同时说话互动的场景,保持语音分离与对口型
MOVA的核心优势
- 真正的音画一体:采用Aligned ROPE时间对齐机制,解决传统方案音画不同步、口型僵硬问题
- 异构双塔架构:14B Wan 2.2 I2V视频骨干+1.3B音频扩散模型,双向交叉注意力实现模态深度融合
- 全栈开源生态:模型权重、训练代码、推理代码、微调方案全部公开,打破闭源垄断
- 国产算力支持:首批支持昇腾AI全栈算力,已完成从数据标注到预训练验证的全流程适配
- 灵活分辨率:提供720p高质量版与360p轻量版,后者降低硬件门槛支持单卡推理
- 工业级水准:在Verse-Bench评测中口型同步指标(LSE-D 7.094)达到行业领先水平
MOVA官网是什么
- プロジェクトのウェブサイト:https://mosi.cn/models/mova
- GitHubリポジトリ:https://github.com/OpenMOSS/MOVA
- HuggingFaceモデルライブラリ:https://huggingface.co/collections/OpenMOSS-Team/mova
MOVA的适用人群
- AI视频创作者:快速生成带配音的人物口播、对话场景素材,无需后期配音剪辑
- 映画・テレビ制作チーム:用于预演分镜、生成带环境音的氛围镜头,加速前期创意验证
- 广告营销从业者:制作多语言版本的口播广告,保持代言人形象与口型自然同步
- 独立开发者与研究者:基于开源代码二次开发,训练垂直领域专用音视频模型
- 教育内容生产者:生成带同步讲解的教学视频,支持多语言版本快速本土化
- 硬件受限用户:使用360p版本在个人工作站或消费级GPU上进行本地化音视频生成
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




