MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

最新のAIリソース投稿：2ヶ月前 AIシェアリングサークル

23.2K 00

MOVA是什么

MOVA（MOSS-Video-and-Audio）是上海创智学院 OpenMOSS 团队联合模思智能（MOSI）开源的端到端音视频生成模型，是中国首个高性能开源音视频模型。突破了传统"先画面后配音"的级联流水线模式，实现真正的"音画同出"——单次推理即可生成最长8秒、最高720p分辨率的同步视听片段，支持多语言口型精准对齐与环境音效生成。

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA的功能特色

端到端音视频同步生成：单次推理同时生成视频画面与同步音频，无需后期配音
多语言口型同步：支持多种语言的人物说话视频生成，口型与语音精准对齐
环境音效生成：自动匹配场景环境音（如室内回声、户外自然声），增强沉浸感
双模态输入支持：支持"文本+图像"或纯文本提示词驱动生成
多人物对话生成：可生成多人同时说话互动的场景，保持语音分离与对口型

MOVA的核心优势

真正的音画一体：采用Aligned ROPE时间对齐机制，解决传统方案音画不同步、口型僵硬问题
异构双塔架构：14B Wan 2.2 I2V视频骨干+1.3B音频扩散模型，双向交叉注意力实现模态深度融合
全栈开源生态：模型权重、训练代码、推理代码、微调方案全部公开，打破闭源垄断
国产算力支持：首批支持昇腾AI全栈算力，已完成从数据标注到预训练验证的全流程适配
灵活分辨率：提供720p高质量版与360p轻量版，后者降低硬件门槛支持单卡推理
工业级水准：在Verse-Bench评测中口型同步指标（LSE-D 7.094）达到行业领先水平

MOVA官网是什么

プロジェクトのウェブサイト：https://mosi.cn/models/mova
GitHubリポジトリ：https://github.com/OpenMOSS/MOVA
HuggingFaceモデルライブラリ：https://huggingface.co/collections/OpenMOSS-Team/mova

MOVA的适用人群

AI视频创作者：快速生成带配音的人物口播、对话场景素材，无需后期配音剪辑
映画・テレビ制作チーム：用于预演分镜、生成带环境音的氛围镜头，加速前期创意验证
广告营销从业者：制作多语言版本的口播广告，保持代言人形象与口型自然同步
独立开发者与研究者：基于开源代码二次开发，训练垂直领域专用音视频模型
教育内容生产者：生成带同步讲解的教学视频，支持多语言版本快速本土化
硬件受限用户：使用360p版本在个人工作站或消费级GPU上进行本地化音视频生成

最新のAIリソース

© 著作権表示

記事の著作権 AIシェアリングサークル無断転載はご遠慮ください。

関連記事

Question.AI：提供AI作业辅导助手，快速解决课程问题，作业帮海外推出的AI 教育App

Question.AI：講座の問題を素早く解決するAI宿題チューターアシスタントを提供、宿題ヘルプAI教育アプリが海外でローンチ

最新のAIリソース # AI教育ツール

1年前

060K

LibreChat：模仿ChatGPT界面交互的AI对话开源项目

LibreChat: ChatGPTインターフェイスを模倣したAI対話オープンソースプロジェクト

最新のAIリソース # AI Java オープンソースプロジェクト # AIローカライズチャットアプリケーション

2年前

088.8K

RedOne - 小红书最新推出的社交大模型

RedOne - リトルレッドブックの最新ソーシャルメガモデル

最新のAIリソース

8ヶ月前

043.7K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - バイト、HKU共同オープンソース視覚推論モデル

最新のAIリソース

7ヶ月前

034.2K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません