AI个人学习
和实操指南

Mochi 1 视频生成模型:开源视频生成模型中的SOTA

Genmo AI 是一家前沿的人工智能实验室,致力于开发最先进的开源视频生成模型。其旗舰产品 Mochi 1 是一款开源的视频生成模型,能够从文本提示生成高质量的视频。Genmo 的目标是通过视频生成技术推动人工智能的创新,提供无限的虚拟探索和创造可能。

Mochi 1 视频生成模型:开源视频生成模型中的SOTA-1


 

Models 是一个开源的视频生成模型库,主要展示了最新的Mochi 1模型。Mochi 1基于Asymmetric Diffusion Transformer (AsymmDiT)架构,拥有10亿参数,是目前公开发布的最大视频生成模型。该模型能够生成高质量、流畅的动作视频,并且对文本提示有很好的响应能力。

Mochi 1 预览版是一款开放的先进视频生成模型,具有高保真运动和强大的提示遵循性。我们的新模型大大缩小了封闭和开放视频生成系统之间的差距。我们将根据宽松的 Apache 2.0 许可证发布该模型。

 

Mochi 1 预览地址

Hugging Face(模型权重)

Playground(在线演示)

 

 

功能列表

  • 视频生成:通过输入文本提示生成高质量的视频内容。
  • 开源模型:Mochi 1 作为开源模型,允许用户进行个性化调整和二次开发。
  • 高保真运动质量:生成的视频具有流畅的运动和高保真的物理效果。
  • 强大的提示对齐:能够精确地根据文本提示生成符合用户需求的视频。
  • 社区支持:提供社区平台,用户可以分享和讨论生成的视频内容。
  • 多平台支持:支持在多个平台上使用,包括网页和移动设备。

 

Mochi 1 模型架构

Mochi 1 代表了开源视频生成的重大进步,它采用基于我们新颖的非对称扩散变换器 (AsymmDiT) 架构的 100 亿参数扩散模型。它完全从头开始训练,是有史以来公开发布的最大视频生成模型。最重要的是,它是一种简单且可破解的架构。

效率对于确保社区能够运行我们的模型至关重要。除了 Mochi,我们还开源了我们的视频 VAE。我们的 VAE 将视频压缩为 128 倍小尺寸,使用 8x8 空间和 6 倍时间压缩到 12 通道潜在空间。

AsymmDiT 通过简化文本处理并将神经网络容量集中在视觉推理上,高效处理用户提示和压缩视频标记。AsymmDiT 使用多模态自注意力机制共同关注文本和视觉标记,并为每种模态学习单独的 MLP 层,类似于 Stable Diffusion 3。但是,由于隐藏维度较大,我们的视觉流的参数数量几乎是文本流的 4 倍。为了统一自注意力机制中的模态,我们使用非方形 QKV 和输出投影层。这种非对称设计减少了推理内存需求。

许多现代传播模型使用多个预训练语言模型来表示用户提示。相比之下,Mochi 1 仅使用单个 T5-XXL 语言模型对提示进行编码。

Mochi 1 使用全 3D 注意力机制对 44,520 个视频标记的上下文窗口进行联合推理。为了定位每个标记,我们将可学习的旋转位置嵌入 (RoPE) 扩展到 3 维。网络端到端学习空间和时间轴的混合频率。

Mochi 受益于语言模型扩展的一些最新改进,包括 SwiGLU 前馈层、用于增强稳定性的查询键规范化,以及用于控制内部激活的夹层规范化。

随后将发布一份技术论文,提供更多细节以促进视频生成的进步。

 

Mochi 1 安装流程

  1. 克隆仓库 :
git clone https://github.com/genmoai/models
cd models
  1. 安装依赖 :
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
  1. 下载模型权重 : 从Hugging Face或通过磁力链接下载权重文件,并保存到本地文件夹。

使用流程

  1. 启动用户界面 :
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"

替换<path_to_downloaded_directory>为模型权重所在目录。

  1. 命令行生成视频 :
python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_downloaded_directory>"

替换<path_to_downloaded_directory>为模型权重所在目录。

 

在线体验 Mochi 1

  1. 进入生成页面:登录后,点击「Playground」进入视频生成页面。
  2. 输入提示:在提示框中输入你想要生成的视频描述。例如:「一个穿红色毛线摩托车头盔的30岁太空人冒险的电影预告」。
  3. 选择设置:根据需要选择视频的风格、分辨率等设置。
  4. 生成视频:点击「生成」按钮,系统将根据你的提示生成视频。
  5. 下载与分享:生成完成后,可以预览视频并下载到本地,或直接分享至社交媒体平台。

高级功能

  • 自定义模型:用户可以下载 Mochi 1 的模型权重,并在本地进行个性化训练和调整。
  • 社区互动:加入 Genmo 的 Discord 社区,与其他用户交流经验,分享生成的视频。
  • API 接口:开发者可以使用 Genmo 提供的 API 接口,将视频生成功能集成到自己的应用中。

常见问题

  • 视频生成失败:确保输入的提示语句清晰且具体,避免使用模糊或复杂的描述。
  • 登录问题:如果无法登录,请检查网络连接或尝试更换浏览器。
  • 模型下载:访问 Genmo 的 GitHub 页面,下载最新的 Mochi 1 模型权重。
AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » Mochi 1 视频生成模型:开源视频生成模型中的SOTA

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文