Mochi 1 视频生成模型：开源视频生成模型中的SOTA

52.6K 00

Genmo AI 是一家前沿的人工智能实验室，致力于开发最先进的开源视频生成模型。其旗舰产品 Mochi 1 是一款开源的视频生成模型，能够从文本提示生成高质量的视频。Genmo 的目标是通过视频生成技术推动人工智能的创新，提供无限的虚拟探索和创造可能。

Models 是一个开源的视频生成模型库，主要展示了最新的Mochi 1模型。Mochi 1基于Asymmetric Diffusion Transformer (AsymmDiT)架构，拥有10亿参数，是目前公开发布的最大视频生成模型。该模型能够生成高质量、流畅的动作视频，并且对文本提示有很好的响应能力。

Mochi 1 预览版是一款开放的先进视频生成模型，具有高保真运动和强大的提示遵循性。我们的新模型大大缩小了封闭和开放视频生成系统之间的差距。我们将根据宽松的 Apache 2.0 许可证发布该模型。

Mochi 1 预览地址

Hugging Face（模型权重）

Playground（在线演示）

[bilibili]https://www.bilibili.com/video/BV1FRy6YeEui/[/bilibili]

功能列表

视频生成：通过输入文本提示生成高质量的视频内容。
开源模型：Mochi 1 作为开源模型，允许用户进行个性化调整和二次开发。
高保真运动质量：生成的视频具有流畅的运动和高保真的物理效果。
强大的提示对齐：能够精确地根据文本提示生成符合用户需求的视频。
社区支持：提供社区平台，用户可以分享和讨论生成的视频内容。
多平台支持：支持在多个平台上使用，包括网页和移动设备。

Mochi 1 模型架构

Mochi 1 代表了开源视频生成的重大进步，它采用基于我们新颖的非对称扩散变换器 (AsymmDiT) 架构的 100 亿参数扩散模型。它完全从头开始训练，是有史以来公开发布的最大视频生成模型。最重要的是，它是一种简单且可破解的架构。

效率对于确保社区能够运行我们的模型至关重要。除了 Mochi，我们还开源了我们的视频 VAE。我们的 VAE 将视频压缩为 128 倍小尺寸，使用 8x8 空间和 6 倍时间压缩到 12 通道潜在空间。

AsymmDiT 通过简化文本处理并将神经网络容量集中在视觉推理上，高效处理用户提示和压缩视频标记。AsymmDiT 使用多模态自注意力机制共同关注文本和视觉标记，并为每种模态学习单独的 MLP 层，类似于 Stable Diffusion 3。但是，由于隐藏维度较大，我们的视觉流的参数数量几乎是文本流的 4 倍。为了统一自注意力机制中的模态，我们使用非方形 QKV 和输出投影层。这种非对称设计减少了推理内存需求。

许多现代传播模型使用多个预训练语言模型来表示用户提示。相比之下，Mochi 1 仅使用单个 T5-XXL 语言模型对提示进行编码。

Mochi 1 使用全 3D 注意力机制对 44,520 个视频标记的上下文窗口进行联合推理。为了定位每个标记，我们将可学习的旋转位置嵌入 (RoPE) 扩展到 3 维。网络端到端学习空间和时间轴的混合频率。

Mochi 受益于语言模型扩展的一些最新改进，包括 SwiGLU 前馈层、用于增强稳定性的查询键规范化，以及用于控制内部激活的夹层规范化。

随后将发布一份技术论文，提供更多细节以促进视频生成的进步。

Mochi 1 安装流程

克隆仓库 ：

git clone https://github.com/genmoai/models
cd models

安装依赖 ：

pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

下载模型权重 ：从Hugging Face或通过磁力链接下载权重文件，并保存到本地文件夹。

使用流程

启动用户界面 ：

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"

替换<path_to_downloaded_directory>为模型权重所在目录。

命令行生成视频 ：

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_downloaded_directory>"

替换<path_to_downloaded_directory>为模型权重所在目录。