Genmo AI 是一家前沿的人工智能实验室,致力于开发最先进的开源视频生成模型。其旗舰产品 Mochi 1 是一款开源的视频生成模型,能够从文本提示生成高质量的视频。Genmo 的目标是通过视频生成技术推动人工智能的创新,提供无限的虚拟探索和创造可能。
Models 是一个开源的视频生成模型库,主要展示了最新的Mochi 1模型。Mochi 1基于Asymmetric Diffusion Transformer (AsymmDiT)架构,拥有10亿参数,是目前公开发布的最大视频生成模型。该模型能够生成高质量、流畅的动作视频,并且对文本提示有很好的响应能力。
Mochi 1 预览版是一款开放的先进视频生成模型,具有高保真运动和强大的提示遵循性。我们的新模型大大缩小了封闭和开放视频生成系统之间的差距。我们将根据宽松的 Apache 2.0 许可证发布该模型。
Mochi 1 预览地址
功能列表
- 视频生成:通过输入文本提示生成高质量的视频内容。
- 开源模型:Mochi 1 作为开源模型,允许用户进行个性化调整和二次开发。
- 高保真运动质量:生成的视频具有流畅的运动和高保真的物理效果。
- 强大的提示对齐:能够精确地根据文本提示生成符合用户需求的视频。
- 社区支持:提供社区平台,用户可以分享和讨论生成的视频内容。
- 多平台支持:支持在多个平台上使用,包括网页和移动设备。
Mochi 1 模型架构
Mochi 1 代表了开源视频生成的重大进步,它采用基于我们新颖的非对称扩散变换器 (AsymmDiT) 架构的 100 亿参数扩散模型。它完全从头开始训练,是有史以来公开发布的最大视频生成模型。最重要的是,它是一种简单且可破解的架构。
效率对于确保社区能够运行我们的模型至关重要。除了 Mochi,我们还开源了我们的视频 VAE。我们的 VAE 将视频压缩为 128 倍小尺寸,使用 8x8 空间和 6 倍时间压缩到 12 通道潜在空间。
AsymmDiT 通过简化文本处理并将神经网络容量集中在视觉推理上,高效处理用户提示和压缩视频标记。AsymmDiT 使用多模态自注意力机制共同关注文本和视觉标记,并为每种模态学习单独的 MLP 层,类似于 Stable Diffusion 3。但是,由于隐藏维度较大,我们的视觉流的参数数量几乎是文本流的 4 倍。为了统一自注意力机制中的模态,我们使用非方形 QKV 和输出投影层。这种非对称设计减少了推理内存需求。
许多现代传播模型使用多个预训练语言模型来表示用户提示。相比之下,Mochi 1 仅使用单个 T5-XXL 语言模型对提示进行编码。
Mochi 1 使用全 3D 注意力机制对 44,520 个视频标记的上下文窗口进行联合推理。为了定位每个标记,我们将可学习的旋转位置嵌入 (RoPE) 扩展到 3 维。网络端到端学习空间和时间轴的混合频率。
Mochi 受益于语言模型扩展的一些最新改进,包括 SwiGLU 前馈层、用于增强稳定性的查询键规范化,以及用于控制内部激活的夹层规范化。
随后将发布一份技术论文,提供更多细节以促进视频生成的进步。
Mochi 1 安装流程
- 克隆仓库 :
git clone https://github.com/genmoai/models
cd models
- 安装依赖 :
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
- 下载模型权重 : 从Hugging Face或通过磁力链接下载权重文件,并保存到本地文件夹。
使用流程
- 启动用户界面 :
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"
替换<path_to_downloaded_directory>
为模型权重所在目录。
- 命令行生成视频 :
python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_downloaded_directory>"
替换<path_to_downloaded_directory>
为模型权重所在目录。
在线体验 Mochi 1
- 进入生成页面:登录后,点击「Playground」进入视频生成页面。
- 输入提示:在提示框中输入你想要生成的视频描述。例如:「一个穿红色毛线摩托车头盔的30岁太空人冒险的电影预告」。
- 选择设置:根据需要选择视频的风格、分辨率等设置。
- 生成视频:点击「生成」按钮,系统将根据你的提示生成视频。
- 下载与分享:生成完成后,可以预览视频并下载到本地,或直接分享至社交媒体平台。
高级功能
- 自定义模型:用户可以下载 Mochi 1 的模型权重,并在本地进行个性化训练和调整。
- 社区互动:加入 Genmo 的 Discord 社区,与其他用户交流经验,分享生成的视频。
- API 接口:开发者可以使用 Genmo 提供的 API 接口,将视频生成功能集成到自己的应用中。
常见问题
- 视频生成失败:确保输入的提示语句清晰且具体,避免使用模糊或复杂的描述。
- 登录问题:如果无法登录,请检查网络连接或尝试更换浏览器。
- 模型下载:访问 Genmo 的 GitHub 页面,下载最新的 Mochi 1 模型权重。