综合介绍
NVIDIA Cosmos 是一个面向开发者的世界基础模型平台,专门设计用于帮助物理人工智能开发者更好、更快地构建其物理人工智能系统。该平台提供了一系列预训练模型,包括基于扩散和自回归的世界基础模型,以及用于高效视频处理的tokenizer。NVIDIA Cosmos 支持文本到视觉世界生成(Text2World)和视频到视觉世界生成(Video2World)等功能,能够基于文本提示或视频输入生成视觉模拟。该平台采用开源方式发布,模型训练和微调脚本采用Apache 2许可证,预训练模型则采用NVIDIA开放模型许可证。平台特别优化了对物理场景的理解和生成能力,为机器人技术和自动驾驶等领域提供了强大的基础模型支持。
什么是 NVIDIA Cosmos?
NVIDIA Cosmos™ 是一个先进的生成式世界基础模型 (WFM) 平台,它包括先进的 Tokenizer、防护机制以及加速数据处理和管理流程,旨在加速自动驾驶汽车 (AV) 和机器人等物理 AI 系统的开发。一个为物理 AI 开发而专门构建的、用于生成具有物理感知能力的视频和世界状态的预训练模型系列。
在线体验:https://build.nvidia.com/explore/discover
功能列表
- 提供基于扩散的世界基础模型,支持Text2World和Video2World生成
- 提供基于自回归的世界基础模型,支持Video2World生成
- 高效的视频tokenizer,支持连续和离散token的视频转换
- 预训练模型的后训练脚本,用于适配不同物理人工智能场景
- 视频数据集管理流程工具(即将推出)
- 完整的训练脚本,支持构建自定义世界基础模型
- 内置安全防护系统,确保生成内容的安全性
- 支持多种模型规模(4B/5B/12B/13B参数)以适应不同硬件配置
- 灵活的模型卸载策略,支持低显存环境运行
使用帮助
1. 环境配置
首先需要设置Docker环境,按照安装指南配置所需环境。所有命令都需要在Docker内运行。
2. 模型下载
- 生成Hugging Face访问令牌,设置为"Read"权限
- 使用以下命令登录Hugging Face:
huggingface-cli login
- 下载Cosmos模型权重:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3. 模型类型和使用场景
Cosmos提供两种主要类型的模型:
基础模型 (Base Models)
- 模型版本:4B和12B参数规模
- 主要功能:支持从图像/视频输入生成世界模拟
- 适用场景:需要基于现有视觉内容进行场景延伸和预测
Video2World模型
- 模型版本:5B和13B参数规模
- 主要功能:支持同时使用文本和图像/视频输入生成世界模拟
- 适用场景:需要根据文本描述对视觉内容进行定向生成和修改
4. 生成能力和性能指标
- 支持生成最多33帧的视频序列
- 输入支持单张图像或9帧视频
- 分辨率固定为1024x640
- 在H100 GPU上的推理时间:
- 4B模型:约62秒
- 12B模型:约119秒
- 5B Video2World模型:约73秒
- 13B Video2World模型:约150秒
5. 显存优化策略
Cosmos提供多种显存优化选项,可以通过不同的模型卸载策略来降低显存占用:
- 无优化策略:4B模型需要31.3GB,12B模型需要47.5GB
- 完全优化策略:4B模型可降至18.7GB,12B模型可降至27.4GB
- Video2World模型也提供类似的优化选项
6. 安全功能
- 内置不可禁用的安全防护系统
- 自动检测和模糊处理人脸内容
- 内容安全过滤确保生成结果符合安全标准