Cosmos：世界基础模型，构建物理世界的人工智能基础模型平台

1.7K 00

综合介绍

NVIDIA Cosmos 是一个面向开发者的世界基础模型平台，专门设计用于帮助物理人工智能开发者更好、更快地构建其物理人工智能系统。该平台提供了一系列预训练模型，包括基于扩散和自回归的世界基础模型，以及用于高效视频处理的tokenizer。NVIDIA Cosmos 支持文本到视觉世界生成(Text2World)和视频到视觉世界生成(Video2World)等功能，能够基于文本提示或视频输入生成视觉模拟。该平台采用开源方式发布，模型训练和微调脚本采用Apache 2许可证，预训练模型则采用NVIDIA开放模型许可证。平台特别优化了对物理场景的理解和生成能力，为机器人技术和自动驾驶等领域提供了强大的基础模型支持。

什么是 NVIDIA Cosmos？
NVIDIA Cosmos™ 是一个先进的生成式世界基础模型 (WFM) 平台，它包括先进的 Tokenizer、防护机制以及加速数据处理和管理流程，旨在加速自动驾驶汽车 (AV) 和机器人等物理 AI 系统的开发。一个为物理 AI 开发而专门构建的、用于生成具有物理感知能力的视频和世界状态的预训练模型系列。

在线体验：https://build.nvidia.com/explore/discover

功能列表

提供基于扩散的世界基础模型，支持Text2World和Video2World生成
提供基于自回归的世界基础模型，支持Video2World生成
高效的视频tokenizer，支持连续和离散token的视频转换
预训练模型的后训练脚本，用于适配不同物理人工智能场景
视频数据集管理流程工具（即将推出）
完整的训练脚本，支持构建自定义世界基础模型
内置安全防护系统，确保生成内容的安全性
支持多种模型规模(4B/5B/12B/13B参数)以适应不同硬件配置
灵活的模型卸载策略，支持低显存环境运行

使用帮助

1. 环境配置

首先需要设置Docker环境，按照安装指南配置所需环境。所有命令都需要在Docker内运行。

2. 模型下载

生成Hugging Face访问令牌，设置为"Read"权限
使用以下命令登录Hugging Face：

huggingface-cli login

下载Cosmos模型权重：

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. 模型类型和使用场景

Cosmos提供两种主要类型的模型：

基础模型 (Base Models)

模型版本：4B和12B参数规模
主要功能：支持从图像/视频输入生成世界模拟
适用场景：需要基于现有视觉内容进行场景延伸和预测

Video2World模型

模型版本：5B和13B参数规模
主要功能：支持同时使用文本和图像/视频输入生成世界模拟
适用场景：需要根据文本描述对视觉内容进行定向生成和修改

4. 生成能力和性能指标

支持生成最多33帧的视频序列
输入支持单张图像或9帧视频
分辨率固定为1024x640
在H100 GPU上的推理时间：
- 4B模型：约62秒
- 12B模型：约119秒
- 5B Video2World模型：约73秒
- 13B Video2World模型：约150秒

5. 显存优化策略

Cosmos提供多种显存优化选项，可以通过不同的模型卸载策略来降低显存占用：

无优化策略：4B模型需要31.3GB，12B模型需要47.5GB
完全优化策略：4B模型可降至18.7GB，12B模型可降至27.4GB
Video2World模型也提供类似的优化选项

6. 安全功能

内置不可禁用的安全防护系统
自动检测和模糊处理人脸内容
内容安全过滤确保生成结果符合安全标准

最新AI资源 # AI开放服务 # AI开源项目

文章版权归作者所有，未经允许请勿转载。

留痕(WeChatMsg)：微信聊天记录导出与分析工具

最新AI资源 # AI开源项目

12个月前

02.2K

Fast-Agent：声明式语法和MCP集成快速构建多智能体工作流

最新AI资源 # AI开源项目 # 智能体开发框架

5个月前

01.2K

Kozy：用文字描述快速剪辑短视频的在线工具

最新AI资源 # AI音视频编辑

4个月前

01.1K

秘塔写作猫：AI智能写作伴侣，老牌AI写作辅助软件

最新AI资源 # AI写作

12个月前

01.9K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Cosmos：世界基础模型，构建物理世界的人工智能基础模型平台

综合介绍

功能列表