AI个人学习
和实操指南

Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

综合介绍

NVIDIA Cosmos 是一个面向开发者的世界基础模型平台,专门设计用于帮助物理人工智能开发者更好、更快地构建其物理人工智能系统。该平台提供了一系列预训练模型,包括基于扩散和自回归的世界基础模型,以及用于高效视频处理的tokenizer。NVIDIA Cosmos 支持文本到视觉世界生成(Text2World)和视频到视觉世界生成(Video2World)等功能,能够基于文本提示或视频输入生成视觉模拟。该平台采用开源方式发布,模型训练和微调脚本采用Apache 2许可证,预训练模型则采用NVIDIA开放模型许可证。平台特别优化了对物理场景的理解和生成能力,为机器人技术和自动驾驶等领域提供了强大的基础模型支持。

什么是 NVIDIA Cosmos?

NVIDIA Cosmos™ 是一个先进的生成式世界基础模型 (WFM) 平台,它包括先进的 Tokenizer、防护机制以及加速数据处理和管理流程,旨在加速自动驾驶汽车 (AV) 和机器人等物理 AI 系统的开发。一个为物理 AI 开发而专门构建的、用于生成具有物理感知能力的视频和世界状态的预训练模型系列。

NVIDIA Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台-1

在线体验:https://build.nvidia.com/explore/discover


 

功能列表

  • 提供基于扩散的世界基础模型,支持Text2World和Video2World生成
  • 提供基于自回归的世界基础模型,支持Video2World生成
  • 高效的视频tokenizer,支持连续和离散token的视频转换
  • 预训练模型的后训练脚本,用于适配不同物理人工智能场景
  • 视频数据集管理流程工具(即将推出)
  • 完整的训练脚本,支持构建自定义世界基础模型
  • 内置安全防护系统,确保生成内容的安全性
  • 支持多种模型规模(4B/5B/12B/13B参数)以适应不同硬件配置
  • 灵活的模型卸载策略,支持低显存环境运行

 

使用帮助

1. 环境配置

首先需要设置Docker环境,按照安装指南配置所需环境。所有命令都需要在Docker内运行。

2. 模型下载

  1. 生成Hugging Face访问令牌,设置为"Read"权限
  2. 使用以下命令登录Hugging Face:
huggingface-cli login
  1. 下载Cosmos模型权重:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. 模型类型和使用场景

Cosmos提供两种主要类型的模型:

基础模型 (Base Models)

  • 模型版本:4B和12B参数规模
  • 主要功能:支持从图像/视频输入生成世界模拟
  • 适用场景:需要基于现有视觉内容进行场景延伸和预测

Video2World模型

  • 模型版本:5B和13B参数规模
  • 主要功能:支持同时使用文本和图像/视频输入生成世界模拟
  • 适用场景:需要根据文本描述对视觉内容进行定向生成和修改

4. 生成能力和性能指标

  • 支持生成最多33帧的视频序列
  • 输入支持单张图像或9帧视频
  • 分辨率固定为1024x640
  • 在H100 GPU上的推理时间:
    • 4B模型:约62秒
    • 12B模型:约119秒
    • 5B Video2World模型:约73秒
    • 13B Video2World模型:约150秒

5. 显存优化策略

Cosmos提供多种显存优化选项,可以通过不同的模型卸载策略来降低显存占用:

  • 无优化策略:4B模型需要31.3GB,12B模型需要47.5GB
  • 完全优化策略:4B模型可降至18.7GB,12B模型可降至27.4GB
  • Video2World模型也提供类似的优化选项

6. 安全功能

  • 内置不可禁用的安全防护系统
  • 自动检测和模糊处理人脸内容
  • 内容安全过滤确保生成结果符合安全标准
未经允许不得转载:首席AI分享圈 » Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文