Cosmos: World Base Model, una plataforma para construir modelos base de IA del mundo físico.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

60.2K 00

Introducción general

NVIDIA Cosmos es una plataforma de modelos de mundo base para desarrolladores diseñada específicamente para ayudar a los desarrolladores de IA física a crear sus sistemas de IA física mejor y más rápido. La plataforma ofrece una amplia gama de modelos preentrenados, incluidos modelos de difusión y autorregresivos, así como tokenizadores para el procesamiento eficiente de vídeo. NVIDIA Cosmos admite funciones como la generación de Text2World y Video2World, que pueden generar simulaciones visuales basadas en pistas textuales o entradas de vídeo. que pueden generar simulaciones visuales basadas en pistas textuales o entradas de vídeo. La plataforma se publica como código abierto bajo la licencia Apache 2 para el entrenamiento de modelos y los scripts de ajuste, y bajo la licencia NVIDIA Open Model Licence para los modelos preentrenados. La plataforma está optimizada específicamente para comprender y generar escenas físicas, lo que proporciona un potente modelo de base para áreas como la robótica y la conducción autónoma.

¿Qué es NVIDIA Cosmos?
NVIDIA Cosmos™ es una plataforma generativa World Foundation Model (WFM) de última generación que incluye tokenizadores avanzados, mecanismos de protección y flujos acelerados de procesamiento y gestión de datos diseñados para acelerar el desarrollo de sistemas de IA física como los coches autónomos (AV) y los robots. Una familia de modelos preentrenados para generar vídeos y estados del mundo con conciencia física creados específicamente para el desarrollo de la IA física.

Experiencia en línea: https://build.nvidia.com/explore/discover

Lista de funciones

Proporciona un modelo base del mundo basado en la difusión y compatible con la generación de Text2World y Video2World.
Proporcionar un modelo de base mundial autorregresivo compatible con la generación Video2World
Eficaz tokenizador de vídeo, compatible con la conversión de vídeo de token continuo y discreto
Scripts de post-entrenamiento de modelos pre-entrenados para su adaptación a diferentes escenarios físicos de IA.
Herramienta de proceso de gestión de conjuntos de datos de vídeo (en preparación)
Guiones de formación completos con soporte para construir modelos de base mundial personalizados.
Sistema de protección de seguridad integrado para garantizar la seguridad de los contenidos generados.
Admite varios tamaños de modelo (parámetros 4B/5B/12B/13B) para adaptarse a distintas configuraciones de hardware.
Estrategia flexible de descarga de modelos para funcionar en entornos con poca memoria gráfica.

Utilizar la ayuda

1. Configuración medioambiental

Primero necesitas configurar el entorno Docker, sigue la guía de instalación para configurar el entorno requerido. Todos los comandos deben ejecutarse dentro de Docker.

2. Modelo de descargas

Generar tokens de acceso a Cara Abrazada con permisos de "Lectura".
Utilice el siguiente comando para iniciar sesión en Hugging Face:

huggingface-cli login

Descargar pesas modelo Cosmos:

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. Tipos de modelos y escenarios de uso

Cosmos ofrece dos tipos principales de modelos:

Modelos base

Versiones de modelos: escalas paramétricas 4B y 12B
Características principales: Soporte para generar el mundo analógico a partir de entradas de imagen/vídeo.
Escenarios aplicables: necesidad de ampliar y predecir escenas a partir de contenidos visuales existentes.

Modelo Video2World

Versiones de modelos: escalas paramétricas 5B y 13B
Características principales: uso simultáneo de texto e imágenes/vídeos para generar simulaciones del mundo.
Escenario: Necesidad de generar y modificar contenidos visuales de forma selectiva a partir de descripciones textuales

4. Capacidad generativa e indicadores de resultados

Admite la generación de secuencias de vídeo de hasta 33 fotogramas
Entrada compatible con una sola imagen o 9 fotogramas de vídeo
Resolución fijada en 1024x640
Tiempo de inferencia en GPUs H100:
- Modelo 4B: aproximadamente 62 segundos
- Modelo 12B: aproximadamente 119 segundos
- Modelo 5B Video2World: aprox. 73 segundos
- Modelo 13B Video2World: aprox. 150 segundos

5. Estrategias de optimización de la memoria

Cosmos ofrece diversas opciones de optimización de memoria que pueden utilizarse para reducir la huella de memoria mediante diferentes estrategias de descarga de modelos:

Sin estrategia de optimización: el modelo de 4B requiere 31,3GB, el de 12B 47,5GB
Estrategia totalmente optimizada: hasta 18,7 GB para modelos de 4B y 27,4 GB para modelos de 12B.
El modelo Video2World también ofrece opciones de optimización similares

6. Funciones de seguridad

Sistema de protección de seguridad integrado no desactivable
Detección automática y desenfoque del contenido facial
El filtrado de seguridad de contenidos garantiza que los resultados generados cumplen las normas de seguridad

Últimos recursos sobre IA # AI Servicios abiertos # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Shortest: una herramienta de pruebas automatizadas con IA que utiliza el lenguaje natural para realizar pruebas de principio a fin

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Inteligencia de automatización de escritorio

hace 1 año

059.6K

Ming-lite-omni - Macromodelos multimodales unificados de código abierto del equipo Ant 100

Últimos recursos sobre IA

hace 10 meses

051.5K

Aide: extensión de ayuda de IA que mejora la experiencia de desarrollo de VSCode, la anotación con un solo clic, la conversión y la generación de interfaz de usuario de código.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Programación de IA

hace 1 año

065.3K

Una herramienta que rastrea automáticamente novelas y genera audiolibros de varios caracteres

Últimos recursos sobre IA # AI Side Hustle Proyecto para ganar dinero # AI Java Proyecto de código abierto

hace 1 año

065.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Cosmos: World Base Model, una plataforma para construir modelos base de IA del mundo físico.

Introducción general

Lista de funciones