Cosmos: World Base Model, una plataforma para construir modelos base de IA del mundo físico.
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 1.9K 00
Introducción general
NVIDIA Cosmos es una plataforma de modelos de mundo base para desarrolladores diseñada específicamente para ayudar a los desarrolladores de IA física a crear sus sistemas de IA física mejor y más rápido. La plataforma ofrece una amplia gama de modelos preentrenados, incluidos modelos de difusión y autorregresivos, así como tokenizadores para el procesamiento eficiente de vídeo. NVIDIA Cosmos admite funciones como la generación de Text2World y Video2World, que pueden generar simulaciones visuales basadas en pistas textuales o entradas de vídeo. que pueden generar simulaciones visuales basadas en pistas textuales o entradas de vídeo. La plataforma se publica como código abierto bajo la licencia Apache 2 para el entrenamiento de modelos y los scripts de ajuste, y bajo la licencia NVIDIA Open Model Licence para los modelos preentrenados. La plataforma está optimizada específicamente para comprender y generar escenas físicas, lo que proporciona un potente modelo de base para áreas como la robótica y la conducción autónoma.
¿Qué es NVIDIA Cosmos?
NVIDIA Cosmos™ es una plataforma generativa World Foundation Model (WFM) de última generación que incluye tokenizadores avanzados, mecanismos de protección y flujos acelerados de procesamiento y gestión de datos diseñados para acelerar el desarrollo de sistemas de IA física como los coches autónomos (AV) y los robots. Una familia de modelos preentrenados para generar vídeos y estados del mundo con conciencia física creados específicamente para el desarrollo de la IA física.

Experiencia en línea: https://build.nvidia.com/explore/discover
Lista de funciones
- Proporciona un modelo base del mundo basado en la difusión y compatible con la generación de Text2World y Video2World.
- Proporcionar un modelo de base mundial autorregresivo compatible con la generación Video2World
- Eficaz tokenizador de vídeo, compatible con la conversión de vídeo de token continuo y discreto
- Scripts de post-entrenamiento de modelos pre-entrenados para su adaptación a diferentes escenarios físicos de IA.
- Herramienta de proceso de gestión de conjuntos de datos de vídeo (en preparación)
- Guiones de formación completos con soporte para construir modelos de base mundial personalizados.
- Sistema de protección de seguridad integrado para garantizar la seguridad de los contenidos generados.
- Admite varios tamaños de modelo (parámetros 4B/5B/12B/13B) para adaptarse a distintas configuraciones de hardware.
- Estrategia flexible de descarga de modelos para funcionar en entornos con poca memoria gráfica.
Utilizar la ayuda
1. Configuración medioambiental
Primero necesitas configurar el entorno Docker, sigue la guía de instalación para configurar el entorno requerido. Todos los comandos deben ejecutarse dentro de Docker.
2. Modelo de descargas
- Generar tokens de acceso a Cara Abrazada con permisos de "Lectura".
- Utilice el siguiente comando para iniciar sesión en Hugging Face:
huggingface-cli login
- Descargar pesas modelo Cosmos:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3. Tipos de modelos y escenarios de uso
Cosmos ofrece dos tipos principales de modelos:
Modelos base
- Versiones de modelos: escalas paramétricas 4B y 12B
- Características principales: Soporte para generar el mundo analógico a partir de entradas de imagen/vídeo.
- Escenarios aplicables: necesidad de ampliar y predecir escenas a partir de contenidos visuales existentes.
Modelo Video2World
- Versiones de modelos: escalas paramétricas 5B y 13B
- Características principales: uso simultáneo de texto e imágenes/vídeos para generar simulaciones del mundo.
- Escenario: Necesidad de generar y modificar contenidos visuales de forma selectiva a partir de descripciones textuales
4. Capacidad generativa e indicadores de resultados
- Admite la generación de secuencias de vídeo de hasta 33 fotogramas
- Entrada compatible con una sola imagen o 9 fotogramas de vídeo
- Resolución fijada en 1024x640
- Tiempo de inferencia en GPUs H100:
- Modelo 4B: aproximadamente 62 segundos
- Modelo 12B: aproximadamente 119 segundos
- Modelo 5B Video2World: aprox. 73 segundos
- Modelo 13B Video2World: aprox. 150 segundos
5. Estrategias de optimización de la memoria
Cosmos ofrece diversas opciones de optimización de memoria que pueden utilizarse para reducir la huella de memoria mediante diferentes estrategias de descarga de modelos:
- Sin estrategia de optimización: el modelo de 4B requiere 31,3GB, el de 12B 47,5GB
- Estrategia totalmente optimizada: hasta 18,7 GB para modelos de 4B y 27,4 GB para modelos de 12B.
- El modelo Video2World también ofrece opciones de optimización similares
6. Funciones de seguridad
- Sistema de protección de seguridad integrado no desactivable
- Detección automática y desenfoque del contenido facial
- El filtrado de seguridad de contenidos garantiza que los resultados generados cumplen las normas de seguridad
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...