Cosmos : World Base Model, une plateforme pour la construction de modèles de base d'IA du monde physique

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

Introduction générale

NVIDIA Cosmos est une plateforme de modèles de base mondiaux pour les développeurs, spécialement conçue pour aider les développeurs d'IA physique à construire leurs systèmes d'IA physique mieux et plus rapidement. La plateforme propose une gamme de modèles pré-entraînés, y compris des modèles de base de monde basés sur la diffusion et l'autorégression, ainsi que des tokenizers pour un traitement vidéo efficace. NVIDIA Cosmos prend en charge des fonctions telles que la génération Text2World et Video2World, qui permet de générer des simulations visuelles basées sur des indices textuels ou des entrées vidéo. NVIDIA Cosmos prend en charge des fonctions telles que la génération Text2World et Video2World, qui permettent de générer des simulations visuelles basées sur des indices textuels ou des entrées vidéo. La plateforme est publiée en tant que source ouverte sous la licence Apache 2 pour l'entraînement des modèles et les scripts de réglage fin, et sous la licence NVIDIA Open Model pour les modèles pré-entraînés. La plateforme est spécifiquement optimisée pour comprendre et générer des scènes physiques, fournissant un modèle de base puissant pour des domaines tels que la robotique et la conduite autonome.

Qu'est-ce que NVIDIA Cosmos ?
NVIDIA Cosmos™ est une plateforme générative World Foundation Model (WFM) de pointe qui comprend des tokenizers avancés, des mécanismes de gardiennage et des flux accélérés de traitement et de gestion des données conçus pour accélérer le développement de systèmes d'IA physique tels que les voitures auto-conduites (AV) et les robots. Une famille de modèles pré-entraînés pour générer des vidéos et des états du monde physiquement conscients, conçus spécifiquement pour le développement de l'IA physique.

Expérience en ligne : https://build.nvidia.com/explore/discover

Liste des fonctions

Fournit un modèle de base de monde basé sur la diffusion avec prise en charge de la génération Text2World et Video2World
Fournir un modèle de base mondial autorégressif avec le support de la génération Video2World
Un tokenizer vidéo efficace, qui prend en charge la conversion de vidéos à jetons continus et discrets.
Scripts de post-entraînement pour les modèles pré-entraînés afin de les adapter à différents scénarios d'IA physique
Outil de gestion des ensembles de données vidéo (à venir)
Des scripts de formation complets avec une aide à la construction de modèles de base du monde personnalisés
Système de protection intégré pour garantir la sécurité du contenu généré
Prise en charge de plusieurs tailles de modèles (paramètres 4B/5B/12B/13B) pour s'adapter à différentes configurations matérielles.
Stratégie flexible de délestage de modèle permettant de fonctionner dans des environnements à faible mémoire graphique

Utiliser l'aide

1. configuration de l'environnement

Vous devez d'abord configurer l'environnement Docker, en suivant le guide d'installation pour configurer l'environnement requis. Toutes les commandes doivent être exécutées dans Docker.

2. téléchargements de modèles

Générer des jetons d'accès au visage étreint avec des permissions de "lecture".
Utilisez la commande suivante pour vous connecter à Hugging Face :

huggingface-cli login

Télécharger le modèle de poids Cosmos :

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. les types de modèles et les scénarios d'utilisation

Cosmos propose deux types de modèles principaux :

Modèles de base

Versions du modèle : échelles paramétriques 4B et 12B
Principales caractéristiques : aide à la génération d'analogues du monde à partir d'images/vidéos.
Scénarios applicables : besoin d'étendre et de prédire des scènes sur la base du contenu visuel existant

Modèle Video2World

Versions du modèle : échelles paramétriques 5B et 13B
Caractéristiques principales : Prise en charge de l'utilisation simultanée de textes et d'images/vidéos pour générer des simulations du monde.
Scénario : nécessité de générer et de modifier de manière ciblée le contenu visuel sur la base de descriptions textuelles

4. la capacité de production et les indicateurs de performance

Génération de séquences vidéo jusqu'à 33 images
Prise en charge de l'entrée d'une seule image ou de 9 images vidéo
Résolution fixée à 1024x640
Temps d'inférence sur les GPU H100 :
- Modèle 4B : environ 62 secondes
- Modèle 12B : environ 119 secondes
- Modèle 5B Video2World : environ 73 secondes
- 13B Modèle Video2World : environ 150 secondes

5. stratégies d'optimisation de la mémoire

Cosmos offre une variété d'options d'optimisation de la mémoire qui peuvent être utilisées pour réduire l'empreinte mémoire par le biais de différentes stratégies de déchargement de modèles :

Pas de stratégie d'optimisation : le modèle 4B nécessite 31.3GB, le modèle 12B nécessite 47.5GB
Stratégie entièrement optimisée : jusqu'à 18,7 Go pour les modèles 4B et 27,4 Go pour les modèles 12B
Le modèle Video2World offre également des options d'optimisation similaires

6. fonctions de sécurité

Système de protection intégré non désactivable
Détection automatique et floutage du contenu des visages
Le filtrage de la sécurité du contenu garantit que les résultats générés sont conformes aux normes de sécurité.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

UltraRAG : un système RAG à guichet unique pour simplifier la construction des données et la mise au point des modèles

Dernières ressources sur l'IA # AI Java Open Source Projecct # Recherche de connaissances et cadre RAG

Il y a 8 mois

020.3K

DeepClaude：融合DeepSeek R1链式推理与Claude创造力的聊天界面

DeepClaude : Une interface de chat fusionnant le raisonnement de la chaîne R1 de DeepSeek avec la créativité de Claude

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Localised Chat Application

Il y a 8 mois

019.9K

Record Cafe : Plate-forme unique de traitement audio/vidéo|Génération vidéo|Sous-titres IA|Extraction audio|Speech to Text

Dernières ressources sur l'IA # AI text to video # Synthèse vocale AI # AI Speech to Text

Il y a 9 mois

019.4K

Magentic-UI - Microsoft Open Source AI Agent for Human-Computer Collaboration (agent d'intelligence artificielle libre de Microsoft pour la collaboration homme-machine)

Dernières ressources sur l'IA

Il y a 3 mois

015.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Cosmos : World Base Model, une plateforme pour la construction de modèles de base d'IA du monde physique

Introduction générale

Liste des fonctions