Cosmos : World Base Model, une plateforme pour la construction de modèles de base d'IA du monde physique
Introduction générale
NVIDIA Cosmos est une plateforme de modèles de base mondiaux pour les développeurs, spécialement conçue pour aider les développeurs d'IA physique à construire leurs systèmes d'IA physique mieux et plus rapidement. La plateforme propose une gamme de modèles pré-entraînés, y compris des modèles de base de monde basés sur la diffusion et l'autorégression, ainsi que des tokenizers pour un traitement vidéo efficace. NVIDIA Cosmos prend en charge des fonctions telles que la génération Text2World et Video2World, qui permet de générer des simulations visuelles basées sur des indices textuels ou des entrées vidéo. NVIDIA Cosmos prend en charge des fonctions telles que la génération Text2World et Video2World, qui permettent de générer des simulations visuelles basées sur des indices textuels ou des entrées vidéo. La plateforme est publiée en tant que source ouverte sous la licence Apache 2 pour l'entraînement des modèles et les scripts de réglage fin, et sous la licence NVIDIA Open Model pour les modèles pré-entraînés. La plateforme est spécifiquement optimisée pour comprendre et générer des scènes physiques, fournissant un modèle de base puissant pour des domaines tels que la robotique et la conduite autonome.
Qu'est-ce que NVIDIA Cosmos ?
NVIDIA Cosmos™ est une plateforme générative World Foundation Model (WFM) de pointe qui comprend des tokenizers avancés, des mécanismes de gardiennage et des flux accélérés de traitement et de gestion des données conçus pour accélérer le développement de systèmes d'IA physique tels que les voitures auto-conduites (AV) et les robots. Une famille de modèles pré-entraînés pour générer des vidéos et des états du monde physiquement conscients, conçus spécifiquement pour le développement de l'IA physique.

Expérience en ligne : https://build.nvidia.com/explore/discover
Liste des fonctions
- Fournit un modèle de base de monde basé sur la diffusion avec prise en charge de la génération Text2World et Video2World
- Fournir un modèle de base mondial autorégressif avec le support de la génération Video2World
- Un tokenizer vidéo efficace, qui prend en charge la conversion de vidéos à jetons continus et discrets.
- Scripts de post-entraînement pour les modèles pré-entraînés afin de les adapter à différents scénarios d'IA physique
- Outil de gestion des ensembles de données vidéo (à venir)
- Des scripts de formation complets avec une aide à la construction de modèles de base du monde personnalisés
- Système de protection intégré pour garantir la sécurité du contenu généré
- Prise en charge de plusieurs tailles de modèles (paramètres 4B/5B/12B/13B) pour s'adapter à différentes configurations matérielles.
- Stratégie flexible de délestage de modèle permettant de fonctionner dans des environnements à faible mémoire graphique
Utiliser l'aide
1. configuration de l'environnement
Vous devez d'abord configurer l'environnement Docker, en suivant le guide d'installation pour configurer l'environnement requis. Toutes les commandes doivent être exécutées dans Docker.
2. téléchargements de modèles
- Générer des jetons d'accès au visage étreint avec des permissions de "lecture".
- Utilisez la commande suivante pour vous connecter à Hugging Face :
huggingface-cli login
- Télécharger le modèle de poids Cosmos :
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3. les types de modèles et les scénarios d'utilisation
Cosmos propose deux types de modèles principaux :
Modèles de base
- Versions du modèle : échelles paramétriques 4B et 12B
- Principales caractéristiques : aide à la génération d'analogues du monde à partir d'images/vidéos.
- Scénarios applicables : besoin d'étendre et de prédire des scènes sur la base du contenu visuel existant
Modèle Video2World
- Versions du modèle : échelles paramétriques 5B et 13B
- Caractéristiques principales : Prise en charge de l'utilisation simultanée de textes et d'images/vidéos pour générer des simulations du monde.
- Scénario : nécessité de générer et de modifier de manière ciblée le contenu visuel sur la base de descriptions textuelles
4. la capacité de production et les indicateurs de performance
- Génération de séquences vidéo jusqu'à 33 images
- Prise en charge de l'entrée d'une seule image ou de 9 images vidéo
- Résolution fixée à 1024x640
- Temps d'inférence sur les GPU H100 :
- Modèle 4B : environ 62 secondes
- Modèle 12B : environ 119 secondes
- Modèle 5B Video2World : environ 73 secondes
- 13B Modèle Video2World : environ 150 secondes
5. stratégies d'optimisation de la mémoire
Cosmos offre une variété d'options d'optimisation de la mémoire qui peuvent être utilisées pour réduire l'empreinte mémoire par le biais de différentes stratégies de déchargement de modèles :
- Pas de stratégie d'optimisation : le modèle 4B nécessite 31.3GB, le modèle 12B nécessite 47.5GB
- Stratégie entièrement optimisée : jusqu'à 18,7 Go pour les modèles 4B et 27,4 Go pour les modèles 12B
- Le modèle Video2World offre également des options d'optimisation similaires
6. fonctions de sécurité
- Système de protection intégré non désactivable
- Détection automatique et floutage du contenu des visages
- Le filtrage de la sécurité du contenu garantit que les résultats générés sont conformes aux normes de sécurité.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...