Allgemeine Einführung
NVIDIA Cosmos ist eine Weltbasismodell-Plattform für Entwickler, die speziell darauf ausgerichtet ist, Entwicklern von physischer KI zu helfen, ihre physischen KI-Systeme besser und schneller zu entwickeln. NVIDIA Cosmos unterstützt Funktionen wie die Text2World- und Video2World-Generierung, mit der visuelle Simulationen auf der Grundlage von textuellen Hinweisen oder Videoeingaben generiert werden können. Generierung visueller Simulationen auf der Grundlage von Text- oder Videoeingaben. Die Plattform wird als Open Source unter der Apache-2-Lizenz für das Modelltraining und die Feinabstimmung von Skripten sowie unter der NVIDIA Open Model Licence für vortrainierte Modelle veröffentlicht. Die Plattform ist speziell für das Verstehen und Erzeugen physikalischer Szenen optimiert und bietet ein leistungsstarkes Basismodell für Bereiche wie Robotik und autonomes Fahren.
Was ist NVIDIA Cosmos?
NVIDIA Cosmos™ ist eine hochmoderne generative World Foundation Model (WFM)-Plattform mit fortschrittlichen Tokenizern, Schutzmechanismen und beschleunigten Datenverarbeitungs- und -verwaltungsabläufen zur Beschleunigung der Entwicklung von physischen KI-Systemen wie selbstfahrenden Autos und Robotern. Eine Familie von vortrainierten Modellen zur Generierung von physikbewussten Video- und Weltzuständen, die speziell für die Entwicklung physischer KI entwickelt wurden.
Funktionsliste
- Bietet ein diffusionsbasiertes Weltbasismodell mit Unterstützung für Text2World und Video2World Generierung
- Bereitstellung eines autoregressiven Weltbasismodells mit Unterstützung der Video2World-Generierung
- Effizienter Video-Tokenizer, unterstützt kontinuierliche und diskrete Token-Videokonvertierung
- Nachtrainings-Skripte für vortrainierte Modelle zur Anpassung an verschiedene physikalische KI-Szenarien
- Prozess-Tool zur Verwaltung von Videodatensätzen (in Kürze)
- Vollständige Trainingsskripte mit Unterstützung für die Erstellung von benutzerdefinierten Weltbasismodellen
- Integriertes Sicherheitssystem zur Gewährleistung der Sicherheit der generierten Inhalte
- Unterstützt mehrere Modellgrößen (4B/5B/12B/13B-Parameter) zur Anpassung an unterschiedliche Hardware-Konfigurationen
- Flexible Modell-Offloading-Strategie zur Unterstützung des Betriebs in Umgebungen mit geringem Grafikspeicher
Hilfe verwenden
1. ökologische Konfiguration
Zuerst müssen Sie die Docker-Umgebung einrichten. Folgen Sie der Installationsanleitung, um die erforderliche Umgebung zu konfigurieren. Alle Befehle müssen innerhalb von Docker ausgeführt werden.
2. modellhafte Downloads
- Generieren Sie Hugging Face-Zugriffstoken mit "Lese"-Berechtigung.
- Verwenden Sie den folgenden Befehl, um sich bei Hugging Face anzumelden:
huggingface-cli Anmeldung
- Download Cosmos Modellgewichte:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3) Modelltypen und Einsatzszenarien
Cosmos bietet zwei Haupttypen von Modellen an:
Basis-Modelle
- Modellversionen: 4B und 12B parametrische Skalen
- Hauptmerkmale: Unterstützung für die Erzeugung von Weltanalogie aus Bild-/Videoeingängen
- Anwendbare Szenarien: Notwendigkeit, Szenen auf der Grundlage vorhandener visueller Inhalte zu erweitern und vorherzusagen
Video2World-Modell
- Modellversionen: 5B und 13B parametrische Skalen
- Hauptmerkmale: Unterstützung der gleichzeitigen Verwendung von Text- und Bild-/Videoeingaben zur Erstellung von Weltsimulationen
- Szenario: Bedarf an gezielter Generierung und Modifizierung von visuellen Inhalten auf der Grundlage von Textbeschreibungen
4. generative Kapazität und Leistungsindikatoren
- Unterstützt die Erstellung von Videosequenzen mit bis zu 33 Bildern
- Eingabeunterstützung für Einzelbilder oder 9 Videobilder
- Auflösung auf 1024x640 festgelegt
- Inferenzzeit auf H100-GPUs:
- Modell 4B: ca. 62 Sekunden
- Modell 12B: etwa 119 Sekunden
- 5B Video2World-Modell: ca. 73 Sekunden
- 13B Video2World-Modell: ca. 150 Sekunden
5 Strategien zur Speicheroptimierung
Cosmos bietet eine Vielzahl von Speicheroptimierungsoptionen, die dazu dienen, den Speicherverbrauch durch verschiedene Modell-Offloading-Strategien zu reduzieren:
- Keine Optimierungsstrategie: 4B-Modell benötigt 31,3 GB, 12B-Modell benötigt 47,5 GB
- Vollständig optimierte Strategie: bis zu 18,7 GB für 4B-Modelle und 27,4 GB für 12B-Modelle
- Auch das Modell Video2World bietet ähnliche Optimierungsmöglichkeiten
6. die Sicherheitsfunktionen
- Eingebautes, nicht abschaltbares Sicherheitsschutzsystem
- Automatische Erkennung und Unschärfe von Gesichtsinhalten
- Die Sicherheitsfilterung von Inhalten stellt sicher, dass die generierten Ergebnisse den Sicherheitsstandards entsprechen.