Cosmos: World Base Model, Plattform für den Aufbau von KI-Basismodellen für die physische Welt

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

NVIDIA Cosmos ist eine Weltbasismodell-Plattform für Entwickler, die speziell darauf ausgerichtet ist, Entwicklern von physischer KI zu helfen, ihre physischen KI-Systeme besser und schneller zu entwickeln. NVIDIA Cosmos unterstützt Funktionen wie die Text2World- und Video2World-Generierung, mit der visuelle Simulationen auf der Grundlage von textuellen Hinweisen oder Videoeingaben generiert werden können. Generierung visueller Simulationen auf der Grundlage von Text- oder Videoeingaben. Die Plattform wird als Open Source unter der Apache-2-Lizenz für das Modelltraining und die Feinabstimmung von Skripten sowie unter der NVIDIA Open Model Licence für vortrainierte Modelle veröffentlicht. Die Plattform ist speziell für das Verstehen und Erzeugen physikalischer Szenen optimiert und bietet ein leistungsstarkes Basismodell für Bereiche wie Robotik und autonomes Fahren.

Was ist NVIDIA Cosmos?

NVIDIA Cosmos™ ist eine hochmoderne generative World Foundation Model (WFM)-Plattform mit fortschrittlichen Tokenizern, Schutzmechanismen und beschleunigten Datenverarbeitungs- und -verwaltungsabläufen zur Beschleunigung der Entwicklung von physischen KI-Systemen wie selbstfahrenden Autos und Robotern. Eine Familie von vortrainierten Modellen zur Generierung von physikbewussten Video- und Weltzuständen, die speziell für die Entwicklung physischer KI entwickelt wurden.

NVIDIA Cosmos: World Foundation Model, Plattform zur Erstellung von KI-Grundmodellen für die physische Welt-1

Online-Erfahrung: https://build.nvidia.com/explore/discover

Funktionsliste

Bietet ein diffusionsbasiertes Weltbasismodell mit Unterstützung für Text2World und Video2World Generierung
Bereitstellung eines autoregressiven Weltbasismodells mit Unterstützung der Video2World-Generierung
Effizienter Video-Tokenizer, unterstützt kontinuierliche und diskrete Token-Videokonvertierung
Nachtrainings-Skripte für vortrainierte Modelle zur Anpassung an verschiedene physikalische KI-Szenarien
Prozess-Tool zur Verwaltung von Videodatensätzen (in Kürze)
Vollständige Trainingsskripte mit Unterstützung für die Erstellung von benutzerdefinierten Weltbasismodellen
Integriertes Sicherheitssystem zur Gewährleistung der Sicherheit der generierten Inhalte
Unterstützt mehrere Modellgrößen (4B/5B/12B/13B-Parameter) zur Anpassung an unterschiedliche Hardware-Konfigurationen
Flexible Modell-Offloading-Strategie zur Unterstützung des Betriebs in Umgebungen mit geringem Grafikspeicher

Hilfe verwenden

1. ökologische Konfiguration

Zuerst müssen Sie die Docker-Umgebung einrichten. Folgen Sie der Installationsanleitung, um die erforderliche Umgebung zu konfigurieren. Alle Befehle müssen innerhalb von Docker ausgeführt werden.

2. modellhafte Downloads

Generieren Sie Hugging Face-Zugriffstoken mit "Lese"-Berechtigung.
Verwenden Sie den folgenden Befehl, um sich bei Hugging Face anzumelden:

huggingface-cli Anmeldung

Download Cosmos Modellgewichte:

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3) Modelltypen und Einsatzszenarien

Cosmos bietet zwei Haupttypen von Modellen an:

Basis-Modelle

Modellversionen: 4B und 12B parametrische Skalen
Hauptmerkmale: Unterstützung für die Erzeugung von Weltanalogie aus Bild-/Videoeingängen
Anwendbare Szenarien: Notwendigkeit, Szenen auf der Grundlage vorhandener visueller Inhalte zu erweitern und vorherzusagen

Video2World-Modell

Modellversionen: 5B und 13B parametrische Skalen
Hauptmerkmale: Unterstützung der gleichzeitigen Verwendung von Text- und Bild-/Videoeingaben zur Erstellung von Weltsimulationen
Szenario: Bedarf an gezielter Generierung und Modifizierung von visuellen Inhalten auf der Grundlage von Textbeschreibungen

4. generative Kapazität und Leistungsindikatoren

Unterstützt die Erstellung von Videosequenzen mit bis zu 33 Bildern
Eingabeunterstützung für Einzelbilder oder 9 Videobilder
Auflösung auf 1024x640 festgelegt
Inferenzzeit auf H100-GPUs:
- Modell 4B: ca. 62 Sekunden
- Modell 12B: etwa 119 Sekunden
- 5B Video2World-Modell: ca. 73 Sekunden
- 13B Video2World-Modell: ca. 150 Sekunden

5 Strategien zur Speicheroptimierung

Cosmos bietet eine Vielzahl von Speicheroptimierungsoptionen, die dazu dienen, den Speicherverbrauch durch verschiedene Modell-Offloading-Strategien zu reduzieren:

Keine Optimierungsstrategie: 4B-Modell benötigt 31,3 GB, 12B-Modell benötigt 47,5 GB
Vollständig optimierte Strategie: bis zu 18,7 GB für 4B-Modelle und 27,4 GB für 12B-Modelle
Auch das Modell Video2World bietet ähnliche Optimierungsmöglichkeiten

6. die Sicherheitsfunktionen

Eingebautes, nicht abschaltbares Sicherheitsschutzsystem
Automatische Erkennung und Unschärfe von Gesichtsinhalten
Die Sicherheitsfilterung von Inhalten stellt sicher, dass die generierten Ergebnisse den Sicherheitsstandards entsprechen.