はじめに
NVIDIA Cosmosは開発者向けのワールドベースモデルプラットフォームで、特にフィジカルAI開発者がフィジカルAIシステムをより良く、より速く構築できるように設計されています。NVIDIA Cosmosは、Text2WorldやVideo2World生成などの機能をサポートしており、テキストキューやビデオ入力に基づいてビジュアルシミュレーションを生成することができます。NVIDIA Cosmosは、Text2WorldやVideo2World生成などの機能をサポートしており、テキストやビデオ入力を手がかりに視覚シミュレーションを生成することができます。このプラットフォームは、モデルのトレーニングおよび微調整スクリプトについてはApache 2ライセンスの下で、トレーニング済みモデルについてはNVIDIA Open Model Licenceの下で、オープンソースとして公開されています。このプラットフォームは、特に物理的なシーンの理解と生成に最適化されており、ロボット工学や自律走行などの分野に強力なベースモデルを提供します。
NVIDIA Cosmosとは?
NVIDIA Cosmos™は、自動運転車(AV)やロボットなどの物理的AIシステムの開発を加速するために設計された、高度なトークナイザー、ガード機構、および高速化されたデータ処理と管理フローを含む、最先端の生成的ワールド・ファウンデーション・モデル(WFM)プラットフォームです。物理AI開発のために特別に構築された、物理認識ビデオとワールドステートを生成するための事前トレーニング済みモデルファミリー。
機能一覧
- Text2WorldとVideo2Worldの生成をサポートする拡散ベースのワールド・ベース・モデルを提供。
- Video2World世代をサポートする自己回帰ベースのワールド・ベース・モデルを提供する。
- 効率的なビデオトークナイザーは、連続およびディスクリートトークンビデオ変換をサポートしています。
- さまざまな物理的AIシナリオに適応するための事前学習済みモデルの事後学習スクリプト
- ビデオデータセット管理プロセスツール(近日公開)
- カスタムワールドベースモデルの構築をサポートする完全なトレーニングスクリプト
- セキュリティ保護システムを内蔵し、生成されたコンテンツのセキュリティを確保
- 異なるハードウェア構成に対応するため、複数のモデルサイズ(4B/5B/12B/13Bパラメータ)をサポート
- 低グラフィックスメモリ環境での動作をサポートする柔軟なモデルオフロードストラテジー
ヘルプの使用
1.環境構成
最初にDocker環境をセットアップする必要があります。インストールガイドに従って必要な環境を設定してください。全てのコマンドはDocker内で実行する必要がある。
2.モデルダウンロード
- Read」権限を持つHugging Faceのアクセストークンを生成する。
- ハギング・フェイスにログインするには、以下のコマンドを使用する:
huggingface-cli ログイン
- コスモスモデルウェイトをダウンロード
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B
3.モデルのタイプと使用シナリオ
コスモスには大きく分けて2種類のモデルがある:
ベースモデル
- モデル・バージョン:4Bおよび12Bパラメトリック・スケール
- 主な機能:画像/ビデオ入力からのワールドアナログ生成のサポート
- 適用シナリオ:既存のビジュアルコンテンツに基づいてシーンを拡張・予測する必要性
Video2Worldモデル
- モデル・バージョン:5Bおよび13Bパラメトリック・スケール
- 主な特徴:テキスト入力と画像/ビデオ入力の同時使用をサポートし、ワールド・シミュレーションを生成する。
- シナリオ:テキスト記述に基づくビジュアル・コンテンツの生成と修正の必要性
4.生成能力とパフォーマンス指標
- 最大33フレームまでのビデオシーケンス生成に対応
- 単一画像または9フレームのビデオ入力に対応
- 解像度は1024x640に固定
- H100 GPUでの推論時間:
- モデル4B:約62秒
- モデル12B:約119秒
- 5B Video2Worldモデル:約73秒
- 13B Video2Worldモデル:約150秒
5.メモリの最適化戦略
Cosmosには、さまざまなメモリ最適化オプションがあり、さまざまなモデルオフロードストラテジーによってメモリフットプリントを削減することができます:
- 最適化戦略なし:4Bモデルには31.3GB、12Bモデルには47.5GBが必要
- 完全に最適化された戦略:4Bモデルで18.7GB、12Bモデルで27.4GBに削減
- Video2Worldモデルにも同様の最適化オプションがあります。
6.セキュリティ機能
- セキュリティ保護システム内蔵
- 顔コンテンツの自動検出とぼかし
- コンテンツ・セキュリティ・フィルタリングにより、生成された結果がセキュリティ標準に準拠していることを保証します。