HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル
HunyuanWorld-Voyagerとは?
フンユアンワールドボイジャー(略称:MIXED)ボイジャー)は、テンセントがリリースした、ネイティブ3D再構成をサポートする業界初の超長距離ローミングワールドモデルです。1枚の画像からユーザー定義のカメラ軌道の3D点群シーケンスを生成し、カスタムカメラ軌道に沿ったワールド探索のための3D一貫したシーンビデオ生成をサポートし、効率的かつ直接的な3D再構成のために整列された深度およびRGBビデオを生成する、新しいビデオ拡散フレームワークです。このモデルには2つの主要なコンポーネントが含まれる:ワールド一貫性のある映像拡散と長距離ワールド探索であり、効率的な点カリングと自己回帰推論により反復的なシーン拡張を可能にする。RGB-Dビデオトレーニング用のスケーラブルなデータを生成するためのスケーラブルなデータエンジンを提案する。

HunyuanWorld-Voyagerの特徴
- ネイティブ3D再構成機能従来の後処理に伴う遅延や精度の低下を回避し、空間と特徴の組み合わせにより、初めてネイティブな3Dメモリとシーンの再構築がサポートされました。
- 長距離ローミングのサポート長距離の、世界を一貫させたローミングシーンを生成する能力は、空間的な一貫性と探索の範囲という点で、従来のビデオ生成の限界を打ち破ります。
- 3D入出力対応3D入力と3D出力をサポートし、ハイブリッド・ワールド・モデル1.0への適応性が高く、1.0モデルのローミング範囲をさらに広げ、複雑なシーンの生成品質を向上させ、スタイル化されたコントロールと編集をサポートします。
- ワールド・キャッシュの仕組み1.0モデルから生成された初期3D点群キャッシュに基づくスケーラブルなワールドキャッシングメカニズムを導入し、これをターゲットカメラビューに投影して拡散モデルのガイダンスを提供する。生成されたビデオフレームもリアルタイムでキャッシュを更新し、幾何学的な一貫性を維持しながら任意のカメラ軌道をサポートする閉ループシステムを形成する。
- マルチ・アプリケーション・シナリオのサポートビデオシーン再構成、3Dオブジェクトテクスチャ生成、ビデオスタイルカスタマイズ生成、ビデオ深度推定など、3D理解と生成の幅広いアプリケーションをサポートします。
- 効率的なデータエンジン人手による3Dラベリングを不要とし、大規模かつ多様なトレーニングデータの生成を自動化する。
HunyuanWorld-Voyagerの主な利点
- ネイティブ3D生成従来の手法に見られる遅延や精度の低下を回避し、後処理なしで1枚の画像から直接3D一貫点群シーケンスを生成することが初めて可能になりました。
- 長距離ローミング機能従来のビデオ生成の空間的な制限を打ち破り、カスタマイズされたカメラの軌道に沿って、ユーザーが長距離、ワールドコンシステントな3Dシーンを歩き回ることをサポートします。
- 効率的な3D再構成生成されたRGBビデオと深度ビデオは、再構成ツールを追加することなく、3D再構成に直接使用することができ、3D再構成の効率と精度が向上します。
- マルチモーダル入力サポートテキストや画像など様々な入力方法をサポートし、様々な入力に応じた高品質な3Dシーンや動画を生成することができます。
- リアルタイム・インタラクティビティカメラの軌道をカスタマイズすることで、ユーザーは生成された3D世界をリアルタイムで探索することができ、ユーザーとのインタラクション体験を向上させることができます。
- 強力なデータエンジン人手による3Dラベリングを必要とせず、大規模で多様なRGB-Dビデオトレーニングデータの生成を自動化するスケーラブルなデータエンジンを提案する。
HunyuanWorld-Voyagerの公式ウェブサイトは?
- プロジェクトのウェブサイト:: https://3d-models.hunyuan.tencent.com/world/
- Githubリポジトリ:: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- ハグ顔モデルライブラリー:: https://huggingface.co/tencent/HunyuanWorld-Voyager
- テクニカル・レポート:: https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
HunyuanWorld-Voyagerが向いている人
- 3Dアーティストおよびデザイナーモデルは、高品質な3Dシーンやアセットを素早く生成し、クリエイティブな作業効率を高め、創造性を刺激します。
- ゲーム開発者ゲームエンジンと互換性のある3Dシーンアセットを生成でき、ゲーム開発に豊富なクリエイティブとコンテンツを提供します。
- 仮想現実(VR)および拡張現実(AR)開発者ユーザーのインタラクティブ性と没入感を高める没入型3D体験の作成に使用できます。
- 教育者と学生教育やトレーニングの場で、学習体験を高める直感的な3D学習リソースを提供することができます。
- 工業デザイナーとエンジニア工業設計やシミュレーションに使用でき、設計ソリューションの最適化や設計効率の向上に役立ちます。
- ビデオプロデューサー映像の再構成や奥行き推定に使用し、3D効果を高めたり、映像コンテンツを分析したりすることができます。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません