混成世界モデル1.1 - テンセント混成世界オープンソース3D復元大型モデルリリース

35.4K 00

ハイブリッド世界モデルとは 1.1

WorldMirror 1.1（WorldMirror）は、TencentのWorldMirrorチームによってリリースされたオープンソースの3D再構成モデルで、WorldMirrorシリーズのアップグレード版です。マルチビュー画像、動画、カメラ位置、内部参照、深度マップなどのマルチモーダルなアプリオリ入力をサポートし、単一の画像のみに依存する従来の3D再構成の限界を打ち破り、動的なアプリオリ注入メカニズムによってさまざまな入力の組み合わせに柔軟に対応する。エンド・ツー・エンドのマルチタスク統合出力を初めて実現し、点群、マルチビュー深度マップ、カメラパラメータ、表面法線、3Dガウス点などの複数の3D幾何学的予測を同時に生成することができる。

ハイブリッド・ワールド・モデル1.1の機能的特徴

マルチモーダル入力サポートマルチビュー画像、ビデオなど複数の入力方式に対応し、異なる入力データにも柔軟に対応。
マルチタスク統一出力点群、深度マップ、カメラパラメータ、サーフェス法線、3Dガウスポイントなど、様々な3Dジオメトリ予測を同時に出力することができ、多様なニーズに対応します。
秒単位の推論によるシングルカード展開純粋なフィードフォワードアーキテクチャを使用することで、1枚のグラフィックカードで展開することができ、8-32ビューの入力を処理するのにローカルではわずか1秒しかかからず、第2レベルの推論を可能にします。
柔軟な先験的適応性動的アプリオリ注入機構により、どのようなアプリオリの組み合わせにも柔軟に対応でき、アプリオリ入力がなくても3D再構成が可能です。
強力な一般化能力コース学習戦略の助けにより、モデルの汎化能力は単一の画像分布を超えて最大化され、多様な入力データをよりうまく扱えるようになる。
高精度3D再構成3D点群再構築とエンド・ツー・エンドの3DGS再構築において卓越したパフォーマンスを発揮し、卓越した幾何学的精度とディテール再現性で、高品質な3Dコンテンツ制作をサポートします。

ハイブリッド・ワールド・モデルの主な利点 1.1

マルチモーダル入力に柔軟に対応例えば、カメラポーズ、内部参照、深度マップなどのマルチモーダルな先験的情報注入をサポートし、階層的符号化戦略によって大域的・局所的な幾何学的制約を融合することで、任意の先験的組み合わせに適応し、再構成品質とロバスト性を向上させる。
一般的な3Dビジュアル予測点群、深度マップ、カメラパラメータ、サーフェス法線、3Dガウスポイントなどの統一的なマルチタスク出力を初めて実現し、エンドツーエンドの協調学習により幾何学的精度とディテールの再現性を最適化し、高品質なメッシュ再構成とリアルタイムな新視点レンダリングをサポートしました。
秒単位の推論による効率的なシングルカード展開純粋なフィードフォワードアーキテクチャを採用しており、1回の順伝播で3D属性を出力し、8-32ビュー入力をわずか1秒で処理することができます。これは、従来の反復最適化手法よりも大幅に優れており、ハードウェアの敷居を下げ、誰もが利用できる3D再構成技術を実現しています。
シーンを超えた汎化能力コースの学習戦略（タスクの順序、データスケジューリング、解像度の進行）を通じてトレーニングを最適化し、実際の写真やAIが生成した動画などの多様な入力への適応を向上させ、構造が明確で詳細が豊かなシーンを生成する。
オープンソースと使いやすさ完全にオープンソースで、ローカル展開ドキュメントとHugging Faceオンラインデモを提供し、3D再構成結果のマルチビュー画像やビデオのリアルタイムプレビューのアップロードをサポートし、技術的なアプリケーションの敷居を下げる。

ハイブリッド・ワールド・モデル1.1の公式ウェブサイトは？

プロジェクトのウェブサイト:: https://3d-models.hunyuan.tencent.com/world/
Githubリポジトリ:: https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
ハグ顔モデルライブラリー:: https://huggingface.co/tencent/HunyuanWorld-Mirror
HuggingFaceオンライン・デモ:: https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror
テクニカル・レポート:: https://3d-models.hunyuan.tencent.com/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.pdf

ハイブリッド・ワールド・モデルのための人々 1.1

3Dコンテンツ制作者ゲーム開発、VR体験、映画やテレビ制作などのために、高品質な3Dシーンを素早く生成することができ、クリエイターが仮想世界を効率的に構築できるよう支援します。
教育者と学生バーチャルラボや歴史的な場面の再現などの教育シナリオの学習体験や効果を高めるために、没入型の3D教育環境を作成するために使用することができます。
工業デザイナーとエンジニア製品設計、仮想アセンブリ、物理シミュレーションを支援し、工業設計プロセスを加速し、設計の効率と品質を向上させます。
文化遺産保護活動家古代の建造物や文化財を高精度で3D復元し、文化遺産のデジタル保存や研究を支援。
不動産開発業者および建築家建築デザインのプレゼンテーションやバーチャルショールームなどで、建物の3Dモデルやバーチャルツアーを作成し、ユーザー体験を向上させます。
広告・マーケティング・スタッフ製品のデモンストレーションやバーチャルショールームなど、魅力的な3D広告コンテンツを作成し、広告のインタラクティブ性と魅力を高めます。