深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

35.2K 00

デプス・エニシング3とは？

深さ何でも3（DA3）は、バイトジャンプシードチームによって開発され、オープンソースの3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを介して、任意の視点での空間形状の再構成を達成するために、唯一の深度マップとレイマップを予測する必要が3Dシーンを復元することができ、35.7%の精度を向上させるために、従来の方法と比較して、126 FPSの動作効率。その技術革新は、"深度 - 光線 "統一された特性評価方法の使用は、マルチタスクモジュールを必要とせず、単一の画像からマルチビュービデオに対応しています。このモデルは、マルチタスクモジュールなしで、単一画像からマルチビュービデオまで柔軟に処理することができ、自動運転、SLAM、その他のシナリオに適応することができます。このモデルは、ビジュアルジオメトリベンチマークにおいて既存の手法を凌駕しており、関連するコードとデモが公開されている。

デプスなんでも3の特徴

ミニマル建築デザイン複雑なアーキテクチャを変更することなく、単一の共通コンバータ（DINOv2など）をバックボーンネットワークとして使用した効率的な空間形状予測。
奥行きと光の表現これにより、複雑なマルチタスク学習を回避し、モデルの一般性と精度を向上させる。
優れたマルチタスク性能単眼奥行き推定、多視点奥行き推定、カメラポーズ推定など、複数のタスクで優れた性能を発揮し、VGGTやDA2といった従来のモデルを総合的に凌駕しています。
強力な一般化能力すべてのモデルは、公的な学術データセットのみを使用して訓練されており、屋内、屋外、物体中心、フィールドシナリオなど、幅広いシナリオに適応可能で、良好な汎化性能を備えています。
柔軟なモデルレンジ幅広い視覚幾何タスクに適したメインファミリー、メトリック深度推定に特化したメトリックファミリー、高品質な単眼深度推定に特化したモノキュラーファミリーなど、様々な応用シーンに対応したモデルファミリーを用意しています。
ユーザーフレンドリーなコードベース対話的なウェブUIと柔軟なコマンドラインインターフェイス（CLI）をサポートし、複数の出力形式（例．glbそしてnpz深度画像など）を使用し、研究や実用化を促進する。
高品質の3D再構築とレンダリング仮想現実、拡張現実、その他の領域において、任意の視点から高品質な3D再構成と視覚的レンダリングを生成する能力は、視覚的ジオメトリ・タスクを強力にサポートします。

デプス・エニシングの主な利点3

ミニマル建築単一の共通コンバーター（DINOv2など）をバックボーンネットワークとして使用することで、複雑なアーキテクチャの変更を必要とせず、効率的でシンプルなモデリングが可能になります。
奥行きと光の表現深度-光表現の導入により、複雑な幾何学変換やマルチタスク学習を回避し、複雑なカメラ姿勢推定問題をピクセルレベルの予測タスクに変換する。
優れた性能単眼深度推定、多視点深度推定、カメラポーズ推定などの複数のタスクにおいて、DA3はVGGTやDA2などの従来の最良モデルを総合的に上回り、幾何学的精度とポーズ精度を大幅に向上させた。
強力な一般化能力公開された学術データセットのみを使用して訓練されたDA3は、屋内、屋外、物体中心、フィールドシナリオなど、幅広いシナリオに適応することができ、強力な汎化能力を示している。
マルチタスクの汎用性単眼奥行き推定、多視点奥行き推定、カメラ姿勢推定、3Dガウス推定などの複数の視覚幾何タスクを、タスクごとに別々に学習することなく、単一のモデルで実行することができます。
高品質の3D再構成バーチャルリアリティ、拡張現実、その他のアプリケーションのために、あらゆる視点からの高品質な3D再構成とビジュアルレンダリングの生成をサポートし、忠実度の高いビジュアルエフェクトを提供します。
ユーザーフレンドリーインタラクティブなWeb UIと柔軟なコマンドラインインターフェイス（CLI）を提供し、複数の出力形式をサポートし、研究や実用的なアプリケーション開発を容易にします。
スケーラビリティコードベースは柔軟で、将来の研究や新機能の統合をサポートするように設計されている。

デプスエニシング3の公式ウェブサイトは？

プロジェクトのウェブサイト:: https://depth-anything-3.github.io/
GitHubリポジトリ:: https://github.com/ByteDance-Seed/depth-anything-3
arXivテクニカルペーパー:: https://arxiv.org/pdf/2511.10647
オンライン体験デモ:: https://huggingface.co/spaces/depth-anything/depth-anything-3

デプスエニシング3の対象者

コンピュータ・ビジョンの研究者DA3は、いくつかのビジュアルジオメトリタスクにおいて優れた性能を発揮するため、奥行き推定、カメラポーズ推定、3D再構成などの分野を研究する研究者にとって強力なツールとなる。
人工知能開発者その柔軟なアーキテクチャと強力な機能により、AI開発者はDA3を様々なプロジェクトに素早く統合し、効率的なビジュアルジオメトリ処理を行うことができます。
仮想現実（VR）および拡張現実（AR）開発者DA3は、あらゆる視点からの高品質な3D再構築とビジュアルレンダリングを生成し、没入感のあるVRやAR体験の作成に最適です。
3DモデリングとアニメーションのプロフェッショナルDA3が提供する高品質な3D再構成機能は、3Dモデラーやアニメーターが高精度な3Dモデルを素早く生成し、作業効率を向上させるのに役立ちます。
文化遺産保護活動家DA3 の3D 再構築機能は、文化遺産のデジタル保存に使用でき、史跡や遺物の記録と復元に役立ちます。
建築・エンジニアリング関係者DA3は様々なシーンの3D再構築が可能で、建築デザイン、エンジニアリングのビジュアライゼーション、建設モニタリングに適しています。