オムニヴィンチ - NVIDIAのオープンソース全方位大規模言語モデル

30.4K 00

オムニヴィンチとは？

OmniVinciは、NVIDIAによって開発されたオープンソースのフルモーダル大規模言語モデルであり、アーキテクチャの革新とデータの最適化を通じて、マルチモーダルモデルにおけるモーダルの断片化の問題を解決します。OmniAlignNetは、相対的な時間的アライメント情報を取得するために時間的埋め込みグルーピングを使用し、絶対的な時間的情報をエンコードするために制約付き回転時間的埋め込みを使用します。OmniVinciは、データ合成と適切に設計されたデータ配布戦略により、トレーニング用に多数のモノモーダルおよびオムニモーダル対話サンプルを生成します。OmniVinciはDailyOmniにおいてQwen2.5-Omniより19.05ポイント高いスコアを出すなど、いくつかのベンチマークで高い性能を発揮し、訓練トークンの量を劇的に削減する。OmniVinciは、医療用CT画像の解釈、半導体デバイスの検出などに適用され、強力なマルチモーダル理解能力を実証しています。

オムニヴィンチの特徴

マルチモーダル理解視覚、音声、文字情報を同時に処理し、クロスモーダルな理解と推論を可能にする能力。例えば、映像コンテンツに基づいて、視覚情報と音声情報の両方を含む詳細な説明を生成することができる。
モデル・アーキテクチャの革新視覚信号と音声信号の相対的な時間的アライメント情報を捕捉するために時間的埋め込みグルーピングを使用し、マルチモーダル信号のモデルの理解を向上させるために制約付き回転時間的埋め込みを使用して絶対的な時間情報を符号化する。
データの統合と最適化データ合成とうまく設計されたデータ分配戦略により、多数の単峰性・全峰性対話サンプルを生成し、学習データを最適化し、モデルの汎化能力と性能を向上させる。
2段階のトレーニング戦略ユニモーダル・トレーニングとフルモーダル・ジョイント・トレーニングの2段階戦略により、視覚と聴覚の理解能力を別々に開発し、次にこれらの能力を統合してクロスモーダルな理解能力を達成することで、モデルのマルチモーダルな推論能力を効果的に向上させる。
効率的なトレーニングトレーニング中、OmniVinciは少量のトレーニングトークン（0.2兆個）で優れたパフォーマンスを達成し、他のモデルと比較してトレーニングリソースの消費を大幅に削減します。

オムニヴィンチの強み

強力なマルチモーダル理解視覚、音声、テキストなど複数のモダリティからの情報を同時に処理し、クロスモーダルな理解と推論を可能にする能力。
効果的なトレーニング戦略ユニモーダル・トレーニングの後にフルモーダル・ジョイント・トレーニングを行うという2段階のトレーニング・アプローチは、トレーニング・リソースの消費を抑えながら、マルチモーダルな理解を効果的に統合する。
革新的なモデル・アーキテクチャOmniAlignNet、時間的埋め込みグルーピング、および制約付き回転時間的埋め込みによって、視覚と音声の埋め込みアライメントが強化され、マルチモーダル信号に対するモデルの理解が向上しました。
最適化されたデータ準備学習データを最適化し、モデルの汎化性を向上させるために、データ合成と適切に設計されたデータ分配戦略により、高品質の単一峰および全峰対話サンプルを大量に生成する。
優れたパフォーマンスDailyOmni、MMAR、Video-MMEなどのタスクにおいて、学習トークンの量を大幅に削減しながら、他のモデルを大幅に上回るなど、いくつかのベンチマークで優れた結果を残しています。

オムニヴィンチの公式サイトは？

プロジェクトのウェブサイト:: https://nvlabs.github.io/OmniVinci/
Githubリポジトリ:: https://github.com/NVlabs/OmniVinci
HuggingFaceモデルライブラリ:: https://huggingface.co/nvidia/omnivinci
arXivテクニカルペーパー:: https://arxiv.org/pdf/2510.15870

オムニヴィンチは誰のためのものですか？

人工知能研究者マルチモーダル学習、大規模言語モデリング、クロスモーダル理解に関心を持つ研究者は、オムニヴィンチで新たな研究の方向性と技術的ブレークスルーを探ることができる。
機械学習エンジニアマルチモーダル・アプリケーションを開発・最適化するエンジニアは、OmniVinciを使用することで、実際のプロジェクトでモデルのパフォーマンスを向上させることができます。
医療業界関係者例えば、放射線科医や医学研究者は、医療画像や関連データをより正確に解釈するために、オムニヴィンチのマルチモーダルな理解を利用することができる。
産業オートメーションのスペシャリストスマート・マニュファクチャリングでは、OmniVinciのビジョンと音声処理機能を活用して、機器の検査と品質管理の効率を向上させます。
ロボット開発者インテリジェントなロボットシステムを開発するエンジニアは、OmniVinciを使って、ロボットが環境を感知し理解する能力を高めることができます。
データサイエンティスト大規模なデータ処理やマルチモーダルなデータ分析を必要とするデータサイエンティストは、OmniVinciを使用することで、データ処理の効率と分析精度を向上させることができます。