Molmo 2 - Ai2オープンソース・マルチモーダル動画像理解モデルファミリー

37.3K 00

モルモ2とは？

モルモ 2は、Allen Institute for AI (Ai2)によって公開されたオープンソースのマルチモーダルモデルで、映像や複数画像の理解を向上させるためのものです。Molmo 2(8B)、Molmo 2(4B)、Molmo 2-O(7B)の3つのバリエーションがあり、それぞれ異なるシナリオや要件に適しています。このうち、Molmo 2 (8B)はビデオのローカライゼーションとQ&Aで最高の性能を発揮し、Molmo 2 (4B)は効率を最適化し、Molmo 2-O (7B)は完全にオープンなエンドツーエンドのモデルフローを提供します。Molmo 2は、多くの主要ベンチマークで前モデルを上回り、ビデオトラッキングではGemini 3 Proのような強力なライバルを凌駕しています。Molmo 2は、学習データの量においても優れており、他のモデルよりもはるかに少ない919万本のビデオしか使用しておらず、データを効率的に利用する能力を実証しています。Molmo 2は、単一画像および複数画像の入力と、異なる長さのビデオクリップをサポートしており、ビデオの位置特定、追跡、Q&Aなどの幅広いタスクを実行することができます。

モルモ2の特徴

強力な映像理解力ビデオの位置情報、トラッキング、Q&Aなどのタスクにおいて、前モデルや業界をリードするいくつかのモデルを凌駕しています。ジェミニ 3 プロ
マルチイメージとシングルイメージのサポート単一画像の入力だけでなく、複数画像の入力や様々な長さのビデオクリップにも対応しており、幅広い複雑なシナリオに適しています。
効率的なデータ活用MetaのPerceptionLM（7,250万動画）に比べ、学習データ量は919万動画と非常に少なく、効率的な学習が可能です。
柔軟なモデルバリエーションMolmo 2 (8B)、Molmo 2 (4B)、Molmo 2-O (7B)があり、それぞれ性能と効率の異なるニーズに対応している。
開放性と拡張性完全にオープンなエンドツーエンドのモデリングプロセスを提供し、モデルスタックを完全に制御する必要がある研究者に適しています。
豊富なアプリケーションシナリオビデオ解析、ロボットビジョン、支援技術など様々な分野で利用可能で、ビデオ要約、オブジェクト追跡、高密度キャプション生成などの機能をサポートしています。
使いやすいAi2の詳細については、Ai2をご覧ください。遊び場ビデオや画像をアップロードして複数のタスクを実行し、モデルの推論プロセスを見ることができます。

モルモ2の主な利点

優れた映像理解力Gemini 3 Proなど、業界をリードする複数のモデルを、ビデオの位置特定、追跡、質疑応答などのタスクで凌駕しており、ビデオ理解のリーダーとなっています。
効率的なトレーニングとデータ活用このモデルは、他のモデル（例えば、MetaのPerceptionLMは7,250万本のビデオを使用）に比べてはるかに少ない919万本のビデオのみを使用して学習され、効率的な学習効率とデータ利用を実証している。
マルチモーダル入力サポート長さの異なる単一画像、複数画像、ビデオクリップの入力をサポートしており、さまざまな複雑なシーンに柔軟に対応し、多様なニーズに応えることができる。
柔軟なモデルバリエーションモルモ2（8B）、モルモ2（4B）、モルモ2-O（7B）のバリエーションがあり、それぞれ高性能、高効率、フルオープン制御のさまざまなニーズに対応している。
開放性と拡張性Qwen 3とOlmoをベースに構築されており、研究者によるカスタマイズや拡張が容易な、完全にオープンなエンドツーエンドのモデリングプロセスを提供します。

モルモ2の公式サイトは？

プロジェクトのウェブサイト:: https://allenai.org/blog/molmo2
GitHubリポジトリ:: https://github.com/allenai/molmo2
HuggingFaceモデルライブラリ:: https://huggingface.co/collections/allenai/molmo2
技術論文:: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf

モルモ2の対象者

研究員マルチモーダルAI研究の学者や研究者は、Molmo 2を使ってビデオ理解、画像解析、マルチモーダル推論の実験や探求を行うことができ、関連分野の研究の進展を促進することができます。
開発者高度な映像・画像処理機能をプロジェクトに組み込もうとするソフトウェア開発者は、Molmo 2のAPIとオープンソース・コードを使用することで、映像解析やオブジェクト・トラッキングなどを迅速に実装することができます。
教育者AI教育の分野では、モルモ2は、教育や学習を強化するためのマルチモーダルモデルの適用を学生に理解させ、実践させるための教材として利用できる。
ぎょうかいせいつうしゃ: 交通監視、産業オートメーション、医療画像診断などの分野の専門家は、Molmo 2の強力な機能を使用して、作業の効率と品質、意思決定を向上させることができます。
テクノロジーマニアAIやマルチモーダル技術に興味のある個人は、Molmo 2のオープンソースリソースで学び、練習し、技術の可能性を探ることができます。