InternVL3.5 - 上海AIラボオープンソースマルチモーダル大規模モデル

48.1K 00

InternVL 3.5とは？

InternVL3.5は上海人工知能研究所(SAL)のオープンソース・マルチモーダルラージモデルで、一般的な能力、推論能力、展開効率の面で総合的にアップグレードされ、10億から2410億までの9つのパラメータサイズを提供し、密なモデルと専門家の混合モデル(MoE)を含む異なる資源需要シナリオをカバーし、GPT-OSS言語とモデルベースをサポートする最初のオープンソース・マルチモーダルラージモデルである。InternVL3.5はカスケード強化学習(Cascade RL)フレームワークを採用し、「オフラインウォームアップ-オンライン微調整」の二段階プロセスを通じて推論能力を大幅に向上させます。GUI、具現化された空間推論、ベクターグラフィックス処理の中核機能が強化された。例えば、ScreenSpot GUIポジショニングタスクにおいて、このモデルは92.9というスコアで主流のオープンソースモデルを凌駕している。

InternVL 3.5の特徴

強力なマルチモーダルセンシング機能画像や動画など、さまざまな視覚情報を理解・処理し、関連するテキスト説明を生成できるため、コンテンツ制作やインテリジェントな顧客サービスなどの分野に適している。
優れたマルチモーダル推論性能数学的・物理的問題解決、論理的推論などの複雑なマルチモーダル推論タスクに対応でき、教育、研究、その他の場面に適しています。
効率的なテキスト処理機能テキスト推論やQ&Aなどの自然言語処理タスクに優れ、インテリジェント・ライティングやテキスト分析などのアプリケーションに高品質のテキスト生成と分析を提供します。
高度なGUIインテリジェント・ボディ機能インターフェース要素はプラットフォーム間で自動化することができ、ドキュメントのリカバリー、PDFエクスポート、電子メール送信などのタスクを実行し、オフィスの自動化を改善することができます。
優れた身体化された空間推理物理的な空間関係の理解とナビゲーションをサポートすることで、ロボットのナビゲーションやスマートホームの制御といった具現化された知能のシナリオに適用し、デバイスの自律性と知能を高めることができる。
高効率ベクターグラフィックス処理自然言語コマンドに基づいたベクターグラフィックスの生成や編集が可能で、ウェブデザインやエンジニアリング図面解析などのプロフェッショナルなシーンに適しており、デザインや解析の効率を向上させます。
柔軟なモデル展開オプション10億から2,410億パラメータまでの幅広いモデル・サイズが用意されており、高密度モデルや専門家の混合モデル（MoE）をサポートしています。

InternVL 3.5の主な利点

カスケード強化学習フレームワークハイブリッド選好最適化（MPO）とGSPOアルゴリズムを組み合わせた「オフラインウォームアップ-オンライン微調整」の2段階プロセスにより、モデルの推論能力と学習の安定性が大幅に向上した。
動的な視覚解像度ルーティング各画像スライスの圧縮率を動的に選択することで、重要な情報を保持したままビジュアルトークンを削減し、パフォーマンスをほとんど低下させることなく推論速度を大幅に向上させる。
デカップルド・デプロイメント・アーキテクチャ新しい設計は、BF16精度の特徴量転送と非同期パイプラインの組み合わせに基づいており、スループットを大幅に向上させ、ビジュアルエンコーダーと言語モデルを異なるGPUに配置することで、従来のシリアル展開におけるリソースブロックの問題を解決している。
実物大モデルの最適化10億から2,410億パラメータまでの幅広いモデルサイズを提供し、さまざまな資源需要シナリオをカバーし、密なモデルや専門家の混合モデル（MoE）をサポートし、多様なアプリケーション要件を満たします。
優れたマルチモーダル推論多領域推論ベンチマークMMMUにおいて、オープンソースモデルとして最高得点を獲得し、強力な数学的・論理的推論を備えた既存のオープンソースモデルを大幅に凌駕。
効率的な配備効率高解像度入力によりモデルの応答速度は劇的に改善され、38Bモデルのスループットは4.05倍向上し、実際の配備コストは大幅に削減された。

InternVL3.5の公式ウェブサイトは？

Githubリポジトリ:: https://github.com/OpenGVLab/InternVL
ハギングフェイスのモデルアドレス:: https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
テクニカル・レポート:: https://huggingface.co/papers/2508.18265
オンライン体験アドレス:: https://chat.intern-ai.org.cn/

InternVL3.5の対象者

人工知能研究者このモデルは、新しいアルゴリズム、モデルアーキテクチャ、アプリケーションシナリオを探求するために使用できる強力なマルチモーダル研究ツールを研究者に提供し、マルチモーダルAIの学術研究を促進します。
ソフトウェア開発者開発者は、オープンソース・コードと柔軟な展開オプションを使用して、このモデルをさまざまなソフトウェア・アプリケーションに統合し、インテリジェントなインタラクション機能を備えた製品やサービスを開発することができます。
教育者と学生教育分野では、このモデルのマルチモーダルな推論とテキスト処理能力を利用して、生徒が複雑な教科の問題をよりよく理解し、解決するのを助けるインテリジェントな個別指導ツールを開発することができる。
コンテンツクリエーターコンテンツ制作者は、マルチモーダル知覚とテキスト生成機能を利用して、画像説明文、動画キャプション、記事などのクリエイティブコンテンツを素早く生成し、クリエイティブ効率を向上させることができます。
OAユーザーGUI機能により、ユーザーはクロスプラットフォームのオフィス業務を自動化し、作業効率を向上させ、反復作業を減らすことができる。