MiniCPM-V 4.5 - ファセット・インテリジェント・オープンソース8Bパラメータ・マルチモーダルモデル

51.2K 00

MiniCPM-V 4.5とは

MiniCPM-V 4.5は、Qwen3-8BとSigLIP2-400Mをベースに構築されたFacade Intelligence社のオープンソース8Bパラメトリックマルチモーダルモデルで、画像や動画を効率的に処理する機能を備えています。ビジョントークン MiniCPM-V 4.5は多言語インタラクションをサポートし、6倍のビデオフレーム数を処理でき、類似モデルの24倍である96倍の視覚圧縮率に達する。MiniCPM-V 4.5は多言語インタラクションをサポートし、30以上の言語を扱うことができ、多言語でのカスタマーサービスや翻訳シナリオに適しています。文書処理能力も非常に優れており、複雑な図表やチケットを扱うことができ、手書きOCRと多言語文書解析をサポートしています。このモデルは、長い思考と短い思考による制御されたハイブリッド推論をサポートし、推論の速度と深さは、実際のニーズに応じて柔軟に調整することができます。

MiniCPM-V 4.5の特徴

効率的な視覚処理1.8メガピクセルの画像を処理するのに必要なビジュアル・トークンはわずか640個で、同じビジュアル・トークンのオーバーヘッドで96倍のビジュアル圧縮率を達成できます。
多言語インタラクション多言語機能は30以上の言語をサポートしており、多言語カスタマーサービス、多言語翻訳、その他のシナリオに適用できる。
強力な文書処理スキルLLaVA-UHDアーキテクチャに基づき、最大1.8メガピクセルの高解像度画像をあらゆるアスペクト比で扱うことができ、手書きOCRや複雑なフォーム/ドキュメントの解析で非常に優れたパフォーマンスを発揮する。
管理された推論長い思考と短い思考が混在する推論をサポートし、実際のニーズに応じて推論の速度と深さを柔軟に調整することができます。
展開の柔軟性int4、GGUF、AWQなど、デバイスメモリに応じて選択可能な様々な定量化モデル形式を提供し、llama.cpp、ollama、vLLM、SGLangなど様々な展開方法をサポートします。

MiniCPM-V 4.5の主な利点

ハイブラシビデオの卓越した理解力業界初の "高ブラシ "映像理解能力を持つマルチモーダルモデルであり、6倍のビデオフレーム数を受信し、同じビジュアルトークンオーバーヘッドの下で96倍のビジュアル圧縮率を達成することができ、これは類似モデルの12～24倍であり、高ブラシ映像理解能力の2つのリストであるMotionBenchとFavorBenchにおいて、同じサイズSOTAを達成し、同じサイズSOTAを超える。MotionBenchとFavorBenchという2つの高ブラシ映像理解能力リストにおいて、同サイズのSOTAを達成し、同サイズのSOTAを超える。クウェン2.5-VL 72B.
優れた画像理解能力OpenCompassなどのベンチマークでは、GPT-4o-latestなどのモデルを凌ぐ好成績を収め、高解像度画像を効率的に処理し、最大1.8メガピクセルの画像をあらゆるアスペクト比でサポートし、手書きOCR、複雑なフォーム／ドキュメントの解析に優れ、30以上の言語をサポートする。
幅広い多言語サポート多言語機能は30以上の言語をサポートしており、多言語カスタマーサービス、多言語翻訳、その他のシナリオに適用して、異なる言語環境でのインタラクション・ニーズを満たすことができる。
統制された推論の柔軟性推論の速度と深さの柔軟な調整の実際のニーズに応じて、長い思考、短い思考制御混合推論をサポートし、考慮効率と精度を取る。
さまざまな配備形態int4、GGUF、AWQなどの様々な定量モデル形式を提供し、デバイスメモリに応じて選択することができ、llama.cpp、ollama、vLLM、SGLangなどの様々な展開方法をサポートし、異なるデバイスやシナリオで使用するのに便利です。

MiniCPM-V 4.5の公式ウェブサイトは？

GitHubリポジトリ:: https://github.com/OpenBMB/MiniCPM-V
HuggingFaceモデルライブラリ:: https://huggingface.co/openbmb/MiniCPM-V-4_5
オンライン体験デモ:: http://101.126.42.235:30910/

誰がMiniCPM-V 4.5を使用できますか？

開発者このモデルはオープンソースであり、様々な展開方法を提供し、開発者は、インテリジェントな顧客サービス、文書処理ツールなどのマルチモーダルアプリケーションの二次開発、迅速な建設に基づいて行うことができます。
研究員オープンソースのモデルであるため、研究者が研究、分析、改良することができ、マルチモーダル技術の開発を促進し、新たな応用シナリオやアルゴリズムの最適化を探求することができる。
ビジネスユーザー企業は、監視カメラの映像解析、製品デモ、顧客サービスなどのビジネスシーンで効率的な画像・映像処理機能を活用し、作業効率とユーザー体験を向上させることができます。
モバイル機器ユーザーこのモデルは、iPhone16Pro Maxのようなモバイル・デバイスへの迅速な導入をサポートしており、モバイル・デバイス上でリアルタイムの画像認識や文書処理などのモバイル・アプリケーションを必要とするユーザーに適しています。
多言語ユーザー30以上の言語をサポートしているため、多国籍企業や国際機関など、多言語環境のユーザーに適しており、異なる言語のユーザーの対話ニーズに応えることができる。