GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズ

GLM-4.6Vとは？

GLM-4.6Vは、Smart Spectrum AIがオープンソース化したマルチモーダル大規模言語モデルのシリーズで、2つのバージョンがある：グライム-4.6V（106B-A12B）クラウドおよび高性能クラスタシナリオ用の基本バージョンであるMoE（Mixed Expert）アーキテクチャは、総パラメータが約1060億、アクティブパラメータが120億であり、大規模なマルチモーダルタスクの処理に適している。GLM-4.6V-フラッシュ（9B）。ローカル展開や低遅延アプリケーションのための軽量バージョンは、90億のパラメータを持ち、コンシューマーグレードのハードウェアで実行でき、高速推論とリアルタイムインタラクションをサポートする。このモデルは、MMBenchやMathVistaといった30以上の主流のマルチモーダル評価ベンチマークで良好な性能を示し、同じパラメータ規模での性能はSOTAレベルに達しており、これは現在のマルチモーダル大規模モデルの分野では最先端の成果である。

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6Vの機能的特徴

ネイティブなマルチモーダルツール呼び出し機能画像、スクリーンショットなどは、テキストに変換することなく、ツールのパラメータとして直接使用することができ、ツールによって返される視覚的な結果も、その後の推論に直接関与することができ、完全な知覚-理解-実行のクローズドループを形成する。
エクストラ・ロング・コンテキスト・ウィンドウコンテキスト・ウィンドウは学習中に128kトークンまで拡張され、長い文書、ビデオ、複雑な図などのマルチモーダルなコンテンツを扱うことができ、以前の入力の記憶とクロスモーダルな推論を保持する。
高性能と低コスト前世代のGLM-4.5Vと比較して、APIコール価格は50%削減され、入力は$1/100万トークン、出力は$3/100万トークンとなり、性能とコストのバランスが取れています。
広く使われているシナリオ混在配置のグラフィック作成、ビジュアル主導のショッピングガイド、フロントエンドの複製とインタラクション開発、長文ドキュメント/ビデオ理解などの作業をサポートし、マルチモーダル・エージェント・アプリケーションの技術基盤を提供する。

GLM-4.6Vの主な利点

ネイティブツール呼び出し機能これにより、画像やスクリーンショットなどのマルチモーダルデータを、テキスト記述に変換することなく、ツールの入力パラメータとして直接使用することができます。ツールによって返された視覚的な結果（例：チャート、ウェブページのスクリーンショット）は、モデルによって直接解析され、推論チェーンに統合されることができ、「知覚-理解-実行」の完全な閉ループを形成し、マルチモーダルなタスクの処理効率と精度を大幅に向上させます。
超ロング・コンテクスト処理能力コンテキスト・ウィンドウは128kトークンまで拡張でき、長さ150ページ、PPT200ページ、ビデオ1時間までの複雑な文書を扱うことができる。
精度の高い視覚的理解図表認識、手書き文字認識、文字認識、物体材質判定などの視覚タスクにおいて優れた性能を発揮し、錯覚を大幅に低減。任意のアスペクト比や4K解像度の画像入力に対応し、非標準サイズの画像（UIのスクリーンショットやスキャン文書など）にも強い処理能力を持つ。
マルチモーダル出力機能出力はもはやテキストに限定されず、画像、表、ウェブページのスクリーンショットなどを含むテキスト混在のコンテンツを生成することができ、これらの結果をフィルタリング、統合、品質管理することができるため、コンテンツ作成、グラフィックレポート作成、その他のシナリオに適しています。
プログラミングとフロントエンド開発のサポートフロントエンドのシナリオに最適化され、ウェブページのスクリーンショットやデザインをアップロードしてピクセル単位の正確なHTML/CSSコードを生成し、スクリーンショットに基づく複数ラウンドのビジュアル・インタラクション・デバッグをサポートします。
費用対効果のメリット前世代モデルと比較して、APIコール価格が50%引き下げられ、入力は100万トークンあたりわずか1ドル、出力は3ドルとなり、大規模な画像入力シナリオに適しています。軽量版（9bパラメータ）はコンシューマー向けGPUで実行できるため、導入の敷居が下がる。
オープンソースとエコロジーのサポート完全なオープンソースであり、モデル重み、推論コード、サンプルプロジェクトを提供し、主流の推論フレームワーク（例：VLLM、SGLang、XLLM）をサポートし、GPUや国内NPU環境での展開が可能であるため、開発者は開発のカスタマイズや既存システムへの統合が容易です。
リーディング・パフォーマンスGLM-4.6V-Flashの9bバージョンは総合性能でQwen3-VL-8Bを上回り、106bパラメータバージョンは2倍のパラメータ数でQwen3-VL-235Bを上回った。

GLM-4.6Vの公式サイトは？

GitHubリポジトリ:: https://github.com/zai-org/GLM-V
HuggingFaceモデルライブラリ:: https://huggingface.co/collections/zai-org/glm-46v
技術論文:: https://z.ai/blog/glm-4.6v

GLM-4.6Vの対象者

フロントエンド開発者ウェブページのスクリーンショットやデザインをアップロードして、高品質のHTML/CSS/JSコードを生成し、複数ラウンドのインタラクション修正をサポートし、「デザインから実行可能なページ」までのリンクを短縮し、フロントエンド開発の効率を向上させます。
ドキュメント・プロセッサーとビデオ・プロセッサー長いドキュメント（上場企業の財務報告書など）や長い動画を扱い、ドキュメント間で一様にコア指標を抽出し、レポートやチャートに隠されたシグナルを理解し、自動的に比較分析表にまとめることができる。また、長い動画に対してグローバルな結合ときめ細かな推論を行い、重要なポイントをピンポイントで特定することができ、複雑なコンテンツの理解や調査に適している。
マルチモーダルインテリジェントカスタマーサービス開発者視覚情報と文字情報を組み合わせて的確な回答や提案を提供し、多ラウンドの対話をサポートすることで、顧客サービスの効率を高め、より包括的で正確なサービスをユーザーに提供することができます。
研究者、データアナリスト科学研究やデータ分析の分野において、論文や研究報告書などの複雑なマルチモーダルデータを扱い、重要な情報の抽出、データ分析や推論を行い、科学研究や意思決定を支援します。
教育者図解教材の作成、複雑な学習ドキュメントの解析など、生徒が知識をより深く理解し、習得できるような教育コンテンツの作成やサポートに利用できる。
AI開発者と研究者オープンソースモデルとして、AI開発者や研究者がマルチモーダルAIの新たなアプリケーションや技術革新を探求するためのさらなる研究開発に利用できる強力な技術的足場を提供します。