SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

22.7K 00

SenseNova-MARS是什么

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型（Agentic VLM），提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具（如图像裁剪、文本/图像搜索），实现"识别—检索—推理"的闭环自主执行。在 MMSearch、HR-MMSearch 等多模态搜索推理基准测试中， SenseNova-MARS 以 69.74 分超越 Gemini-3-Pro（69.06 分）和 GPT-5.2（67.64 分），位列开源模型 SOTA。

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS的功能特色

动态视觉推理：支持对图片中占比不足 5% 的微小细节（如 Logo、小字、微小物体）进行自动裁剪放大分析。
自主工具调用：可自动调用图像裁剪、文本搜索、图像搜索等多种工具，无需人工干预完成复杂任务。
多模态搜索融合：将实时图文搜索能力深度融入视觉理解过程，实现"动态视觉+搜索"的闭环推理。
端到端任务执行：独立完成从图片识别、信息检索到逻辑推理的多步骤复杂任务（如识别赛车服 Logo → 查询公司成立年份 → 匹配车手出生年月 → 计算差值）。
双版本部署：提供 8B（适合端侧/有限算力）和 32B（更强推理能力）两种参数版本。

SenseNova-MARS的核心优势

リーディング・パフォーマンス：在 MMSearch（74.27 分）、HR-MMSearch（54.43 分）等多模态搜索榜单中超越 GPT-5.2、Gemini-3-Pro 等顶级闭源模型，取得开源 SOTA。
Agentic 架构：首个将工具调用与视觉推理内化为模型原生能力的 VLM，非依赖外部框架指挥，形成带反馈的闭环推理。
高难度场景突破：在 HR-MMSearch"AI 界奥林匹克"测试中，能处理 4K 超高清图片中的细微元素，60% 问题需至少 3 种工具协作解决。
全面开源：模型权重、训练代码、数据集全量开源，支持 Hugging Face 直接下载，技术报告已发表于 arXiv。
训练创新：采用自动化数据合成引擎构建复杂推理链路，结合 BN-GSPO 强化学习算法优化，培养"工具使用直觉"。

SenseNova-MARS官网是什么

GitHubリポジトリ：https://github.com/OpenSenseNova/SenseNova-MARS
HuggingFaceモデルライブラリ::
- https://huggingface.co/sensenova/SenseNova-MARS-32B
- https://huggingface.co/sensenova/SenseNova-MARS-8B
arXivテクニカルペーパー：https://arxiv.org/pdf/2512.24330