SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

堆友AI

SenseNova-MARS是什么

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型(Agentic VLM),提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具(如图像裁剪、文本/图像搜索),实现"识别—检索—推理"的闭环自主执行。在 MMSearch、HR-MMSearch 等多模态搜索推理基准测试中, SenseNova-MARS 以 69.74 分 超越 Gemini-3-Pro(69.06 分)和 GPT-5.2(67.64 分),位列开源模型 SOTA。

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS的功能特色

  • 动态视觉推理:支持对图片中占比不足 5% 的微小细节(如 Logo、小字、微小物体)进行自动裁剪放大分析。
  • 自主工具调用:可自动调用图像裁剪、文本搜索、图像搜索等多种工具,无需人工干预完成复杂任务。
  • 多模态搜索融合:将实时图文搜索能力深度融入视觉理解过程,实现"动态视觉+搜索"的闭环推理。
  • 端到端任务执行:独立完成从图片识别、信息检索到逻辑推理的多步骤复杂任务(如识别赛车服 Logo → 查询公司成立年份 → 匹配车手出生年月 → 计算差值)。
  • 双版本部署:提供 8B(适合端侧/有限算力)和 32B(更强推理能力)两种参数版本。

SenseNova-MARS的核心优势

  • リーディング・パフォーマンス:在 MMSearch(74.27 分)、HR-MMSearch(54.43 分)等多模态搜索榜单中超越 GPT-5.2、Gemini-3-Pro 等顶级闭源模型,取得开源 SOTA。
  • Agentic 架构:首个将工具调用与视觉推理内化为模型原生能力的 VLM,非依赖外部框架指挥,形成带反馈的闭环推理。
  • 高难度场景突破:在 HR-MMSearch"AI 界奥林匹克"测试中,能处理 4K 超高清图片中的细微元素,60% 问题需至少 3 种工具协作解决。
  • 全面开源:模型权重、训练代码、数据集全量开源,支持 Hugging Face 直接下载,技术报告已发表于 arXiv。
  • 训练创新:采用自动化数据合成引擎构建复杂推理链路,结合 BN-GSPO 强化学习算法优化,培养"工具使用直觉"。

SenseNova-MARS官网是什么

  • GitHubリポジトリ:https://github.com/OpenSenseNova/SenseNova-MARS
  • HuggingFaceモデルライブラリ::
    • https://huggingface.co/sensenova/SenseNova-MARS-32B
    • https://huggingface.co/sensenova/SenseNova-MARS-8B
  • arXivテクニカルペーパー:https://arxiv.org/pdf/2512.24330

SenseNova-MARS的适用人群

  • AI 研究者与开发者:需要探索 Agentic VLM、多模态推理、工具学习等前沿技术的研究人员。
  • コーポレート・アナリスト:需从行业峰会照片、产品图中自动识别标志并快速搜集企业背景、时间、参数等信息的商业分析师。
  • 媒体与体育从业者:需要从赛事照片中识别 Logo、人物,追溯比赛背景与人员信息的编辑、评论员。
  • 金融与投研人员:需处理高清财报图片、识别微小程序码或数据细节,进行交叉验证的投资者。
  • 端侧应用开发者:8B 版本适合在资源受限环境下部署,面向移动端、IoT 设备的应用开发者。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません