SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

Последние ресурсы по искусственному интеллектуОпубликовано 2 месяца назад Круг обмена ИИ

22.6K 00

SenseNova-MARS是什么

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型（Agentic VLM），提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具（如图像裁剪、文本/图像搜索），实现"识别—检索—推理"的闭环自主执行。在 MMSearch、HR-MMSearch 等多模态搜索推理基准测试中， SenseNova-MARS 以 69.74 分超越 Gemini-3-Pro（69.06 分）和 GPT-5.2（67.64 分），位列开源模型 SOTA。

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS的功能特色

动态视觉推理：支持对图片中占比不足 5% 的微小细节（如 Logo、小字、微小物体）进行自动裁剪放大分析。
自主工具调用：可自动调用图像裁剪、文本搜索、图像搜索等多种工具，无需人工干预完成复杂任务。
多模态搜索融合：将实时图文搜索能力深度融入视觉理解过程，实现"动态视觉+搜索"的闭环推理。
端到端任务执行：独立完成从图片识别、信息检索到逻辑推理的多步骤复杂任务（如识别赛车服 Logo → 查询公司成立年份 → 匹配车手出生年月 → 计算差值）。
双版本部署：提供 8B（适合端侧/有限算力）和 32B（更强推理能力）两种参数版本。

SenseNova-MARS的核心优势

высокая производительность：在 MMSearch（74.27 分）、HR-MMSearch（54.43 分）等多模态搜索榜单中超越 GPT-5.2、Gemini-3-Pro 等顶级闭源模型，取得开源 SOTA。
Agentic 架构：首个将工具调用与视觉推理内化为模型原生能力的 VLM，非依赖外部框架指挥，形成带反馈的闭环推理。
高难度场景突破：在 HR-MMSearch"AI 界奥林匹克"测试中，能处理 4K 超高清图片中的细微元素，60% 问题需至少 3 种工具协作解决。
全面开源：模型权重、训练代码、数据集全量开源，支持 Hugging Face 直接下载，技术报告已发表于 arXiv。
训练创新：采用自动化数据合成引擎构建复杂推理链路，结合 BN-GSPO 强化学习算法优化，培养"工具使用直觉"。

SenseNova-MARS官网是什么

Репозиторий GitHub：https://github.com/OpenSenseNova/SenseNova-MARS
Библиотека моделей HuggingFace::
- https://huggingface.co/sensenova/SenseNova-MARS-32B
- https://huggingface.co/sensenova/SenseNova-MARS-8B
Технический документ arXiv：https://arxiv.org/pdf/2512.24330

SenseNova-MARS的适用人群

AI 研究者与开发者：需要探索 Agentic VLM、多模态推理、工具学习等前沿技术的研究人员。
Корпоративный аналитик：需从行业峰会照片、产品图中自动识别标志并快速搜集企业背景、时间、参数等信息的商业分析师。
媒体与体育从业者：需要从赛事照片中识别 Logo、人物，追溯比赛背景与人员信息的编辑、评论员。
金融与投研人员：需处理高清财报图片、识别微小程序码或数据细节，进行交叉验证的投资者。
端侧应用开发者：8B 版本适合在资源受限环境下部署，面向移动端、IoT 设备的应用开发者。

Последние ресурсы по искусственному интеллекту

© заявление об авторских правах

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Похожие статьи

Superads：提升投放媒体广告表现的免费AI创意分析工具

Superads: бесплатный инструмент креативной аналитики с искусственным интеллектом для повышения эффективности рекламы в размещенных медиа

Последние ресурсы по искусственному интеллекту # AI Marketing

1 год назад

067.8K

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

MockingBird: быстрое клонирование голоса и обучение моделей, преобразование текста в речь на основе xtts v2

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Клонирование голоса AI

1 год назад

062.3K

Needle：接入私人数据源的AI搜索与工作自动化平台

Needle: платформа для автоматизации поиска и трудоустройства с искусственным интеллектом и доступом к частным источникам данных

Последние ресурсы по искусственному интеллекту # Поиск знаний и RAG Framework

1 год назад

049.8K

百川大模型：百小应智能问答平台

Большая модель Бай Чуань: Интеллектуальная платформа вопросов и ответов Бай Сяо Инь

Последние ресурсы по искусственному интеллекту # AI Big Model Native Dialogue Tool

2 года назад

051.7K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

нет

Нет комментариев...