AI个人学习
和实操指南
豆包Marscode1

Google 发布 Gemini 2.5:“思考”能力大幅提升

Google DeepMind 于 2025 年 3 月 25 日(最后更新于 3 月 26 日)发布了其号称最智能的 AI 模型系列—— Gemini 2.5。首个亮相的 Gemini 2.5 Pro Experimental 版本在多个基准测试中表现突出,尤其在推理和代码能力上展示了显著进步,并在 LMArena 排行榜上以明显优势登顶。

 


“思考模型”:不仅是预测,更是推理

Gemini 2.5 系列被 Google 定义为“思考模型”(thinking models)。这一概念的核心在于,模型能在生成回应前进行内部“思考”或推理过程,旨在提升处理复杂问题的性能和准确性。在人工智能领域,“推理”能力超越了简单的分类和预测,它涉及到分析信息、进行逻辑推断、理解上下文和细微差别,并据此做出明智决策的能力。

长期以来,研究人员一直在探索提升 AI 推理能力的方法,例如强化学习和思维链(chain-of-thought)提示技术。基于这些探索,Google 此前推出了首个“思考模型” Gemini 2.0 Flash Thinking。此次发布的 Gemini 2.5 则通过结合显著增强的基础模型和改进的后训练流程,将性能推向了新的高度。Google 表示,未来会将这种“思考”能力内置到所有模型中,以应对更复杂的问题,并支持功能更强、具备更佳上下文感知能力的智能体(agents)。这种先“思考”再“回答”的机制,被认为有助于减少 AI 模型常见的“幻觉”现象,提高回答的可靠性。

 

Gemini 2.5 Pro Experimental 的性能表现

根据 Google 公布的信息,Gemini 2.5 Pro Experimental 在处理复杂任务方面达到了当前顶尖水平。它在衡量人类偏好的 LMArena 排行榜上大幅领先,这通常意味着模型不仅性能强大,其输出的风格、连贯性和实用性也更受用户青睐。

在具体的基准测试方面:

  • 推理能力:该模型在需要高级推理能力的数学和科学基准测试(如 GPQA 和 AIME 2025)中表现领先,且无需使用增加成本的测试时技巧(如多数投票)。在一个旨在评估人类知识和推理前沿、由数百名领域专家设计的 Humanity’s Last Exam 数据集上,Gemini 2.5 Pro 在不使用外部工具的情况下,取得了 18.8% 的成绩,同样处于领先地位。
    Google DeepMind 发布 Gemini 2.5:号称“会思考”的 AI 新里程碑?-1
    注:上图展示了模型在推理、科学、数学等方面的对比,其中涉及的 OpenAI GPT-4.5 和 Claude 3.7 Sonnet 等模型名称和数据来源于 Google 提供的图表。
  • 代码能力Gemini 2.5 在编码方面相较于 Gemini 2.0 实现了巨大飞跃,尤其擅长创建具有视觉吸引力的 Web 应用、智能体代码应用以及代码转换和编辑。在衡量智能体代码能力的行业标准 SWE-Bench Verified 上,使用定制智能体设置的 Gemini 2.5 Pro 取得了 63.8% 的分数。Google 还展示了一个例子,Gemini 2.5 Pro 利用其推理能力,根据单行提示生成可执行代码,创建了一个简单的恐龙视频游戏。

继承与发展:多模态与长上下文

Gemini 2.5 继承了 Gemini 系列的核心优势:原生的多模态能力和长上下文窗口。Gemini 2.5 Pro 发布时即支持 100 万 token 的上下文窗口(并计划很快扩展到 200 万 token),且在此长窗口下的性能优于前代模型。这意味着它可以理解和处理包含文本、音频、图像、视频甚至整个代码库在内的海量数据集,处理来自不同信息源的复杂问题。这对于需要深度理解长篇文档、分析复杂代码项目或处理长视频内容的场景,具有显著的应用潜力。

Google DeepMind 发布 Gemini 2.5:号称“会思考”的 AI 新里程碑?-2

表格更新于 3 月 26 日,包含新的 MRCR (Multi Round Coreference Resolution) 评估结果。

 

可用性与未来展望

目前,Gemini 2.5 Pro Experimental 版本已在 Google AI Studio 中提供给开发者试用,Gemini Advanced 用户也可以在桌面和移动设备的模型下拉菜单中选择使用。该模型预计将在未来几周内登陆 Vertex AI 平台。Google 还计划在未来几周公布定价信息,使用户能够以更高的速率限制将其用于规模化的生产环境。

"Experimental"(实验性)的标签暗示了当前版本可能仍在快速迭代中,用户在使用时或许会遇到一些不稳定性,同时 Google 也希望借此收集广泛的反馈以持续改进。Gemini 2.5 的发布,特别是其强调的“思考”能力和在各项基准上的强劲表现,无疑是大型语言模型领域向前迈出的又一步,其后续发展和实际应用效果值得密切关注。

未经允许不得转载:首席AI分享圈 » Google 发布 Gemini 2.5:“思考”能力大幅提升
zh_CN简体中文