Google 发布 Gemini 2.5：“思考”能力大幅提升

54.4K 00

Google DeepMind 于 2025 年 3 月 25 日（最后更新于 3 月 26 日）发布了其号称最智能的 AI 模型系列—— Gemini 2.5。首个亮相的 Gemini 2.5 Pro Experimental 版本在多个基准测试中表现突出，尤其在推理和代码能力上展示了显著进步，并在 LMArena 排行榜上以明显优势登顶。

“思考模型”：不仅是预测，更是推理

Gemini 2.5 系列被 Google 定义为“思考模型”（thinking models）。这一概念的核心在于，模型能在生成回应前进行内部“思考”或推理过程，旨在提升处理复杂问题的性能和准确性。在人工智能领域，“推理”能力超越了简单的分类和预测，它涉及到分析信息、进行逻辑推断、理解上下文和细微差别，并据此做出明智决策的能力。

长期以来，研究人员一直在探索提升 AI 推理能力的方法，例如强化学习和思维链（chain-of-thought）提示技术。基于这些探索，Google 此前推出了首个“思考模型” Gemini 2.0 Flash Thinking。此次发布的 Gemini 2.5 则通过结合显著增强的基础模型和改进的后训练流程，将性能推向了新的高度。Google 表示，未来会将这种“思考”能力内置到所有模型中，以应对更复杂的问题，并支持功能更强、具备更佳上下文感知能力的智能体（agents）。这种先“思考”再“回答”的机制，被认为有助于减少 AI 模型常见的“幻觉”现象，提高回答的可靠性。

Gemini 2.5 Pro Experimental 的性能表现

根据 Google 公布的信息，Gemini 2.5 Pro Experimental 在处理复杂任务方面达到了当前顶尖水平。它在衡量人类偏好的 LMArena 排行榜上大幅领先，这通常意味着模型不仅性能强大，其输出的风格、连贯性和实用性也更受用户青睐。

在具体的基准测试方面：

推理能力：该模型在需要高级推理能力的数学和科学基准测试（如 GPQA 和 AIME 2025）中表现领先，且无需使用增加成本的测试时技巧（如多数投票）。在一个旨在评估人类知识和推理前沿、由数百名领域专家设计的 Humanity’s Last Exam 数据集上，Gemini 2.5 Pro 在不使用外部工具的情况下，取得了 18.8% 的成绩，同样处于领先地位。
注：上图展示了模型在推理、科学、数学等方面的对比，其中涉及的 OpenAI GPT-4.5 和 Claude 3.7 Sonnet 等模型名称和数据来源于 Google 提供的图表。
代码能力：Gemini 2.5 在编码方面相较于 Gemini 2.0 实现了巨大飞跃，尤其擅长创建具有视觉吸引力的 Web 应用、智能体代码应用以及代码转换和编辑。在衡量智能体代码能力的行业标准 SWE-Bench Verified 上，使用定制智能体设置的 Gemini 2.5 Pro 取得了 63.8% 的分数。Google 还展示了一个例子，Gemini 2.5 Pro 利用其推理能力，根据单行提示生成可执行代码，创建了一个简单的恐龙视频游戏。

继承与发展：多模态与长上下文

Gemini 2.5 继承了 Gemini 系列的核心优势：原生的多模态能力和长上下文窗口。Gemini 2.5 Pro 发布时即支持 100 万 token 的上下文窗口（并计划很快扩展到 200 万 token），且在此长窗口下的性能优于前代模型。这意味着它可以理解和处理包含文本、音频、图像、视频甚至整个代码库在内的海量数据集，处理来自不同信息源的复杂问题。这对于需要深度理解长篇文档、分析复杂代码项目或处理长视频内容的场景，具有显著的应用潜力。

表格更新于 3 月 26 日，包含新的 MRCR (Multi Round Coreference Resolution) 评估结果。

可用性与未来展望

目前，Gemini 2.5 Pro Experimental 版本已在 Google AI Studio 中提供给开发者试用，Gemini Advanced 用户也可以在桌面和移动设备的模型下拉菜单中选择使用。该模型预计将在未来几周内登陆 Vertex AI 平台。Google 还计划在未来几周公布定价信息，使用户能够以更高的速率限制将其用于规模化的生产环境。

"Experimental"（实验性）的标签暗示了当前版本可能仍在快速迭代中，用户在使用时或许会遇到一些不稳定性，同时 Google 也希望借此收集广泛的反馈以持续改进。Gemini 2.5 的发布，特别是其强调的“思考”能力和在各项基准上的强劲表现，无疑是大型语言模型领域向前迈出的又一步，其后续发展和实际应用效果值得密切关注。