Google DeepMind 于 2025 年 3 月 25 日(最后更新于 3 月 26 日)发布了其号称最智能的 AI 模型系列—— Gemini 2.5
。首个亮相的 Gemini 2.5 Pro Experimental
版本在多个基准测试中表现突出,尤其在推理和代码能力上展示了显著进步,并在 LMArena
排行榜上以明显优势登顶。
“思考模型”:不仅是预测,更是推理
Gemini 2.5
系列被 Google 定义为“思考模型”(thinking models)。这一概念的核心在于,模型能在生成回应前进行内部“思考”或推理过程,旨在提升处理复杂问题的性能和准确性。在人工智能领域,“推理”能力超越了简单的分类和预测,它涉及到分析信息、进行逻辑推断、理解上下文和细微差别,并据此做出明智决策的能力。
长期以来,研究人员一直在探索提升 AI 推理能力的方法,例如强化学习和思维链(chain-of-thought)提示技术。基于这些探索,Google 此前推出了首个“思考模型” Gemini 2.0 Flash Thinking
。此次发布的 Gemini 2.5
则通过结合显著增强的基础模型和改进的后训练流程,将性能推向了新的高度。Google 表示,未来会将这种“思考”能力内置到所有模型中,以应对更复杂的问题,并支持功能更强、具备更佳上下文感知能力的智能体(agents)。这种先“思考”再“回答”的机制,被认为有助于减少 AI 模型常见的“幻觉”现象,提高回答的可靠性。
Gemini 2.5 Pro Experimental
的性能表现
根据 Google 公布的信息,Gemini 2.5 Pro Experimental
在处理复杂任务方面达到了当前顶尖水平。它在衡量人类偏好的 LMArena
排行榜上大幅领先,这通常意味着模型不仅性能强大,其输出的风格、连贯性和实用性也更受用户青睐。
在具体的基准测试方面:
- 推理能力:该模型在需要高级推理能力的数学和科学基准测试(如
GPQA
和AIME 2025
)中表现领先,且无需使用增加成本的测试时技巧(如多数投票)。在一个旨在评估人类知识和推理前沿、由数百名领域专家设计的Humanity’s Last Exam
数据集上,Gemini 2.5 Pro
在不使用外部工具的情况下,取得了 18.8% 的成绩,同样处于领先地位。- 注:上图展示了模型在推理、科学、数学等方面的对比,其中涉及的 OpenAI GPT-4.5 和 Claude 3.7 Sonnet 等模型名称和数据来源于 Google 提供的图表。
- 代码能力:
Gemini 2.5
在编码方面相较于Gemini 2.0
实现了巨大飞跃,尤其擅长创建具有视觉吸引力的 Web 应用、智能体代码应用以及代码转换和编辑。在衡量智能体代码能力的行业标准SWE-Bench Verified
上,使用定制智能体设置的Gemini 2.5 Pro
取得了 63.8% 的分数。Google 还展示了一个例子,Gemini 2.5 Pro
利用其推理能力,根据单行提示生成可执行代码,创建了一个简单的恐龙视频游戏。
继承与发展:多模态与长上下文
Gemini 2.5
继承了 Gemini
系列的核心优势:原生的多模态能力和长上下文窗口。Gemini 2.5 Pro
发布时即支持 100 万 token 的上下文窗口(并计划很快扩展到 200 万 token),且在此长窗口下的性能优于前代模型。这意味着它可以理解和处理包含文本、音频、图像、视频甚至整个代码库在内的海量数据集,处理来自不同信息源的复杂问题。这对于需要深度理解长篇文档、分析复杂代码项目或处理长视频内容的场景,具有显著的应用潜力。

表格更新于 3 月 26 日,包含新的 MRCR (Multi Round Coreference Resolution) 评估结果。
可用性与未来展望
目前,Gemini 2.5 Pro Experimental
版本已在 Google AI Studio
中提供给开发者试用,Gemini Advanced
用户也可以在桌面和移动设备的模型下拉菜单中选择使用。该模型预计将在未来几周内登陆 Vertex AI
平台。Google 还计划在未来几周公布定价信息,使用户能够以更高的速率限制将其用于规模化的生产环境。
"Experimental"(实验性)的标签暗示了当前版本可能仍在快速迭代中,用户在使用时或许会遇到一些不稳定性,同时 Google 也希望借此收集广泛的反馈以持续改进。Gemini 2.5
的发布,特别是其强调的“思考”能力和在各项基准上的强劲表现,无疑是大型语言模型领域向前迈出的又一步,其后续发展和实际应用效果值得密切关注。