AI个人学习
和实操指南

OpenAI o1-mini 大模型介绍

推动高性价比的推理技术。

我们推出了 OpenAI o1-mini,这是一款具有高性价比的推理模型。o1-mini 在 STEM 领域,特别是在数学和编程方面表现出色,其性能几乎与 OpenAI o1 在 AIME 和 Codeforces 等评测基准上的表现相当。我们预期,o1-mini 将成为一个更快、更经济的选择,适用于那些需要推理但不依赖广泛世界知识的应用场景。

今天,我们以比 OpenAI o1-preview 便宜 80% 的价格向 tier 5 API 用户(opens in a new window) 推出 o1-mini。ChatGPT Plus、Team、Enterprise 和 Edu 用户可以将 o1-mini 作为 o1-preview 的替代方案,享受更高的使用限制和更低的延迟,见 [Model Speed。

 

专为 STEM 推理优化

大型语言模型如 o1 通常在大规模文本数据集上进行预训练。尽管这些高容量模型具备广泛的世界知识,但在实际应用中可能会显得昂贵且速度较慢。相对而言,o1-mini 是一个在预训练阶段专门优化了 STEM 推理的小型模型。在使用与 o1 相同的高计算量强化学习(RL)管道进行训练后,o1-mini 在许多实用的推理任务上表现相当,同时成本效益显著提升。

在需要智能和推理的基准测试中,o1-mini 的表现优于 o1-preview 和 o1。然而,o1-mini 在需要非 STEM 事实知识的任务中表现较差,见 [Limitations]。

 

数学性能与推理成本

OpenAI o1-mini介绍-1

 

数学: 在高中 AIME 数学竞赛中,o1-mini(70.0%)的表现与 o1(74.4%)相当——而且价格明显更便宜——并且优于 o1-preview(44.6%)。o1-mini 的得分(大约答对 11 道题目中的 15 道)使它大致处于美国高中生的前 500 名左右。

编程: 在 Codeforces 竞赛网站上,o1-mini 的 Elo 得分为 1650,这与 o1(1673)相当,并且高于 o1-preview(1258)。这一 Elo 分数将 o1-mini 排在 Codeforces 平台上程序员的前 86 百分位。o1-mini 在 HumanEval 编程基准测试和高中水平的网络安全 Capture the Flag 挑战(CTFs)中表现也非常出色。

 

Codeforces
OpenAI o1-mini介绍-1

 

HumanEval
OpenAI o1-mini介绍-1

 

网络安全 CTFs

OpenAI o1-mini介绍-1

 

STEM: 在一些需要推理的学术测试中,例如 GPQA(科学)和 MATH-500,o1-mini 的表现超越了 GPT-4o。o1-mini 在 MMLU 任务中的表现不如 GPT-4o,并且在 GPQA 中也落后于 o1-preview,因为它缺乏广泛的世界知识。

 

MMLU
OpenAI o1-mini介绍-1

 

GPQA
OpenAI o1-mini介绍-1

 

MATH-500

OpenAI o1-mini介绍-1

 

人类偏好评估: 我们让评估者将 o1-mini 与 GPT-4o 在各种领域的开放式难题上进行比较,采用了与我们 [o1-preview 与 GPT-4o 比较](https://openai.com/index/learning-to-reason-with-llms/) 相同的方法。类似于 o1-preview,o1-mini 在需要推理的领域比 GPT-4o 更受欢迎,但在语言集中领域则不如 GPT-4o 受欢迎。

 

人类偏好评估 vs chatgpt-4o-latest

OpenAI o1-mini介绍-1

 

模型速度

作为具体例子,我们比较了 GPT-4o、o1-mini 和 o1-preview 在一个词汇推理问题上的反应。虽然 GPT-4o 的答案不正确,但 o1-mini 和 o1-preview 都给出了正确答案,而且 o1-mini 的回答速度大约是 3-5 倍快。

OpenAI o1-mini介绍-1

AI轻松学

普通人的AI入门指南

帮助你以低成本、零基础学会如何利用AI工具。AI就像办公软件一样,是每个人的必备技能。 掌握AI会让你在求职中占据优势,在未来的工作和学习中事半功倍。

查看详情>
未经允许不得转载:首席AI分享圈 » OpenAI o1-mini 大模型介绍
分享到

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们