o1系列模型是先进的过程推理模型,其中小尺寸的o1-mini模型虽然世界知识能力被削减,但逻辑推理能力有可能强于o1-preview。
目前o1-mini仅开放给部分免费账户预览体验,你的账户是否正式开启o1-mini模型,可以用以下解码问题验证:
oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step
Use the example above to decode:
oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
以上验证问题来源于 OpenAI o1 大语言模型的推理能力学习,以下文章了解更多o1-mini模型信息 OpenAI o1-mini 大模型介绍。
如果你没有ChatGPT免费账户或缺少o1-mini体验权限,可以访问:ChatGPT镜像站(国内访问GPT4系列模型) 体验。
关于OpenAI o1模型大家关心的一些问题
模型名称和推理模式
- OpenAI o1 代表了一种新的AI能力水平,计数器重置为1
- “Preview”表示这是完整模型的早期版本
- “Mini”表示这是o1模型的较小版本,优化了速度
- o - 代表OpenAI
- o1不是一个“系统”,而是一个模型,训练生成长链的推理后再提供最终答案
- o1的图标象征性地代表一个具有非凡能力的外星人
o1模型的大小和性能
- o1-mini比o1-preview更小、更快,因此未来将提供给免费用户
- o1-preview是o1模型的早期检查点,既不大也不小
- o1-mini在STEM任务中表现更好,但在世界知识方面有限
- o1-mini在某些任务中表现出色,尤其是在代码相关任务中,比o1-preview更优秀
- o1的输入 Token 的计算方式与GPT-4o相同,使用相同的 Tokenizer
- 与o1-preview相比,o1-mini可以探索更多的思维链
输入 Token 上下文和模型能力
- o1模型即将支持更大的输入上下文
- o1模型可以处理更长、更开放式的任务,较少需要像GPT-4o那样对输入进行分块
- o1可以在提供答案之前生成长链的推理,与之前的模型不同
- 目前无法在CoT推理过程中暂停推理以添加更多上下文,但未来模型中正在探索这一功能
工具、功能和即将推出的功能
- o1-preview目前不使用工具,但计划支持函数调用、代码解释器和浏览功能
- 工具支持、结构化输出和系统提示将在未来更新中添加
- 用户最终可能可以控制思考时间和 Token 限制
- 正在计划支持流式处理,并考虑在API中体现推理进展
- o1的多模态能力已经内置,目标是在像MMMU这样的任务中达到最先进的性能
CoT(推理链)推理
- o1在推理过程中生成隐藏的推理链
- 没有计划向API用户或ChatGPT公开CoT Token
- CoT Token 会被总结,但无法保证其与实际推理过程的完全一致性
- 提示中的指令可以影响模型对问题的思考方式
- 强化学习(RL)被用于提升o1的CoT能力,而GPT-4o无法仅通过提示达到其CoT的表现
- 虽然推理阶段看起来较慢,但实际上生成答案的速度通常更快,因为它总结了推理过程
API和使用限制
- o1-mini对ChatGPT Plus用户的每周限制为50次提示
- 在ChatGPT中所有提示都被计数相同
- 更多的API访问层级和更高的限制将逐步推出
- API中的提示缓存是一个热门需求,但尚无时间表
定价、微调和扩展
- o1模型的定价预计会遵循每1-2年一次的价格下降趋势
- 随着限制增加,批量API定价将得到支持
- 微调已在计划中,但时间表尚未确定
- o1的扩展受到研究和工程人才的瓶颈限制
- 推理计算的新扩展范式可能会在未来几代模型中带来显著提升
- 逆向扩展目前并不显著,但在个人写作提示中,o1-preview的表现仅比GPT-4o略好(甚至略差)
模型开发和研究见解
- o1通过强化学习训练以实现推理能力
- 该模型展示了创造性思维,并在诗歌等横向任务中表现出色
- o1的哲学推理和广泛的推理能力令人印象深刻,比如解读密码
- o1被研究人员用于创建一个GitHub机器人,该机器人可以ping正确的CODEOWNERS进行代码审查
- 在内部测试中,o1对自己提出了难题,以评估其能力
- 广泛的世界领域知识正在添加中,并将在未来版本中得到改进
- 计划为o1-mini添加更新的数据(当前为2023年10月)
提示技巧和最佳实践
- o1受益于提供边缘情况或推理风格的提示
- o1模型比早期模型更容易接受提示中的推理线索
- 在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的片段可能会削弱推理能力
一般反馈和未来改进
- 由于处于早期测试阶段,o1-preview的限制较低,但将会增加
- 正在积极改进延迟和推理时间
显著的模型能力
- o1可以思考哲学问题,例如“生命是什么?”
- 研究人员发现o1在处理复杂任务和从有限指令中进行广泛推理方面表现出色
- o1的创造性推理能力,如通过自己提问来评估其能力,展示了其高水平的问题解决能力