面向 OpenAI O1 与 O3-mini 推理模型的提示工程

引言： OpenAI的 O1 和 O3-mini 是先进的“推理”模型，它们与基础 GPT-4 （通常称为GPT-4o）在处理提示和生成答案的方式上有所不同。这些模型旨在花费更多时间“思考”复杂问题，模拟人类的分析方法。
本文深入探讨了针对 OpenAI 的 O1 和 O3-mini 推理模型的 Prompt 工程技术。然而，文中阐述的关于输入结构、推理能力、响应特征以及 Prompt 最佳实践等方面的洞见， 并非仅限于 OpenAI 的模型 。随着推理模型技术的蓬勃发展，涌现出如 DeepSeek-R1 等众多具备卓越推理能力的模型。本文的核心原则和技巧同样可以作为宝贵的参考，帮助读者在使用 DeepSeek-R1 以及其他同类推理模型时，最大限度地发挥它们的潜力。因此，在深入了解 O1 和 O3-mini 的 Prompt 工程细节的同时，请读者思考如何将这些经验融会贯通，应用于更广泛的推理模型领域，以解锁更强大的 AI 应用能力。

O1/O3-mini与GPT-4o的区别

输入结构和上下文处理

内置推理 vs. 提示引导推理： O1系列模型具有内置的思维链推理能力，这意味着它们在内部进行推理，无需提示词的额外引导。相比之下，GPT-4o在解决复杂问题时，通常需要“让我们逐步思考”之类的外部指令来引导，因为它不会自动进行相同程度的多步推理。对于O1/O3-mini，你可以直接提出问题；模型将自行深入分析。
对外部信息的需求： GPT-4o拥有广泛的知识库，并且在某些部署中可以访问工具（例如浏览、插件、视觉），这有助于它处理各种主题。相比之下，O1模型在训练重点之外的知识库较窄。这意味着，使用O1/O3-mini时，如果任务超出常识范围，重要的背景信息或上下文应包含在提示中——不要假设模型知道小众事实。GPT-4o可能已经知道某个法律先例或晦涩的细节，而O1可能需要你提供该文本或数据。提示示例：
- GPT-4o： “分析最近美国最高法院关于堕胎权的裁决。”（GPT-4o可能已经具备相关知识）
- O1： “根据以下背景资料，分析堕胎权裁决对美国社会的影响：[粘贴相关新闻报道和法律文件摘要]。”（O1可能需要更详细的背景信息）
上下文长度： 推理模型具有非常大的上下文窗口。O1支持多达128k个token的输入，O3-mini接受多达200k个token（最多100k个token输出），超过了GPT-4o的上下文长度。这允许你将大量案例文件或数据集直接输入O1/O3。对于提示工程，清晰地组织大型输入（使用章节、项目符号或标题），以便模型可以导航信息。GPT-4o和O1都可以处理长提示，但O1/O3的更高容量意味着你可以在一次输入中包含更详细的上下文，这在复杂分析中非常有用。提示示例：
- “根据下面粘贴的这份长篇法律文件，总结案件的核心争议点和法院的最终判决。[粘贴数万字的法律文件]”（O1/O3-mini可以有效处理如此长的输入）

推理能力和逻辑演绎

推理深度： O1和O3-mini针对系统化、多步骤推理进行了优化。它们在回答之前确实“思考更长时间”，这会在复杂任务上产生更准确的解决方案。例如，O1-preview在一项具有挑战性的数学考试（AIME）中解决了83%的问题，而GPT-4o的解决率为13%，这证明了其在专业领域中卓越的逻辑演绎能力。这些模型在内部执行思维链，甚至自我检查其工作。GPT-4o也很强大，但倾向于更直接地生成答案；如果没有明确的提示，它可能不会进行详尽的分析，这可能导致在O1可以捕获的非常复杂的情况下出错。
处理复杂任务 vs. 简单任务： 由于O1系列模型默认为深度推理，它们在具有许多推理步骤的复杂问题（例如，多方面分析、长证明）上表现出色。事实上，在需要五个或更多推理步骤的任务中，像O1-mini或O3这样的推理模型比GPT-4的准确率高出16%以上。然而，这也意味着对于非常简单的查询，O1可能会“过度思考”。研究发现，在简单的任务（少于3个推理步骤）中，O1的额外分析过程可能成为劣势——在许多此类情况下，由于过度推理，它的表现不如GPT-4。GPT-4o可能会更直接、迅速地回答一个简单的问题，而O1可能会产生不必要的分析。关键区别在于O1针对复杂性进行了校准，因此对于琐碎的问答，它的效率可能较低。提示示例：
- 复杂任务（适合O1）： “分析并总结气候变化对全球经济的长期影响，包括对不同行业、就业市场和国际贸易的潜在风险和机遇。”
- 简单任务（适合GPT-4o）： “今天天气怎么样？”
逻辑演绎风格： 在处理谜题、演绎推理或逐步问题时，GPT-4o通常需要提示工程来逐步进行（否则它可能会跳到答案）。O1/O3-mini以不同的方式处理逻辑演绎：它们模拟内部对话或草稿。对于用户来说，这意味着O1的最终答案往往有充分的理由，并且不太容易出现逻辑漏洞。它实际上在内部完成了“思维链”以仔细检查一致性。从提示的角度来看，你通常不需要告诉O1解释或检查其逻辑——它会在呈现答案之前自动执行此操作。对于GPT-4o，你可能会包含“首先列出假设，然后得出结论”之类的指令，以确保逻辑严谨；对于O1，此类指令通常是多余的，甚至适得其反。提示示例：
- GPT-4o： “解决这个逻辑谜题：[谜题内容]。请逐步展示你的解题思路，并解释每一步的理由。”
- O1： “解决这个逻辑谜题：[谜题内容]。”（O1将自动进行逻辑推理，并给出理由充分的答案）

响应特征和输出优化

细节和冗长性： 由于其深入推理，O1和O3-mini通常为复杂查询生成详细、结构化的答案。例如，O1可能会将数学解决方案分解为多个步骤，或为战略计划的每个部分提供理由。另一方面，GPT-4o可能会默认提供更简洁的答案或高级摘要，除非提示其详细说明。在提示工程方面，这意味着O1的响应可能更长或更具技术性。你可以通过指令更好地控制这种冗长性。如果你希望O1简洁，你必须明确地告诉它（就像你对GPT-4所做的那样）——否则，它可能会倾向于详尽无遗。相反，如果你希望在输出中获得逐步解释，GPT-4o可能需要被告知包含一个，而O1如果被要求，将很乐意提供一个（并且无论如何都可能在内部完成了推理）。提示示例：
- 要求详细解释（GPT-4o）： “详细解释Transformer模型的工作原理，包括每个组成部分的具体作用，并尽可能使用技术术语。”
- 要求简洁回答（O1）： “用三句话概括Transformer模型的核心思想。”
准确性和自我检查： 推理模型表现出一种自我事实检查的形式。OpenAI指出，O1在响应生成过程中更善于发现自己的错误，从而提高了复杂响应中的事实准确性。GPT-4o通常是准确的，但如果没有指导，它偶尔会自信地出错或产生幻觉。O1的架构通过在“思考”时验证细节来降低这种风险。实际上，用户已经观察到，O1在棘手问题上产生的错误或无意义的答案较少，而GPT-4o可能需要提示技术（例如要求它批评或验证其答案）才能达到相同的置信水平。这意味着你通常可以信任O1/O3-mini通过直接提示来正确回答复杂问题，而对于GPT-4，你可能需要添加“检查你的答案是否与上述事实一致”之类的指令。尽管如此，没有哪个模型是绝对可靠的，因此应始终审查关键的事实性输出。提示示例：
- GPT-4o（强调准确性）： “分析这份财务报告中的数据，并计算公司的净利润率。请务必仔细核对数字，确保计算结果准确无误。”
- O1（默认信任）： “分析这份财务报告中的数据，并计算公司的净利润率。”
速度和成本： 一个显著的区别是，O1模型为了更深入的推理而更慢、更昂贵。O1 Pro甚至包含一个用于长查询的进度条。GPT-4o对于典型查询往往响应更快。O3-mini的推出是为了提供一个更快、更具成本效益的推理模型——它每个token比O1或GPT-4o便宜得多，并且具有更低的延迟。然而，O3-mini是一个较小的模型，因此虽然它在STEM推理方面很强大，但它可能无法在一般知识或极其复杂的推理方面与完整的O1或GPT-4相提并论。在为最佳响应性能进行提示工程时，你需要平衡深度与速度：O1可能需要更长的时间才能彻底回答。如果延迟是一个问题，并且任务不是最大的复杂性，那么O3-mini（甚至GPT-4o）可能是更好的选择。OpenAI的指导是，GPT-4o“对于大多数提示仍然是最佳选择”，主要将O1用于策略、数学和编码等领域中真正困难的问题。简而言之，为工作使用正确的工具——如果你使用O1，请预计更长的响应时间，并为其较慢的输出做好计划（可能通过通知用户或调整系统超时）。提示示例：
- 速度优先（适合GPT-4o或O3-mini）： “快速总结一下这篇文章的主要观点，越快越好。”
- 深度优先（适合O1）：“深入分析这篇文章的论证逻辑和证据，并评估其论点的可信度。”

最大化性能的提示工程技术

有效地利用O1和O3-mini需要与GPT-4o略有不同的提示方法。以下是关键的提示工程技术和最佳实践，可从这些推理模型中获得最佳结果：

保持提示清晰和最小化

简洁明了地提出你的要求。由于O1和O3执行密集的内部推理，因此它们对重点突出的问题或没有无关文本的指令响应最佳。OpenAI和最近的研究表明，应避免对这些模型使用过于复杂或具有引导性的提示。在实践中，这意味着你应该清楚地陈述问题或任务，并且只提供必要的细节。无需添加“修饰”或多次改述查询。例如，与其写：“在这个具有挑战性的难题中，我希望你仔细推理每个步骤以得出正确的解决方案。让我们逐步分解它……”，不如简单地问：“解决以下难题[包括难题细节]。解释你的推理。”该模型自然会在内部进行逐步思考并给出解释。过多的指令实际上会使事情复杂化——一项研究发现，添加过多的提示上下文或过多的示例会降低O1的性能，实质上是压垮了它的推理过程。提示： 对于复杂任务，从零样本提示（仅任务描述）开始，仅当你发现输出不符合你的需求时才添加更多指令。通常，最小化提示会产生这些推理模型的最佳结果。

提示示例：

简洁提示（O1/O3-mini）： “分析这份市场调研报告，找出三个最重要的市场趋势。”
冗余提示（不推荐）： “我这里有一份非常重要的市场调研报告，内容很多，信息量很大，希望你认真仔细地阅读，深入思考，然后分析一下，这份报告中最重要的市场趋势是什么？最好能列出最重要的三个趋势，并解释一下为什么认为这三个趋势最重要。”

避免不必要的少样本示例

传统的GPT-3/4提示工程通常使用少样本示例或演示来指导模型。然而，对于O1/O3，少即是多。O1系列经过专门训练，不需要包含大量示例的提示。实际上，使用多个示例会损害性能。对O1-preview和O1-mini的研究表明，少样本提示始终会降低其性能——即使精心选择的示例在许多情况下也会使其比简单提示更糟糕。内部推理似乎会被示例分散注意力或受到限制。OpenAI自己的指南与此相符：他们建议限制推理模型的其他上下文或示例，以避免混淆其内部逻辑。最佳实践：使用零样本或最多一个绝对需要的示例。如果你包含一个示例，请使其高度相关且简单。例如，在法律分析提示中，你通常不会预先添加完整的示例案例分析；相反，只需直接询问新案例。你可能使用演示的唯一情况是，如果任务格式非常具体，并且模型没有遵循说明——然后展示一个所需格式的简短示例。否则，相信模型会从直接查询中弄清楚。

提示示例：

零样本提示（最佳）： “根据以下病历信息，诊断患者可能患有的疾病。[粘贴病历信息]”
少样本提示（不推荐）： “以下是一些疾病诊断的例子：[示例1]，[示例2]，现在请你根据以下病历信息，诊断患者可能患有的疾病。[粘贴病历信息]”（对于O1/O3-mini，零样本提示通常效果更好）

利用系统/开发者指令设定角色和格式

设置明确的指令上下文有助于引导模型的响应。使用API（或对话中的系统消息），简洁地定义模型的角色或风格。例如，系统消息可能是：“你是一位专业的科学研究人员，擅长逐步解释解决方案。”O1和O3-mini对此类角色指令反应良好，并将它们纳入其推理中。但是，请记住，它们已经擅长理解复杂任务，因此你的指令应侧重于你想要的输出类型**，而不是如何思考。系统/开发者指令的良好用途包括：**

定义任务范围或角色： 例如“充当法律分析师”或“像数学老师向学生解释一样解决问题”。这会影响语气和详细程度。
指定输出格式： 如果你需要结构化形式的答案（项目符号、表格、JSON等），请明确说明。O1，尤其是O3-mini，支持结构化输出模式，并且会遵守格式请求。例如：“以关键项目符号列表的形式提供你的发现。”鉴于其逻辑性，它们往往会准确地遵循格式说明，这有助于保持响应的一致性。
设定边界： 如果你想控制冗长性或重点，你可以包含诸如“在详细分析后提供简要结论”或“仅使用提供的信息，不做外部假设”之类的内容。推理模型将遵守这些边界，并且可以防止它们偏离主题或产生幻觉。这很重要，因为O1可能会产生非常详尽的分析——这通常很好，但如果你明确需要摘要，则并非如此。

确保每次都包含有关语气、角色、格式的任何指导。

提示示例（系统消息）：

系统消息： “你是一位资深的法律顾问，擅长分析复杂的法律案例，并给出专业、严谨的法律意见。”
用户提示： “分析‘史密斯诉琼斯’案，并判断琼斯是否应该承担法律责任。”（模型将以法律顾问的角色和语气进行分析）

通过指令控制冗长性和深度

虽然O1和O3-mini自然会进行深入推理，但你可以控制该推理在输出中反映的程度。如果你想要详细的解释**，请提示它（例如，“在答案中显示你的逐步推理”）。它们不需要推动进行推理，但如果你想看到它，它们确实需要被告知。相反，如果你发现模型的答案对于你的目的而言过于冗长或技术性，请指示它更简洁或仅关注某些方面。例如：“用2-3段总结分析，只包含最关键的点。”模型通常会遵守有关长度或重点的此类指示。请记住，O1的默认行为是彻底——它针对正确性而不是简洁性进行了优化——因此它可能倾向于提供更多细节。在大多数情况下，直接要求简洁将覆盖此趋势。**

对于O3-mini**，OpenAI提供了一个额外的工具来管理深度：“推理力度”参数（低、中、高）。此设置让模型知道“思考”的难度。在提示方面，如果使用API或公开此功能的系统，则可以为非常复杂的任务调高它（确保最大程度的推理，但代价是更长的答案和延迟）或为更简单的任务调低它（更快、更精简的答案）。这实质上是另一种控制冗长性和彻底性的方法。如果你无法直接访问该参数，则可以通过明确表示“给出快速答案，无需深入分析”来模拟低力度模式，以应对速度比完美准确性更重要的情况。相反，要模拟高力度，你可以说“采取一切必要步骤得出正确答案，即使解释很长。”这些提示与模型内部设置的运行方式一致。**

提示示例：

控制冗长性： “总结一下这篇文章的主要内容，字数限制在200字以内。”
控制深度： “深入分析这篇文章的论证结构，并评估其逻辑是否严密，论据是否充分。”

确保复杂任务的准确性

为了在困难问题上获得最准确的响应，请在提示中利用推理模型的优势**。由于O1可以自我检查甚至发现矛盾，因此你可以要求它利用这一点：例如，“分析所有事实并仔细检查你的结论是否一致。”通常它会不经提示地这样做，但加强该指令可以提示模型格外小心。有趣的是，由于O1已经进行了自我事实检查，因此你很少需要提示它“验证每个步骤”（这对GPT-4o更有帮助）。相反，应专注于提供完整且明确的信息。如果问题或任务存在潜在的歧义，请在提示中澄清它们或指示模型列出任何假设。这可以防止模型错误地猜测。**

处理来源和数据： 如果你的任务涉及分析给定的数据（例如汇总文档或根据提供的数字计算答案），请确保清楚地呈现该数据。O1/O3-mini将尽职尽责地使用它。你甚至可以将数据分解为项目符号或表格以提高清晰度。如果模型不得产生幻觉（例如，在法律背景下，它不应编造法律），请明确说明“你的答案仅基于提供的信息和常识；不要捏造任何细节。”推理模型通常擅长于坚持已知事实，并且此类指令进一步降低了幻觉的可能性。迭代和验证： 如果任务至关重要（例如，复杂的法律推理或高风险的工程计算），则提示工程技术是集成模型的响应。这不是单个提示，而是一种策略：你可以多次运行查询（或要求模型考虑替代解决方案），然后比较答案。O1的随机性意味着它每次都可能探索不同的推理路径。通过比较输出或要求模型在后续提示中“反思是否存在替代解释”，你可以提高对结果的信心。虽然GPT-4o也受益于这种方法，但当绝对准确性至关重要时，它对O1特别有用——本质上是通过交叉验证来利用模型自身的深度。

最后，请记住，模型选择是提示工程的一部分：如果问题实际上不需要O1级别的推理，使用GPT-4o可能更有效且同样准确。OpenAI建议将O1保留用于困难案例，而将其余部分使用GPT-4o。因此，一个元提示：首先评估任务复杂性。如果它很简单，则要么非常直接地提示O1以避免过度思考，要么切换到GPT-4o。如果它很复杂，请使用上述技术来发挥O1的能力。

提示示例：

强调数据来源： “根据以下销售数据表格，分析上个季度销售额增长最快的产品类别。[粘贴销售数据表格] 请务必只使用表格中的数据进行分析，不要参考其他来源。”
迭代验证： “分析‘史密斯诉琼斯’案，并判断琼斯是否应该承担法律责任。请给出你的初步分析结果。然后，请再次审视你的分析，并思考是否存在其他可能的解释或漏洞。最后，请综合两次分析的结果，给出你最终的法律意见。”（通过迭代和反思，提高法律分析的可靠性）

O1/O3-mini如何处理逻辑演绎 vs. GPT-4o

这些推理模型处理逻辑问题的方式与GPT-4o根本不同，你的提示策略应相应调整：

内部思维链： O1和O3-mini有效地执行内部对话或逐步解决方案，因为它们演绎答案。除非明确指导，否则GPT-4o可能不会严格地经历每个步骤。例如，在逻辑难题或数学单词问题中，GPT-4o可能会给出一个听起来貌似合理的快速答案，但会跳过一些推理，从而增加出错的风险。O1将自动分解问题，考虑各个角度，然后才给出答案，这就是为什么它在逻辑繁重的评估中获得了显着更高的分数。提示差异：除非你实际上想看到它，否则不要提示O1“显示推理”。对于GPT-4o，你将使用CoT提示（“首先，考虑……然后……”）来改进演绎，但是对于O1，这是内置的，告诉它在外部这样做可能是多余的，甚至是令人困惑的。相反，只需确保清楚地陈述问题，然后让O1演绎推理即可。提示示例：
- GPT-4o（需要引导思维链）： “解决以下数学应用题：[应用题题目]。请按照以下步骤解题：1. 理解题意；2. 分析已知条件和未知条件；3. 列出解题步骤；4. 计算答案。”
- O1（无需引导）： “解决以下数学应用题：[应用题题目]。”（O1将自动进行逻辑推理，并给出答案）
处理歧义： 在逻辑演绎任务中，如果缺少信息或存在歧义，GPT-4o可能会立即做出假设。由于其反思性方法，O1更有可能标记歧义或考虑多种可能性。为了利用这一点，你对O1的提示可以直接询问：“如果存在任何不确定性，请在解决之前说明你的假设。”GPT-4可能更需要这种推动。O1可能会自然地做到这一点，或者至少不太可能假设未给出的事实。因此，在比较两者时，O1的演绎是谨慎而彻底的，而GPT-4o的演绎是迅速而广泛的。相应地调整你的提示——使用GPT-4o，引导它谨慎；使用O1，你主要需要提供信息并让它做自己的事情。提示示例：
- O1（处理歧义）： “分析这份合同，并判断合同是否有效。如果在分析过程中发现任何条款存在歧义，请明确指出，并说明你对这些歧义的理解和假设。”
逐步输出： 有时你实际上希望在输出中看到逻辑步骤（用于教学或透明度）。使用GPT-4o，你必须明确请求（“请显示你的工作”）。如果问题足够复杂，O1可能会默认包含结构化理由，但通常它会提供一个有充分理由的答案，而无需明确列举每个步骤，除非被要求。如果你希望O1输出逻辑链，只需指示它——它将毫无困难地这样做。实际上，有人指出O1-mini能够在提示时提供逐步分解（例如，在编码问题中）。同时，如果你不希望O1提供冗长的逻辑阐述（也许你只想要最终答案），则应说“直接给出最终答案”以跳过详细的解释。提示示例：
- 要求逐步输出（O1）： “解决这个编程问题：[编程问题描述]。请逐步展示你的解题思路，包括你编写的每一行代码，并解释代码的作用。”
- 要求直接输出（O1）： “解决这个编程问题：[编程问题描述]。请直接给出最终的程序代码，无需解释。”
逻辑严谨性 vs. 创造力： 另一个区别：GPT-4（和4o）具有创造力和生成力的特点。有时在逻辑问题中，这可能会导致它“想象”场景或类比，这并不总是需要的。O1更注重严谨性，并将坚持逻辑分析。如果你的提示涉及一个既需要演绎又需要一点创造力的场景（例如，通过拼凑线索和添加叙述来解决一个谜团），GPT-4可能更擅长处理叙述，而O1将严格关注演绎。在提示工程中，你可以结合它们的优势：使用O1获得逻辑解决方案，然后使用GPT-4来润色演示文稿。如果仅坚持使用O1/O3-mini，请注意，你可能需要明确要求它进行创造性的润色或更具想象力的响应——它们在设计上会优先考虑逻辑和正确性。提示示例：
- 强调创造力（GPT-4o）： “请你扮演一位侦探，根据以下线索，推理出一个引人入胜的侦探故事，包括案件的起因、经过和结果，以及凶手的作案动机和手法。[提供线索]”
- 强调逻辑严谨（O1）： “请你扮演一位逻辑学家，根据以下线索，严谨地推理出案件的真相，并解释每一步推理的逻辑依据。[提供线索]”

关键调整： 总之，为了利用O1/O3-mini的逻辑优势，请将最严苛的推理任务作为单个定义明确的提示提供给它们。让它们在内部完成逻辑（它们是为此而构建的），而无需微观管理其思维过程。对于GPT-4o，继续使用经典的提示工程（分解问题、要求逐步推理等）以诱导出相同水平的演绎。并始终将提示样式与模型匹配——由于其不同的推理方法，可能会使GPT-4o感到困惑的内容可能恰好适合O1，反之亦然。

制作有效提示：最佳实践总结

为了将上述内容整合为可操作的指南，以下是在提示O1或O3-mini时的最佳实践清单：

使用清晰、具体的说明： 清楚地说明你希望模型做什么或回答什么。避免不相关的细节。对于复杂的问题，直接询问通常就足够了（无需使用复杂的角色扮演或多问题提示）。
提供必要的上下文，省略其余部分： 包括模型将需要的任何领域信息（案例的事实、数学问题的数据等），因为该模型可能没有最新或小众知识。但是，不要在提示中加入不相关的文本或过多的示例——额外的无用内容可能会削弱模型的注意力。
最少或没有少样本示例： 默认情况下，从零样本提示开始。如果模型误解了任务或格式，则可以添加一个简单的示例作为指导，但切勿为O1/O3-mini添加长链示例。它们不需要它，甚至可能会降低性能。
如果需要，设置角色或语气： 使用系统消息或简短的前缀将模型置于正确的心态（例如，“你是一位分析案例的高级法律文员。”）。这尤其有助于语气（正式与随意），并确保领域适当的语言。
指定输出格式： 如果你希望答案采用特定结构（列表、大纲、JSON等），请明确告知模型。推理模型将可靠地遵循格式说明。例如：“按有序步骤列表给出你的答案。”
通过说明控制长度和详细信息： 如果你想要简短的答案，请明示（“用一段话回答”或“只回答是/否并用一句话解释”）。如果你想要深入的分析，请鼓励它（“提供详细的解释”）。不要假设模型默认知道你想要的详细程度——指示它。
利用O3-mini的推理力度设置： 通过API使用O3-mini时，为任务选择适当的推理力度（低/中/高）。高可提供更彻底的答案（适用于复杂的法律推理或难题），低可提供更快、更短的答案（适用于快速检查或更简单的查询）。这是调整O3-mini提示行为的独特方式。
避免冗余的“逐步思考”提示：不要为O1/O3-mini添加诸如“让我们仔细考虑一下”之类的短语或思维链指令；模型已经在内部执行此操作。保存这些token，并且仅在GPT-4o上使用此类提示，它们在那里有影响。一个例外可能是，如果你明确希望模型输出每个步骤以实现透明度——那么你可以在输出中要求这样做，但是你仍然不需要告诉它实际执行推理。
测试和迭代： 由于这些模型可能对措辞敏感，因此如果你没有得到很好的答案，请尝试改写问题或加强说明。你可能会发现，微小的更改（例如，提出直接问题与开放式提示）会产生明显更好的响应。幸运的是，O1/O3-mini对迭代的需求少于较旧的模型（它们通常一次就能正确完成复杂任务），但是提示调整仍然可以帮助优化清晰度或格式。
验证重要输出： 对于关键用例，请勿依赖单个提示-答案周期。使用后续提示要求模型验证或证明其答案（“你对该结论有信心吗？请解释原因。”），或再次运行提示以查看是否获得一致的结果。一致性和有充分理由的答案表明模型的推理是可靠的。

通过遵循这些技术，你可以利用O1和O3-mini的全部功能，并获得高度优化的响应，从而发挥其优势。

将最佳实践应用于法律案例分析

最后，让我们考虑如何将这些提示工程准则转化为法律案例分析场景**（如前所述）。法律分析是复杂推理任务的完美示例，其中O1可以非常有效，前提是我们精心设计提示：**

构造输入： 首先清楚地概述案例的关键事实和要回答的法律问题。例如，将背景事实列为项目符号或简短段落，然后明确询问法律问题：“鉴于上述事实，请根据美国法律确定A方是否对违约负有责任。”以这种方式构造提示可以使模型更轻松地解析方案。它还可以确保不会遗漏或忽略任何关键细节。
提供相关的上下文或法律： 如果特定的法规、案例先例或定义是相关的，请在提示中包含它们（或其摘要）。O1没有浏览功能，可能无法从记忆中回忆起小众法律，因此，如果你的分析取决于特定法律的文本，请将其提供给模型。例如：“根据[法规X摘录]，[提供文本]……将此法规应用于案例。”这样，模型就有了进行准确推理的必要工具。
在系统消息中设置角色： 诸如“你是一位法律分析师，他以清晰、逐步的方式解释法律在事实中的应用”之类的系统指令。将提示模型以产生正式的、合理的分析。虽然O1已经尝试进行仔细的推理，但是该指令将其语气和结构与我们在法律话语中所期望的（例如，引用事实、适用法律、得出结论）保持一致。
无需多个示例： 不要提供完整的示例案例分析作为提示（你可能会考虑使用GPT-4o这样做）。O1不需要遵循示例——它可以从头开始执行分析。但是，你可能会简要提及所需的格式：“以IRAC格式（问题、规则、分析、结论）提供你的答案。”此格式说明提供了一个模板，而无需显示冗长的示例，并且O1将相应地组织输出。
根据需要控制冗长性： 如果你需要对案例进行详尽的分析，请让O1输出其全面的推理。结果可能是几段，深入介绍了每个问题。如果你发现输出过于冗长，或者你特别需要简洁的摘要（例如，快速咨询意见），请指示模型：“将分析保留在几个关键段落中，重点关注核心问题。”这可以确保你仅获得要点。另一方面，如果最初的答案似乎过于简短或肤浅，则可以再次提示：“更详细地解释，尤其是你如何将法律应用于事实。”O1将很乐意详细说明，因为它已经在内部完成了繁重的推理工作。
准确性和逻辑一致性： 法律分析要求在将规则应用于事实时保持准确性。使用O1，你可以信任它在逻辑上解决问题，但是明智的做法是仔细检查它进行的任何法律引用或特定声明（因为其训练数据可能没有每个细节）。你甚至可以在末尾添加一个提示，例如，“仔细检查是否已解决所有事实以及结论是否符合法律。”鉴于O1的自我检查趋势，它本身可能会指出某些内容是否不成立或是否需要其他假设。在细微差别很重要的领域中，这是一个有用的安全网。
使用后续查询： 在法律场景中，提出后续问题很常见。例如，如果O1给出分析，你可能会问：“如果合同对终止有不同的条款怎么办？这将如何改变分析？”O1可以很好地处理这些迭代问题，并进行推理。请记住，如果你正在处理的项目，则接口没有超出当前对话上下文的长期记忆（并且没有浏览），每个后续内容都应依赖于提供的上下文或包括所需的任何新信息。使对话集中在手头的案例事实上，以防止混淆。

通过应用这些最佳实践，你的提示将指导O1或O3-mini提供高质量的法律分析。总而言之，清楚地介绍案例，指定任务，并让推理模型完成繁重的工作。结果应该是经过充分推理的、逐步的法律讨论，该讨论利用了O1的逻辑能力，所有这些都通过有效的提示构造进行了优化。

以这种方式使用OpenAI的推理模型使你可以利用它们在复杂问题解决中的优势，同时保持对输出样式和清晰度的控制。正如OpenAI自己的文档所指出的那样，O1系列擅长于研究和策略等领域的深度推理任务——法律分析同样受益于此功能。通过了解与GPT-4o的区别并相应地调整你的提示方法，你可以最大程度地提高O1和O3-mini的性能，并获得准确、结构合理的答案，即使对于最具挑战性的推理任务也是如此。