OpenAI O1 및 O3 미니 추론 모델을 위한 힌트 엔지니어링

48.6K 00

소개: OpenAI의 O1 및 O3-mini 는 프롬프트를 처리하고 답을 생성하는 방식이 기본 GPT-4(일반적으로 GPT-4o라고 함)와 다른 고급 '추론' 모델입니다. 이 모델은 인간의 분석을 모방하여 복잡한 문제에 대해 더 많은 시간을 '사고'하도록 설계되었습니다.
이 백서에서는 OpenAI의 기능에 대해 자세히 살펴봅니다. O1 노래로 응답 O3-mini 추론 모델을 위한 프롬프트 엔지니어링 기법. 그러나 입력 구조, 추론 기능, 응답 특성 및 프롬프트 모범 사례에 대한 인사이트는 이 문서에 명시된 프롬프트 모범 사례인 OpenAI 모델에 국한되지 않음 . 추론 모델링 기법의 붐과 함께 다음과 같은 기법이 유입되었습니다. DeepSeek-R1 를 비롯해 뛰어난 추론 능력을 갖춘 다른 많은 모델들이 있습니다. 이 백서의 핵심 원칙과 기법도 독자들이 DeepSeek-R1 및 기타 유사한 추론 모델을 사용하여 잠재력을 극대화할 수 있습니다. 따라서 O1 및 O3-mini에 대한 인사이트를 얻은 후에는 프롬프트 엔지니어링이러한 교훈을 추론 모델링의 더 넓은 분야에 통합하고 적용하여 더 강력한 AI 응용 기능을 활용할 수 있는 방법에 대해 생각해 보도록 독자들을 초대하는 내용도 포함되어 있습니다.

O1/O3-mini 대 GPT-4o

입력 구조 및 컨텍스트 처리

기본 제공 추론과 단서 안내 추론 비교: O1 시리즈 모델에는 다음이 포함됩니다.내장된 사고 추론 능력즉, 단서 단어의 추가 안내 없이 내부적으로 추론한다는 뜻입니다. 반면, GPT-4o는 동일한 수준의 다단계 추론을 자동으로 수행하지 않기 때문에 복잡한 문제를 풀 때 "단계별로 생각해 봅시다"와 같은 외부 지침이 필요합니다. O1/O3-mini를 사용하면 질문만 하면 모델이 스스로 심층적으로 분석합니다.
외부 정보에 대한 필요성: GPT-4o는 일부 배포에서 광범위한 지식 기반과 도구(예: 브라우징, 플러그인, 비전)에 대한 액세스를 제공하므로 다양한 주제를 다루는 데 도움이 됩니다. 이와는 대조적으로, O1 모델은 교육 초점이더 좁아진 지식창고. 즉, O1/O3-mini를 사용할 때 상식을 벗어나는 작업인 경우프롬프트에 중요한 배경 정보 또는 컨텍스트가 포함되어야 합니다.--모델이 틈새 사실을 알고 있다고 가정하지 마세요. gpt-4o는 이미 일부 법적 판례나 모호한 세부 사항을 알고 있을 수 있지만, O1은 해당 텍스트나 데이터를 제공해야 할 수도 있습니다.팁 예시:
- GPT-4o: "낙태 권리에 관한 최근 미국 대법원 판결에 대한 분석." (GPT-4o는 이미 알고 있을 수 있음)
- O1: "다음 배경 정보에 비추어 낙태권 판결이 미국 사회에 미친 영향을 분석하세요: [관련 뉴스 보도 및 법률 문서 요약 붙여넣기]." (O1은 더 자세한 배경 정보가 필요할 수 있음)
컨텍스트 길이: 추론 모델은 매우 큰 컨텍스트 창을 가지고 있습니다. O1은 최대 128k 토큰 입력을 지원하고 O3-mini는 최대 200k 토큰(최대 100k 토큰 출력)을 수용하여 GPT-4o의 컨텍스트 길이를 초과합니다. 따라서 대용량 케이스 파일이나 데이터 세트를 O1/O3에 직접 공급할 수 있습니다.프로젝트 촉진을 위한 대규모 인풋의 명확한 정리(섹션, 글머리 기호 또는 제목 사용)을 사용하여 모델이 정보를 탐색할 수 있도록 합니다. GPT-4o와 O1 모두 긴 프롬프트를 처리할 수 있지만 O1/O3의 용량이 더 크면 단일 입력에 더 자세한 컨텍스트를 포함할 수 있으므로 복잡한 분석에 매우 유용합니다.팁 예시:
- "아래에 붙여넣은 이 긴 법률 문서를 바탕으로 사건의 핵심 쟁점과 법원의 최종 판결을 요약하세요. [수만 단어의 법률 문서 붙여넣기]"(O1/O3-mini는 이러한 긴 입력을 효율적으로 처리할 수 있습니다.)

추론 능력과 논리적 추론

추론의 깊이: O1 및 O3-mini용체계적인 다단계 추론최적화. 대답하기 전에 "더 오래 생각"하기 때문에 복잡한 문제에서 더 정확한 해답을 도출합니다. 예를 들어, O1-preview는 고난도 수학 시험(AIME)에서 831개의 TP3T를 해결한 반면, GPT-4o는 131개의 TP3T를 해결하여 전문 분야에서 뛰어난 논리적 추론 능력을 입증했습니다. 이 모델들은 내부적으로 사고의 연쇄를 수행하고 심지어 자신의 작업을 스스로 점검하기도 합니다. GPT-4o는 강력하지만 답을 생성하는 데 더 단순한 경향이 있으며, 명시적인 프롬프트가 없으면 철저한 분석을 수행하지 않아 O1이 포착할 수 있는 매우 복잡한 상황에서 오류를 일으킬 수 있습니다.
복잡한 작업과 간단한 작업 처리하기 O1 모델 제품군은 심층 추론을 기본으로 하기 때문에 추론 단계가 많은 복잡한 문제(예: 다면 분석, 긴 증명)에서 우수한 성능을 발휘합니다. 실제로 5개 이상의 추론 단계가 필요한 작업에서는 O1-mini나 O3와 같은 추론 모델이 정확도에서 GPT-4보다 161 TP3T 이상 뛰어납니다. 그러나 이는 또한매우 간단한 쿼리의 경우, O1은 "과도하게 생각"할 수 있습니다. 간단한 작업(추론 단계가 3개 미만)에서는 O1의 추가 분석 프로세스가 단점이 될 수 있는 것으로 나타났습니다. 이러한 많은 경우에서 과도한 추론으로 인해 GPT-4보다 성능이 좋지 않았습니다. GPT-4o는 간단한 질문에 더 간단하고 빠르게 대답할 수 있는 반면, O1은 불필요한 분석을 생성할 수 있습니다. 분석을 생성할 수 있습니다. 주요 차이점은 O1은 복잡성에 맞게 보정된다는 것입니다.로 표시되므로 사소한 퀴즈의 경우 효율성이 떨어질 수 있습니다.팁 예시:
- 복잡한 작업(O1에 적합): "다양한 산업, 고용 시장 및 국제 무역에 대한 잠재적 위험과 기회를 포함하여 기후 변화가 세계 경제에 미치는 장기적인 영향을 분석하고 요약합니다."
- 간단한 작업(GPT-4o에 적합): "오늘 날씨는 어때요?"
논리적 추론 스타일: 퍼즐, 연역적 추론 또는 단계별 문제를 다룰 때 GPT-4o는 일반적으로 문제를 풀기 위해 힌트가 필요하며(그렇지 않으면 답으로 넘어갈 수 있음), O1/O3-mini는 다른 방식으로 논리적 추론을 처리합니다: 내부 대화 또는 초안을 시뮬레이션합니다. 사용자 입장에서 이는 O1최종 답변은 논리적 근거가 있고 논리적 공백이 적은 경우가 많습니다.실제로 내부적으로 '생각의 사슬'을 완성하여 일관성을 재확인합니다. 실제로 내부적으로 '생각의 사슬'을 완성하여 일관성을 다시 한 번 확인합니다. 큐잉 관점에서 보면 일반적으로O1에게 로직을 설명하거나 확인할 필요가 없습니다.--답을 제시하기 전에 자동으로 이 작업을 수행합니다. GPT-4o의 경우 논리적 엄밀성을 보장하기 위해 "먼저 가설을 나열한 다음 결론을 도출"과 같은 지침을 포함할 수 있지만 O1의 경우 이러한 지침은 중복되거나 심지어 비생산적인 경우가 많습니다.팁 예시:
- GPT-4o: "이 논리 퍼즐을 풀어 보세요: [퍼즐 내용]. 솔루션을 단계별로 보여주고 각 단계에 대한 이유를 설명하세요."
- O1: "이 논리 퍼즐을 풀어보세요: [퍼즐 내용]." (O1이 자동으로 논리적으로 추론하여 합리적인 답을 제공합니다.)

응답 특성화 및 출력 최적화

세부 사항 및 중복성: 심층 추론으로 인해 O1 및 O3-mini는 일반적으로 복잡한 쿼리에 대해 생성됩니다.상세하고 체계적인 답변. 예를 들어, O1은 수학적 해법을 여러 단계로 나누거나 전략 계획의 각 부분에 대한 정당성을 제시할 수 있습니다. 반면에 GPT-4o는 자세한 설명을 요청하지 않는 한 기본적으로 더 간결한 답변이나 높은 수준의 요약을 제공할 수 있습니다. 신속한 엔지니어링 측면에서 이는 다음을 의미합니다.O1 응답이 더 길거나 기술적으로 더 복잡할 수 있습니다.. 지시어를 사용하면 이러한 중복성을 더 잘 제어할 수 있습니다. O1을 간결하게 만들려면 GPT-4에서 했던 것처럼 명시적으로 말해야 합니다. 그렇지 않으면 너무 길어질 수 있습니다. 반대로, 출력을 다음과 같이 하고 싶다면단계별 설명를 포함하도록 지시해야 할 수 있으며, O1은 요청이 있을 경우 기꺼이 제공할 것입니다(내부적으로 추론을 수행했을 수도 있습니다).팁 예시:
- 상세 설명 요청(GPT-4o): "각 구성 요소의 구체적인 역할을 포함하여 트랜스포머 모델이 어떻게 작동하는지 자세히 설명하고 가능한 한 전문 용어를 사용하세요."
- 간결한 답변이 필요합니다(O1): "트랜스포머 모델의 핵심 아이디어를 세 문장으로 요약하세요."
정확성 및 자체 점검: 추론 모델은자체 사실 확인OpenAI는 O1이 응답 생성 중 자체 오류를 더 잘 발견하여 복잡한 응답의 사실 정확도를 향상시킨다고 말합니다. GPT-4o는 일반적으로 정확하지만 지침이 없으면 때때로 자신 있게 틀리거나 환각을 일으킬 수 있습니다. O1의 아키텍처는 '생각'하면서 세부 사항을 검증하여 이러한 위험을 줄입니다. 실제로 사용자들은 O1이 까다로운 질문에 대해 오답이나 무의미한 답변을 적게 내는 반면, GPT-4o는 동일한 수준의 신뢰도를 얻기 위해 큐잉 기술(예: 답변을 비판하거나 검증하도록 요청)이 필요할 수 있다는 사실을 관찰했습니다. 즉, 일반적으로 O1/O3-mini는 직접적인 프롬프트를 통해 복잡한 질문에 올바르게 답할 수 있지만, GPT-4의 경우 "답변이 위의 사실과 일치하는지 확인하라"는 등의 지침을 추가해야 할 수도 있습니다. 하지만 어떤 모델도 절대적으로 신뢰할 수 있는 것은 아니므로 항상 주요 사실 출력을 검토하세요.팁 예시:
- GPT-4o(정확성 강조): "이 재무 보고서의 수치를 분석하고 회사의 순이익률을 계산하세요. 수치가 정확한지 다시 한 번 확인하여 계산이 정확한지 확인하세요."
- O1(기본 트러스트): "이 재무 보고서의 데이터를 분석하여 회사의 순이익률을 계산하세요."
속도와 비용: 한 가지 눈에 띄는 차이점은 O1 모델이 더 깊은 추론을 위해 더 느리고 더 비싸다는 것입니다.O1 Pro에는 긴 쿼리를 위한 진행률 표시줄도 포함되어 있습니다.GPT-4o는 일반적인 쿼리에 더 반응하는 경향이 있습니다.O3-mini는 다음을 제공하기 위해 도입되었습니다.더 빠르고 비용 효율적인 추론 모델--토큰당 가격이 O1이나 GPT-4o보다 훨씬 저렴하고 지연 시간이 짧습니다. 하지만 O3-mini는 더 작은 모델이기 때문에 STEM 추론에는 강력하지만 일반적인 지식이나 매우 복잡한 추론에는 전체 O1 또는 GPT-4를 따라가지 못할 수 있습니다. 최고의 성능을 제공하기 위해응답성신속한 엔지니어링을 수행할 때는 깊이와 속도의 균형을 맞춰야 합니다. O1은 완전히 답변하는 데 시간이 오래 걸릴 수 있습니다. 지연 시간이 문제가 되고 작업이 최대한 복잡하지 않은 경우 O3-mini(또는 GPT-4o)가 더 나은 선택일 수 있으며, OpenAI의 지침에 따르면 "대부분의 힌트에는 여전히 GPT-4o가 최선의 선택"이며 주로 정말 어려운 문제에는 어려운 문제에 주로 사용합니다. 요컨대, 작업에 적합한 도구를 사용하세요. O1을 사용하는 경우 응답 시간이 길어질 것으로 예상하고 사용자에게 알리거나 시스템 타임아웃을 조정하는 등 느린 출력에 대비하세요.팁 예시:
- 속도 우선순위(GPT-4o 또는 O3-mini에 적합): "이 글의 요점을 빠르게 요약하면 빠를수록 좋습니다."
- 깊이 우선순위(O1에 적합):"이 글의 주장의 논리와 증거를 심도 있게 분석하고 주장의 신뢰성을 평가합니다."

성능 엔지니어링 기술을 극대화하기 위한 팁

O1 및 O3-mini를 효과적으로 사용하려면 GPT-4o와는 약간 다른 큐잉 접근 방식이 필요합니다. 다음은 이러한 추론 모델에서 최적의 결과를 얻기 위한 주요 큐잉 엔지니어링 기법과 모범 사례입니다:

팁을 명확하고 최소화하세요.

간결하고 명확하게 요청하세요. O1과 O3는 집중적인 내부 추론을 수행하기 때문에 불필요한 텍스트가 없는 집중적인 질문이나 지시에는 관심이 없습니다.오픈AI와 최근 연구에 따르면 이러한 모델에 지나치게 복잡하거나 선도적인 단서를 사용하는 것은 피해야 한다고 합니다. 실제로 이는 다음을 수행해야 함을 의미합니다.문제 또는 작업을 명확하게 명시하고 필요한 세부 정보만 제공하세요.'수정자'를 추가하거나 쿼리를 여러 번 다시 작성할 필요가 없습니다. '수식어'를 추가하거나 쿼리를 여러 번 다시 작성할 필요가 없습니다. 예를 들어, "이 어려운 퍼즐에서 각 단계를 신중하게 추론하여 올바른 해답에 도달하기를 바랍니다."라고 작성하는 대신, "이 어려운 퍼즐에서 각 단계를 신중하게 추론하여 올바른 해답에 도달하기를 바랍니다. 단계별로 분석해 봅시다 ......"라고 하는 대신 "다음 퍼즐[퍼즐 세부 정보 포함]을 풀어 보세요."라고 간단하게 질문하는 것이 좋습니다. 추론을 설명하세요." 모델은 자연스럽게 내부적으로 단계별로 생각하고 설명을 할 것입니다. 너무 많은 지시는 오히려 일을 어렵게 만들 수 있습니다.복잡한-연구에 따르면 너무 많은 단서 문맥이나 너무 많은 예시를 추가하면 다음과 같은 문제가 발생할 수 있습니다.O1의 성능 저하추론 프로세스를 본질적으로 압도합니다.팁: 복잡한 작업의 경우 샘플 힌트(작업 설명만)가 없는 상태에서 시작하여 결과가 필요에 맞지 않는다고 판단될 때만 추가 지침을 추가하세요. 힌트를 최소화하면 이러한 추론 모델에서 최상의 결과를 얻을 수 있는 경우가 많습니다.

팁 예시:

간단한 팁(O1/O3-mini): "이 시장 조사 보고서를 분석하여 가장 중요한 세 가지 시장 트렌드를 파악하세요."
중복 팁(권장하지 않음): "여기 많은 내용과 정보가 담긴 매우 중요한 시장 조사 보고서가 있는데, 이 보고서를 주의 깊고 신중하게 읽고 깊이 생각한 다음 이 보고서에서 가장 중요한 시장 트렌드가 무엇인지 분석해 주세요. 가장 중요한 트렌드 세 가지를 나열하고 왜 가장 중요하다고 생각하는지 설명하는 것이 가장 좋을 것입니다."

불필요하게 작은 샘플 예제를 피하세요.

기존의 GPT-3/4 큐잉 작업은 일반적으로 모델을 안내하기 위해 더 적은 수의 샘플 예시나 데모를 사용합니다. 하지만 O1/O3에서는 적을수록 좋습니다. O1 시리즈는 특히 많은 수의 예제가 있는 큐를 포함하지 않도록 훈련되었습니다. 실제로 여러 예제를 사용하면훼손성능. O1-preview와 O1-mini에 대한 연구에 따르면 샘플 수가 적은 힌트는 지속적으로 성능을 저하시키며, 잘 선택된 예제조차도 많은 경우 단순한 힌트보다 성능이 떨어질 수 있다고 합니다. 내부 추론이 예제에 의해 산만해지거나 제한되는 경우: OpenAI의 자체 가이드라인에서는 내부 논리가 혼동되지 않도록 추론 모델을 다른 컨텍스트나 예제로 제한할 것을 권장하고 있습니다. 모범 사례: 샘플을 전혀 사용하지 않거나 꼭 필요한 예제 하나만 사용하세요. 예제를 포함할 경우에는 관련성이 높고 단순하게 만드세요. 예를 들어 법률 분석 프롬프트에서는 일반적으로 다음과 같은 예시를 사용합니다.하지 않을 것(행동, 발생 등)전체 사례 연구 예시를 미리 추가하는 대신 새 사례를 직접 요청하세요. 데모를 사용할 수 있는 유일한 경우는 작업 형식이 매우 구체적이고 모델이 지침을 따르지 않는 경우이며, 이 경우 원하는 형식의 짧은 예시를 보여주세요. 그렇지 않은 경우에는 모델이 직접 쿼리를 통해 알아낼 것이라고 믿으세요.

팁 예시:

제로 샘플 팁(최적): "다음 의료 기록 정보를 바탕으로 환자가 앓고 있을 수 있는 질병을 진단하세요. [병력 정보 붙여넣기]"
샘플 팁이 적습니다(권장하지 않음): "다음은 질병 진단의 몇 가지 예입니다: [예 1], [예 2] 이제 다음 의료 기록 정보를 바탕으로 환자가 앓고 있을 수 있는 질병을 진단해 주세요. [병력 정보 붙여넣기]"(O1/O3-mini의 경우, 일반적으로 0 샘플 프롬프트가 더 효과적임)

시스템/개발자 명령을 사용하여 역할 및 형식 설정하기

명시적명령 컨텍스트모델의 응답을 안내하는 데 도움이 됩니다. API(또는 대화에서 시스템 메시지)를 사용하여 모델의 역할이나 스타일을 간결하게 정의합니다. 예를 들어 시스템 메시지는 "귀하는 솔루션을 단계별로 전문적으로 설명하는 전문 과학 연구원입니다."일 수 있습니다. O1과 O3-mini는 이러한 역할 지시에 잘 반응하고 이를 추론에 통합합니다. 그러나 이들은 이미 복잡한 작업을 잘 이해하고 있으므로 다음과 같은 지시에 초점을 맞춰야 한다는 점을 명심하세요.원하는 출력 유형** 대신에생각하는 방법. 시스템/개발자 지시문의 좋은 사용 예는 다음과 같습니다.

작업 또는 역할의 범위를 정의합니다: 예를 들어 '법률 분석가 역할' 또는 '수학 선생님이 학생에게 설명하는 것처럼 문제 풀기' 등이 있습니다. 이는 어조와 세부 수준에 영향을 미칩니다.
출력 형식을 지정합니다: 구조화된 형식(글머리 기호, 표, JSON 등)의 답변이 필요한 경우 이를 명시적으로 지정하세요.O1, 특히 O3-mini는 구조화된 출력 모드를 지원하며 형식 지정 요청을 준수합니다. 예를 들어, "주요 글머리 기호 목록의 형태로 결과를 제공하세요."와 같은 형식입니다. 논리적 특성을 고려할 때 형식 지정 지침을 정확히 따르는 경향이 있으므로 응답의 일관성을 유지하는 데 도움이 됩니다.
경계 설정하기: 중복성이나 집중도를 제어하려면 '자세한 분석 후 간단한 결론 제공' 또는 '제공된 정보만 사용하고 외부 가정을 하지 않음'과 같은 내용을 포함할 수 있습니다. 추론 모델은 이러한 경계를 준수하며 주제를 벗어나거나 착각을 불러일으키는 것을 방지할 수 있습니다. 이는 O1이 매우 상세한 분석을 생성할 수 있기 때문에 중요한데, 일반적으로는 괜찮지만 명시적으로 요약이 필요한 경우에는 그렇지 않습니다.

매번 어조, 특성화, 서식에 대한 지침을 포함해야 합니다.

프롬프트(시스템 메시지)의 예입니다:

시스템 메시지: "귀하는 복잡한 법률 사건을 분석하고 전문적이고 엄격한 법률 자문을 제공하는 숙련된 법률 고문입니다."
사용자 팁: "'스미스 대 존스' 사건을 분석하고 존스에게 책임을 물어야 하는지 판단하세요." (이 모델은 법률 고문의 역할과 어조로 분석됩니다.)

명령을 통한 중복성 및 깊이 제어

O1과 O3-mini는 자연스럽게 깊이 있는 추론을 수행하지만, 이러한 추론은수출에 반영되는 정도는 원하는 경우자세한 설명**이 필요한 경우 메시지를 표시합니다(예: "답변에 단계별 추론을 보여 주세요"). 밀어붙일 필요는 없습니다.계속 진행추론할 수 있지만를 참조하십시오.정보를 제공해야 합니다. 대신 모델의 답변이 목적에 비해 너무 길거나 전문적이라고 판단되면 더 간결하게 작성하거나 특정 측면에만 집중하도록 지시하세요. 예를 들어 "가장 중요한 요점만 포함하여 2~3개 단락으로 분석을 요약하세요."와 같은 식으로 말입니다. 모델은 일반적으로 길이 또는 초점과 관련하여 이러한 지시를 따릅니다. O1의 기본 동작은 철저함이며 간결함보다는 정확성에 최적화되어 있으므로 더 자세한 내용을 제공하는 경향이 있다는 점을 기억하세요. 대부분의 경우 간결성에 대한 직접적인 요구 사항이 이러한 경향을 무시합니다. **

와 관련하여O3-mini**, OpenAI는 심도 관리를 위한 추가 도구를 제공합니다:"추론의 강도" 매개변수(낮음, 중간, 높음). 이 설정은 모델에게 '생각하기'가 얼마나 어려운지 알려줍니다. 이 기능을 노출하는 API나 시스템을 사용하는 경우 매우 복잡한 작업(답변이 길어지고 지연되는 대신 최대한의 추론을 보장)을 위해 이 기능을 높이거나 간단한 작업(더 빠르고 간소화된 답변)을 위해 이 기능을 낮출 수 있습니다. 이는 본질적으로 중복성과 철저함을 제어하는 또 다른 방법입니다. 이 매개변수에 직접 액세스할 수 없는 경우에는 "빠른 답변 제공, 심층 분석 필요 없음"이라고 명시적으로 지정하여 시뮬레이션할 수 있습니다.낮은 강도모델은 완벽한 정확도보다 속도가 더 중요한 상황에 적합합니다. 대신 시뮬레이션을 위해고강도"설명이 길더라도 정답에 도달하기 위해 필요한 모든 단계를 수행하세요."라고 말할 수 있습니다. 이러한 힌트는 모델의 내부 설정이 작동하는 방식과 일치합니다. **

팁 예시:

중복성 제어: "200단어 제한으로 이 글의 요점을 요약하세요."
깊이를 제어합니다: "이 에세이의 논증 구조를 심도 있게 분석하고 논리적으로 건전하고 잘 논증되었는지 평가합니다."

복잡한 작업의 정확성 보장

어려운 문제에 대해 가장 정확한 답변을 얻으려면 다음과 같이 하세요.프롬프트**에서 추론 모델을 활용하세요. O1은 스스로 점검하고 모순을 발견할 수도 있으므로 "모든 사실을 분석하고 일관성을 위해 결론을 다시 확인하세요."와 같이 이 기능을 활용하도록 요청할 수 있습니다.보통은 프롬프트 없이 이 작업을 수행합니다.리비아 아랍 자마히리야램프 업이 명령은 모델에 각별히 주의하라는 메시지를 표시합니다. 흥미롭게도 O1은 이미 자체 사실 확인을 수행하므로 '각 단계의 유효성을 검사'하라는 메시지를 표시할 필요가 거의 없습니다(GPT-4o에 더 유용함). 대신 완전하고 명확한 정보를 제공하는 데 집중하세요. 질문이나 작업에 잠재적인 모호성이 있는 경우 프롬프트에서 이를 명확히 하거나 모델에 가정을 나열하도록 지시하세요. 이렇게 하면 모델이 잘못 추측하는 것을 방지할 수 있습니다. **

소스 및 데이터 처리: 주어진 데이터를 분석하는 작업(예: 문서를 요약하거나 주어진 숫자를 바탕으로 답을 계산하는 작업)이 포함된 경우, 해당 데이터를 명확하게 제시하세요.O1/O3-mini는 데이터를 충실하게 사용할 것입니다. 명확성을 높이기 위해 데이터를 글머리 기호나 표로 세분화할 수도 있습니다. 모델이 환상을 만들어서는 안 되는 경우(예: 법적 맥락에서 법을 만들어서는 안 됨), "귀하의 답변은 제공된 정보와 상식만을 기반으로 하며, 세부 사항을 조작하지 않는다"는 점을 분명히 하세요. 추론 모델은 알려진 사실에 충실한 경우가 많으므로 이러한 지침은 환각의 가능성을 더욱 줄여줍니다.반복 및 유효성 검사: 작업이 중요한 경우(예: 복잡한 법적 추론 또는 고난도 엔지니어링 계산), 신속한 엔지니어링 기술은 다음과 같습니다.집적(집적 회로에서와 같이)모델의 응답. 쿼리를 여러 번 실행(또는 모델에 대체 솔루션을 고려하도록 요청)한 다음 답을 비교할 수 있습니다. O1의 무작위성은 매번 다른 추론 경로를 탐색할 수 있음을 의미합니다. 결과를 비교하거나 후속 프롬프트에서 모델에 "대체 설명의 존재에 대해 생각해 보도록" 요청하면 결과에 대한 신뢰도를 높일 수 있습니다. GPT-4o도 이 접근법의 이점을 누릴 수 있지만, 교차 검증을 통해 모델 자체의 깊이를 활용함으로써 절대적인 정확도가 중요한 O1에 특히 유용합니다.

마지막으로, 모델 선택은 큐잉 엔지니어링의 일부라는 점을 기억하세요. 문제가 실제로 O1 수준의 추론이 필요하지 않은 경우 GPT-4o를 사용하는 것이 더 효과적이고 똑같이 정확할 수 있습니다. 따라서 메타 팁: 작업 복잡도를 먼저 평가하세요. 단순하다면 O1에게 직접 큐를 보내 과도한 생각을 피하거나 GPT-4o로 전환하고, 복잡하다면 위의 기법을 사용하여 O1의 기능을 활용하세요.

팁 예시:

데이터 원본에 중점을 둡니다: "다음 판매 데이터 표를 기반으로 지난 분기에 가장 빠른 매출 성장률을 보인 제품 카테고리를 분석하세요. [판매 데이터 표 붙여넣기] 분석에 표에 있는 데이터만 사용하고 다른 소스를 참조하지 마세요."
반복적 유효성 검사: "'스미스 대 존스' 사건을 분석하고 존스에게 책임을 물어야 하는지 결정하세요. 초기 분석 결과를 제시하세요. 그런 다음, 분석을 다시 검토하고 다른 가능한 설명이나 허점이 있는지 고려하세요. 마지막으로 두 분석 결과를 종합하여 최종 법적 의견을 제시해 주세요." (반복과 반성을 통한 법률 분석의 신뢰성 향상)

O1/O3-mini가 논리적 추론을 처리하는 방식과 GPT-4o의 차이점

이러한 추론 모델은 GPT-4o와는 근본적으로 다른 방식으로 논리적 문제를 다루며, 이에 따라 프롬프트 전략을 조정해야 합니다:

내적 사고의 사슬: O1과 O3-mini는 답변을 해석하기 때문에 내부 대화 또는 단계별 솔루션을 효과적으로 수행합니다. 명시적인 지시가 없는 한 GPT-4o는 각 단계를 엄격하게 진행하지 않을 수 있습니다. 예를 들어 논리 퍼즐이나 수학 단어 문제에서 GPT-4o는 그럴듯하게 들리지만 일부 추론을 생략하여 오류의 위험을 높이는 빠른 답을 제공할 수 있으며, O1은 답을 내기 전에 모든 각도를 고려하여 문제를 자동으로 분석하므로 논리가 많은 평가에서 훨씬 높은 점수를 받을 수 있습니다.힌트 차이점: 실제로 보고 싶지 않다면 O1에 "공제 표시"라는 메시지를 표시하지 마세요. GPT-4o의 경우 CoT 프롬프트("먼저 ...... 다음 ......")를 사용하여 공제를 개선하지만, O1의 경우 외부에서 이를 알려주는 기능이 내장되어 있습니다! 이렇게 하면 중복되거나 혼란스러울 수 있습니다. 대신 문제를 명확하게 설명한 다음 O1이 연역적으로 추론하도록 하세요.팁 예시:
- GPT-4o(생각의 사슬을 조종해야 함): "다음 수학 응용 문제를 풀이하세요: [응용 주제]. 문제를 풀려면 다음 단계를 따르세요: 1. 문제의 의미 이해하기, 2. 알려진 조건과 알려지지 않은 조건 분석하기, 3. 문제 해결을 위한 단계 나열하기, 4. 답 계산하기."
- O1(부팅 없음): "다음 수학 응용 문제 풀기: [응용 프로그램 제목]." (O1이 자동으로 논리적으로 추론하여 답을 제공합니다.)
모호성 다루기: 논리적 추론 과제에서 정보가 부족하거나 모호한 경우 GPT-4o는 즉각적인 가정을 할 수 있습니다. 반성적 접근 방식 때문에 O1은 모호한 부분을 표시하거나 여러 가능성을 고려할 가능성이 높습니다. 이 점을 활용하려면 O1에게 "불확실한 부분이 있으면 해결하기 전에 가정을 말해 주세요"라고 직접 물어볼 수 있습니다. GPT-4는 이러한 압박이 더 필요할 수 있습니다. o1은 이를 자연스럽게 수행하거나 적어도 주어지지 않은 사실을 가정할 가능성이 적을 수 있습니다. 따라서 두 가지를 비교할 때O1은 신중하고 철저한 렌더링을 제공합니다.는 빠르고 광범위하게 렌더링됩니다. 그에 따라 신호를 조정하세요 - GPT-4o를 사용하면 신중하게 안내하고, O1을 사용하면 대부분 정보만 제공하고 스스로 알아서 하도록 내버려두면 됩니다.팁 예시:
- O1(모호성 처리): "이 계약서를 분석하고 유효한지 여부를 결정합니다. 분석하는 과정에서 약관에서 모호한 부분이 발견되면 이를 명확히 파악하고 그러한 모호한 부분에 대한 이해와 가정을 명시하세요."
프로그레시브 내보내기: 때로는 실제로수출(교육 또는 투명성)의 논리적 단계를 참조하세요. GPT-4o에서는 명시적으로 요청("당신의 작업을 보여주세요")해야 합니다. 질문이 충분히 복잡한 경우 O1은 기본적으로 구조화된 근거를 포함할 수 있지만, 일반적으로는 요청하지 않는 한 각 단계를 명시적으로 열거하지 않아도 합당한 답변을 제공합니다. O1이 일련의 논리를 출력하도록 하려면 지시만 하면 어렵지 않게 그렇게 할 수 있습니다. 실제로 O1-mini는 코딩 문제에서와 같이 요청을 받으면 단계별로 분해된 답을 제공할 수 있는 것으로 알려져 있습니다. 또한 다음과 같은 경우(음수 접두사)O1이 논리에 대한 긴 설명을 제공하도록 하려면(최종 답변만 원하는 경우) "최종 답변을 직접 제공하세요"라고 말하여 자세한 설명을 건너뛰어야 합니다.팁 예시:
- 단계별 출력(O1)이 필요합니다: "이 프로그래밍 문제를 해결하세요: [프로그래밍 문제 설명]. 작성한 각 코드 줄을 포함하여 솔루션을 단계별로 보여주고 코드가 수행하는 작업을 설명하세요."
- 직접 출력(O1)이 필요합니다: "이 프로그래밍 문제를 해결하세요: [프로그래밍 문제 설명]. 설명 없이 최종 프로그램 코드를 직접 알려주세요."
논리적 엄격성 대 창의성: 또 다른 차이점: GPT-4(및 4o)는 창의성과 생성성이 특징입니다. 때때로 논리 문제에서 시나리오나 비유를 '상상'하는 경우가 있는데, 이는 항상 필요한 것은 아닙니다. o1은 더 엄격하며 논리적 분석에 충실합니다. 추론과 약간의 창의력(예: 단서를 조합하여)이 모두 필요한 시나리오를 묻는 문제라면 이 유형을 예로 사용할 수 있습니다.노래로 응답미스터리를 풀기 위해 내레이션을 추가하는 경우), GPT-4는 내레이션을 더 잘 처리할 수 있는 반면 O1은 추론에 집중할 수 있습니다. 프롬프트 프로젝트에서는 O1을 사용하여 논리적인 해결책을 찾은 다음 GPT-4를 사용하여 프레젠테이션을 꾸미는 식으로 각자의 강점을 결합할 수 있습니다. O1/O3-mini만 사용하는 경우, 논리성과 정확성을 우선시하도록 설계되었으므로 창의적인 터치나 보다 상상력이 풍부한 답변을 명시적으로 요청해야 할 수도 있다는 점에 유의하세요.팁 예시:
- 창의성 강조(GPT-4o): "탐정 역할을 맡아 사건의 원인, 과정 및 결과, 살인자의 동기 및 수법 등 다음 단서를 바탕으로 설득력 있는 탐정 이야기를 추리해야 합니다. [단서 제공]"
- 논리적 엄격성 강조(O1): "다음 단서를 바탕으로 사건의 진실을 엄격하게 추론하고 각 추론 단계의 논리적 근거를 설명하는 논리학자의 역할을 수행하도록 요청받습니다. [단서 제공]"

주요 조정 사항: 요컨대, O1/O3-mini의 논리를 활용하려면 가장 까다로운 추론 과제를 잘 정의된 개별 프롬프트로 제공하세요. 사고 과정을 세세하게 관리할 필요 없이 내부적으로 논리를 완성하도록 하세요(이러한 목적으로 만들어졌습니다). GPT-4o의 경우, 동일한 수준의 추론을 유도하기 위해 고전적인 프롬프트 엔지니어링(문제 세분화, 단계적 추론 요구 등)을 계속 사용하세요. 그리고 항상 프롬프트 스타일을 모델과 일치시켜야 합니다. 추론 방식이 다르기 때문에 GPT-4o에는 혼란스러울 수 있는 것이 O1에는 적합할 수 있고 그 반대의 경우도 마찬가지입니다.

효과적인 팁 제작하기: 모범 사례 요약

위의 내용을 실행 가능한 가이드로 통합하기 위해 O1 또는 O3-mini에 메시지를 표시할 때의 모범 사례 목록은 다음과 같습니다:

명확하고 구체적인 지침을 사용하세요: 모델이 수행하거나 대답하기를 원하는 내용을 명확하게 기술하세요. 관련 없는 세부 사항은 피하세요. 복잡한 질문의 경우 일반적으로 직접 질문하는 것으로 충분합니다(복잡한 역할극이나 다중 질문 프롬프트를 사용할 필요가 없음).
필요한 컨텍스트만 제공하고 나머지는 생략하세요: 모델에 최신 지식이나 틈새 지식이 없을 수 있으므로 모델에 필요한 모든 도메인 정보(사례에 대한 사실, 수학 문제에 대한 데이터 등)를 포함하세요. 그러나 프롬프트에 관련 없는 텍스트나 너무 많은 예시를 포함하지 마십시오.약화모델링 주의.
언더샘플 예시가 최소화되거나 없습니다: 기본적으로 샘플 프롬프트가 없는 상태에서 시작합니다. 모델이 작업이나 형식을 잘못 이해하는 경우 간단한 샘플을 가이드로 추가하되, O1/O3-mini에 대한 긴 샘플 체인을 추가하지 마세요. 불필요할 뿐 아니라 성능이 저하될 수도 있습니다.
필요한 경우 캐릭터 또는 목소리 톤을 설정합니다: 시스템 메시지나 짧은 접두사를 사용하여 모델에게 적절한 메시지를 전달하세요(예: "귀하는 사례를 분석하는 선임 법률 서기입니다."). . 이는 특히 어조(공식적인 것과 캐주얼한 것)에 도움이 되며 도메인에 적합한 언어를 보장합니다.
출력 형식을 지정합니다: 답변이 특정 구조(목록, 개요, JSON 등)로 되어 있으면 모델에 명시적으로 알려주세요. 추론 모델은 형식 지정 지침을 안정적으로 따릅니다. 예를 들어, "단계별로 정렬된 목록으로 답변 제공"과 같은 형식입니다.
설명별로 길이와 세부 정보를 제어합니다: 짧은 답변을 원한다면 명확하게 하세요("한 단락으로 답하세요" 또는 "예/아니오로만 답하고 한 문장으로 설명하세요"). 심층적인 분석을 원한다면 이를 장려하세요("자세한 설명 제공"). 모델이 기본적으로 원하는 세부 수준을 알고 있다고 가정하지 말고 직접 지시하세요.
O3-mini의 추론 강도 설정을 사용합니다: API를 통해 O3-mini를 사용할 때는 작업에 적합한 추론 강도(낮음/중간/높음)를 선택하세요. 높음은 복잡한 법적 추론이나 어려운 질문에 대해 보다 상세한 답변을 제공하고, 낮음은 빠른 확인이나 간단한 쿼리에 대해 더 빠르고 짧은 답변을 제공합니다. 이는 O3 미니 프롬프트의 동작을 조정하는 독특한 방식입니다.
중복된 "단계별" 프롬프트 피하기: O1/O3-mini에 "이걸 생각해 봅시다"와 같은 문구나 연쇄적인 명령을 추가하지 마세요. 이미 모델이 내부적으로 이 작업을 수행합니다. 이러한 토큰을 저장하고 이러한 힌트는 영향력이 있는 GPT-4o에서만 사용하세요. 투명성을 위해 모델에서 각 단계를 명시적으로 출력하기를 원하는 경우에는 예외일 수 있습니다.수출필수 사항이지만, 다음과 같이 지시할 필요는 없습니다.실제 구현추론.
테스트 및 반복: 이러한 모델은 문구에 민감할 수 있으므로 제대로 된 답변을 얻지 못하면 질문을 다시 하거나 지침을 강화해 보세요. 작은 변화(예: 개방형 프롬프트 대신 직접 질문하기 등)로 훨씬 더 나은 응답을 얻을 수 있습니다. 다행히 O1/O3-mini는 이전 모델에 비해 반복 횟수가 적지만(복잡한 작업을 한 번에 정확하게 처리하는 경우가 많음), 프롬프트를 조정하면 명확성이나 서식을 최적화하는 데 여전히 도움이 될 수 있습니다.
중요한 출력의 유효성을 검사합니다: 중요한 사용 사례의 경우, 단일 프롬프트-답변 주기에 의존하지 마세요. 후속 프롬프트를 사용하여 모델에 답변을 검증하거나 정당화하도록 요청하세요("그 결론에 확신이 있으신가요?"). 이유를 설명해 주세요.") 또는 프롬프트를 다시 실행하여 일관된 결과가 나오는지 확인합니다. 일관되고 합당한 답변은 모델의 추론이 신뢰할 수 있음을 나타냅니다.

이러한 기술을 따르면 고도로 최적화된 응답으로 O1 및 O3-mini의 모든 기능을 활용할 수 있습니다.

법률 사례 연구에 모범 사례 적용

마지막으로 이러한 힌트 엔지니어링 가이드라인을 다음과 같이 번역할 수 있는 방법을 고려해 보겠습니다.법적 사례 분석 시나리오**(앞서 설명한 대로). 법률 분석은 다음과 같은 프롬프트를 만들면 O1이 매우 효과적일 수 있는 복잡한 추론 작업의 완벽한 예입니다**.

구성 입력: 먼저 사건의 핵심 사실과 답변해야 할 법적 질문을 명확하게 설명하는 것으로 시작하세요. 예를 들어 배경 사실을 글머리 기호나 짧은 단락으로 나열한 다음 "위의 사실에 비추어 당사자 A가 미국 법률에 따라 계약 위반에 대한 책임이 있는지 판단해 주세요."라는 법적 질문을 명시적으로 하세요. 이러한 방식으로 프롬프트를 구성하면 모델이 시나리오를 더 쉽게 파싱할 수 있습니다. 또한 중요한 세부 사항을 놓치거나 간과하지 않도록 보장합니다.
관련 맥락 또는 법률을 제공하세요: 특정 법령, 판례 또는 정의가 관련되어 있는 경우 프롬프트에 해당 법령(또는 발췌문)을 포함하세요. O1에는 찾아보기 기능이 없으며 기억에서 틈새 법령을 불러오지 못할 수 있으므로 분석이 특정 법령의 텍스트에 의존하는 경우 모델에 해당 텍스트를 제공하세요. 예를 들어 "[법령 X에서 발췌]에 따라 [텍스트 제공] ...... 이 법령을 사례에 적용합니다."와 같은 식입니다. 이렇게 하면 모델에 정확한 추론을 수행하는 데 필요한 도구가 제공됩니다.
시스템 메시지에서 역할을 설정합니다: "귀하는 법률 분석가로서 법률을 사실에 적용하는 방법을 단계별로 명확하게 설명합니다."와 같은 시스템 지침이 있습니다. 와 같은 지침은 모델에 공식적이고 합리적인 분석을 생성하도록 유도합니다. O1은 신중한 추론을 시도했지만, 이 지시의 어조와 구조는 법률 담론에서 기대할 수 있는 것(예: 사실 인용, 법 적용, 결론 도출)에 맞춰져 있습니다.
여러 예제가 필요하지 않습니다: 전체 사례 연구 예시를 프롬프트로 제공하지 마세요(이를 위해 GPT-4o 사용을 고려할 수 있음). O1은 예시를 따를 필요가 없으며 처음부터 분석을 수행할 수 있습니다. 하지만 필수 형식인 "IRAC 형식(질문, 규칙, 분석, 결론)으로 답안을 제공하세요."를 간략하게 언급할 수 있습니다. 이 서식 지정 노트는 긴 예제를 표시할 필요 없이 템플릿을 제공하며, O1은 그에 따라 출력을 정리합니다.
필요에 따라 중복성을 제어하세요: 사례에 대한 철저한 분석이 필요한 경우 O1에 종합적인 추론을 출력하도록 하세요. 그 결과 각 문제를 심층적으로 다루는 여러 단락으로 구성될 수 있습니다. 결과물이 너무 길거나 간결한 요약이 특별히 필요한 경우(예: 간단한 자문 의견) 모델에 "핵심 쟁점에 초점을 맞춰 몇 개의 핵심 단락으로 분석을 유지하라"고 지시하세요. 이렇게 하면 요점만 파악할 수 있습니다. 반면에 초기 답변이 너무 짧거나 피상적인 것 같으면 "특히 법률을 사실에 어떻게 적용하는지 더 자세히 설명해 보세요."라고 다시 한 번 유도하세요. O1은 이미 내부적으로 많은 추론 작업을 거쳤으므로 기꺼이 자세히 설명해 줄 것입니다.
정확성 및 논리적 일관성: 법률 분석은 사실에 규칙을 적용할 때 정확성이 요구됩니다. O1을 사용하면 논리적으로 문제를 해결한다고 믿을 수 있지만, 학습 데이터에 모든 세부 사항이 포함되어 있지 않을 수 있으므로 법적 참조나 구체적인 진술은 다시 확인하는 것이 현명합니다. 마지막에 "모든 사실이 해결되었는지, 결론이 법에 부합하는지 다시 확인하세요."와 같은 힌트를 추가할 수도 있습니다. O1의 자체 점검 성향을 고려할 때, 자체적으로 문제가 없는지 또는 다른 가정이 필요한지 여부를 지적할 수 있습니다. 이는 뉘앙스가 중요한 영역에서 유용한 안전망입니다.
후속 쿼리를 사용합니다: 법률 시나리오에서는 후속 질문을 하는 것이 일반적입니다. 예를 들어 O1이 분석을 제공하면 "계약에 다른 해지 조건이 있다면 어떻게 되나요?"라고 질문할 수 있습니다. 그러면 분석이 어떻게 달라질까요?"라고 질문할 수 있습니다. O1은 추론을 통해 이러한 반복적인 질문을 매우 잘 처리할 수 있습니다. 프로젝트에서 작업하는 경우 인터페이스에는 현재 대화 컨텍스트 이상의 장기 기억이 없으며(탐색되지 않음), 이후의 각 콘텐츠는 제공된 컨텍스트에 의존하거나 필요한 새로운 정보를 포함해야 한다는 점을 명심하세요. 혼란을 방지하기 위해 대화는 당면한 사건의 사실에 초점을 맞춰야 합니다.

이러한 모범 사례를 적용하면 O1 또는 O3-mini가 고품질 법률 분석을 제공하는 데 도움이 될 것입니다. 요컨대, 사례를 명확하게 제시하고, 작업을 할당하고, 추론 모델에 무거운 작업을 맡기면 됩니다.그 결과 O1의 논리적 능력을 활용한 합리적이고 단계적인 법적 논의가 이루어져야 하며, 이 모든 것이 효과적인 신속한 구성으로 최적화되어야 합니다.

이러한 방식으로 OpenAI의 추론 모델을 사용하면 복잡한 문제 해결에서 강점을 활용하면서 결과물의 스타일과 명확성을 제어할 수 있습니다. OpenAI의 자체 문서에서 알 수 있듯이 O1 시리즈는 연구 및 전략과 같은 분야에서 심층 추론 작업에 탁월하며, 법률 분석에서도 이 기능의 이점을 활용할 수 있습니다. GPT-4o와의 차이점을 이해하고 그에 따라 프롬프트 방법을 조정하면 O1 및 O3-mini의 성능을 극대화하고 가장 까다로운 추론 작업에서도 정확하고 체계적으로 구성된 답변을 얻을 수 있습니다.