Engenharia de dicas para os modelos de inferência OpenAI O1 e O3-mini

Tutoriais práticos de IAAtualizado há 7 meses Círculo de compartilhamento de IA

11.3K 00

Introdução: O1 e O3-mini são modelos avançados de "raciocínio" que diferem do GPT-4 básico (comumente conhecido como GPT-4o) na forma como processam as solicitações e geram as respostas. Esses modelos são projetados para passar mais tempo "pensando" em problemas complexos, imitando a análise humana.
Este documento fornece uma visão detalhada da O1 responder cantando O3-mini Técnicas de engenharia do Prompt para modelos de raciocínio. No entanto, as percepções sobre a estrutura de entrada, os recursos de raciocínio, as características de resposta e as práticas recomendadas do Prompt apresentadas no artigo, o Não se limita aos modelos da OpenAI . Com o boom das técnicas de modelagem de inferência, houve um influxo de técnicas como DeepSeek-R1 e muitos outros modelos com recursos de raciocínio superiores. Os princípios e técnicas fundamentais deste documento também podem servir como uma referência valiosa para ajudar os leitores a usar o DeepSeek-R1 e outros modelos de inferência semelhantes ao maximizar seu potencial. Portanto, depois de obter informações sobre os modelos O1 e O3-mini Engenharia imediataOs detalhes são acompanhados de um convite aos leitores para que reflitam sobre como essas lições podem ser integradas e aplicadas ao campo mais amplo da modelagem de inferência para desbloquear recursos mais avançados de aplicativos de IA.

O1/O3-mini vs. GPT-4o

Estrutura de entrada e processamento de contexto

Raciocínio integrado vs. raciocínio guiado por dicas: Os modelos da série O1 têmHabilidades de raciocínio de cadeia de pensamento incorporadasIsso significa que eles raciocinam internamente, sem a orientação adicional de palavras-chave. Por outro lado, o GPT-4o geralmente precisa de instruções externas, como "vamos pensar passo a passo", para orientá-lo na solução de problemas complexos, porque ele não executa automaticamente o mesmo nível de raciocínio em várias etapas. Com o O1/O3-mini, você pode simplesmente fazer a pergunta; o modelo a analisará em profundidade por conta própria.
A necessidade de informações externas: O GPT-4o tem uma ampla base de conhecimento e acesso a ferramentas (por exemplo, navegação, plug-ins, visão) em algumas implantações, o que o ajuda a lidar com uma variedade de tópicos. Em contrapartida, o modelo O1 está fora do foco de treinamento doBase de conhecimento mais restrita. Isso significa que, ao usar o O1/O3-mini, se a tarefa estiver além do senso comum, oInformações importantes sobre o histórico ou o contexto devem ser incluídas nos prompts--O gpt-4o pode já conhecer algum precedente legal ou detalhe obscuro, enquanto o O1 pode precisar que você forneça esse texto ou dados.Exemplo de dica:
- GPT-4o: "Uma análise da recente decisão da Suprema Corte dos EUA sobre o direito ao aborto." (GPT-4o pode já ter conhecimento)
- O1: "Analise o impacto da decisão sobre o direito ao aborto na sociedade americana à luz das seguintes informações básicas: [cole resumos de notícias e documentos jurídicos relevantes]." (O1 pode precisar de informações básicas mais detalhadas)
Comprimento do contexto: O modelo de inferência tem uma janela de contexto muito grande. O O1 suporta até 128 mil entradas de token e o O3-mini aceita até 200 mil tokens (até 100 mil saídas de token), excedendo o comprimento do contexto do GPT-4o. Isso permite alimentar arquivos de casos ou conjuntos de dados grandes diretamente no O1/O3.Organização clara de grandes entradas para projetos de estímulo(Tanto o GPT-4o quanto o O1 podem lidar com prompts longos, mas a maior capacidade do O1/O3 significa que você pode incluir um contexto mais detalhado em um único input, o que é muito útil em análises complexas.Exemplo de dica:
- "Resuma os principais pontos de discórdia do caso e a sentença final do tribunal com base nesse longo documento legal colado abaixo. [Colar dezenas de milhares de palavras de documentos legais]" (O1/O3-mini pode lidar eficientemente com uma entrada tão longa)

Habilidades de raciocínio e dedução lógica

Profundidade de raciocínio: O1 e O3-mini paraRaciocínio sistemático e em várias etapasOtimizado. Eles "pensam mais" antes de responder, o que produz soluções mais precisas em tarefas complexas. Por exemplo, o O1-preview resolveu 831 TP3T em um exame de matemática desafiador (AIME), enquanto o GPT-4o teve uma taxa de solução de 131 TP3T, comprovando suas habilidades superiores de dedução lógica no mundo profissional. O GPT-4o também é poderoso, mas tende a ser mais direto na geração de respostas; sem solicitações explícitas, ele pode não realizar análises exaustivas, o que pode levar a erros em situações muito complexas que podem ser capturadas pelo O1.
Lidar com tarefas complexas em vez de tarefas simples: Como a família de modelos O1 tem como padrão a inferência profunda, eles têm bom desempenho em problemas complexos com muitas etapas de inferência (por exemplo, análises multifacetadas, provas longas). De fato, em tarefas que exigem cinco ou mais etapas de inferência, os modelos de inferência como O1-mini ou O3 superam o GPT-4 em mais de 161 TP3T de precisão. No entanto, isso também significa quePara consultas muito simples, o O1 pode "pensar demais". Descobriu-se que, em tarefas simples (menos de 3 etapas de raciocínio), os processos analíticos adicionais do O1 podem ser uma desvantagem - em muitos desses casos, ele não teve um desempenho tão bom quanto o GPT-4 devido ao excesso de raciocínio. O GPT-4o pode responder a uma pergunta simples de forma mais direta e rápida, enquanto o O1 pode gerar análises desnecessárias. análises desnecessárias. A principal diferença é que o O1 é calibrado para a complexidadeportanto, pode ser menos eficiente para questionários triviais.Exemplo de dica:
- Tarefas complexas (adequadas para O1): "Analisar e resumir os impactos de longo prazo da mudança climática na economia global, incluindo os possíveis riscos e oportunidades para diferentes setores, o mercado de trabalho e o comércio internacional."
- Tarefas simples (adequadas para GPT-4o): "Como está o tempo hoje?"
Estilo de dedução lógica: Ao lidar com quebra-cabeças, raciocínio dedutivo ou problemas passo a passo, o GPT-4o geralmente precisa dar dicas sobre os trabalhos para percorrê-los (caso contrário, ele pode pular para a resposta). O O1/O3-mini lida com a dedução lógica de uma maneira diferente: eles simulam diálogos internos ou rascunhos. Para o usuário, isso significa que o O1As respostas finais geralmente são bem fundamentadas e menos propensas a lacunas lógicasNa verdade, ele completa a "cadeia de pensamento" internamente para verificar novamente a consistência. Na verdade, ele completa a "cadeia de pensamento" internamente para verificar novamente a consistência. Do ponto de vista das dicas, você geralmenteNão há necessidade de dizer a O1 para explicar ou verificar sua lógica--Ele faz isso automaticamente antes de apresentar a resposta. Para o GPT-4o, você pode incluir instruções como "primeiro liste as hipóteses e depois tire as conclusões" para garantir o rigor lógico; para o O1, essas instruções geralmente são redundantes ou até contraproducentes.Exemplo de dica:
- GPT-4o: "Resolva este quebra-cabeça lógico: [conteúdo do quebra-cabeça]. Mostre sua solução passo a passo e explique o raciocínio por trás de cada passo."
- O1: "Resolva este quebra-cabeça lógico: [conteúdo do quebra-cabeça]." (O1 raciocinará automaticamente de forma lógica e dará uma resposta bem fundamentada)

Caracterização da resposta e otimização da saída

Detalhes e redundância: Devido ao seu raciocínio profundo, o O1 e o O3-mini geralmente são gerados para consultas complexasRespostas detalhadas e estruturadas. Por exemplo, o O1 pode dividir a solução matemática em várias etapas ou fornecer uma justificativa para cada parte do plano estratégico. Por outro lado, o GPT-4o pode optar por fornecer respostas mais concisas ou resumos de alto nível, a menos que seja solicitada uma descrição detalhada. Em termos de engenharia de prompt, isso significaAs respostas do O1 podem ser mais longas ou mais técnicas. É possível controlar melhor essa redundância com as diretivas. Se você quiser que o O1 seja conciso, precisará informá-lo explicitamente (como fez com o GPT-4); caso contrário, ele poderá tender a ser exaustivo. Por outro lado, se você quiser que a saída sejaexplicar passo a passoSe o GPT-4o precisar ser instruído a incluir um, o O1 terá prazer em fornecê-lo se solicitado (e pode ter feito o raciocínio internamente de qualquer forma).Exemplo de dica:
- Solicitação de explicação detalhada (GPT-4o): "Explique detalhadamente como o modelo do Transformer funciona, incluindo as funções específicas de cada componente, e use terminologia técnica sempre que possível."
- São necessárias respostas sucintas (O1): "Resuma a ideia central do modelo Transformer em três frases."
Precisão e autocontrole: O modelo de inferência exibe umVerificação de fatos própriosA OpenAI observa que o O1 é melhor em detectar seus próprios erros durante a geração de respostas, melhorando, assim, a precisão factual em respostas complexas. O GPT-4o geralmente é preciso, mas, sem orientação, pode ocasionalmente estar confiantemente errado ou ter alucinações. A arquitetura do O1 reduz esse risco ao validar os detalhes enquanto "pensa". Na verdade, os usuários observaram que o O1 produz menos respostas incorretas ou sem sentido para perguntas complicadas, ao passo que o GPT-4o pode exigir técnicas de orientação (por exemplo, pedir que ele critique ou valide suas respostas) para atingir o mesmo nível de confiança. Isso significa que, em geral, é possível confiar que o O1/O3-mini responderá corretamente a perguntas complexas por meio de estímulos diretos, enquanto que com o GPT-4 talvez seja necessário adicionar instruções como "verifique se a sua resposta é consistente com os fatos acima". No entanto, nenhum modelo é absolutamente confiável, portanto, sempre revise os principais resultados factuais.Exemplo de dica:
- GPT-4o (ênfase na precisão): "Analise os números deste relatório financeiro e calcule a margem de lucro líquido da empresa. Não se esqueça de verificar novamente os números para ter certeza de que os cálculos são precisos."
- O1 (confiança padrão): "Analise os dados desse relatório financeiro e calcule a margem de lucro líquido da empresa."
Velocidade e custo: Uma diferença notável é que o modelo O1 é mais lento e mais caro para raciocínios mais profundos. O O1 Pro inclui até mesmo uma barra de progresso para consultas longas. O GPT-4o tende a ser mais responsivo para consultas típicas.Modelos de raciocínio mais rápidos e econômicos--Ele é muito mais barato por token do que o O1 ou o GPT-4o e tem menor latência. No entanto, o O3-mini é um modelo menor, portanto, embora seja eficiente para o raciocínio STEM, talvez não seja capaz de se igualar ao O1 ou GPT-4 completo para conhecimento geral ou raciocínio extremamente complexo. Para oferecer o melhorcapacidade de respostaAo fazer engenharia de prompt, você precisa equilibrar profundidade com velocidade: o O1 pode levar mais tempo para responder completamente. Se a latência for um problema e a tarefa não for de complexidade máxima, então o O3-mini (ou até mesmo o GPT-4o) pode ser uma escolha melhor. A orientação da OpenAI é que o GPT-4o "ainda é a melhor escolha para a maioria das dicas", e usa principalmente o O1 para problemas realmente difíceis. problemas realmente difíceis. Resumindo, use a ferramenta certa para o trabalho. Se estiver usando o O1, espere tempos de resposta mais longos e planeje-se para sua saída mais lenta (possivelmente notificando o usuário ou ajustando o tempo limite do sistema).Exemplo de dica:
- Prioridade de velocidade (adequado para GPT-4o ou O3-mini): "Resuma rapidamente os pontos principais deste artigo; quanto mais rápido, melhor."
- Prioridade de profundidade (adequada para O1):"Analise a lógica e as evidências do argumento deste artigo em profundidade e avalie a credibilidade de seus argumentos."

Dicas para maximizar as técnicas de engenharia de desempenho

O uso eficaz do O1 e do O3-mini requer uma abordagem ligeiramente diferente do GPT-4o. A seguir, apresentamos as principais técnicas e práticas recomendadas de engenharia de sinalização para obter os melhores resultados com esses modelos de inferência:

Mantenha as dicas claras e minimizadas

Faça sua solicitação de forma sucinta e clara. Como O1 e O3 realizam um raciocínio interno intenso, eles não se interessam por perguntas ou instruções focadas sem textos externosRespondendo ao melhor. openAI e pesquisas recentes sugerem que se deve evitar o uso de pistas excessivamente complexas ou de liderança para esses modelos. Na prática, isso significa que você deveExpor o problema ou a tarefa com clareza e fornecer apenas os detalhes necessáriosNão há necessidade de adicionar "modificadores" ou reformular a consulta várias vezes. Não há necessidade de adicionar "modificadores" nem de reformular a pergunta várias vezes. Por exemplo, em vez de escrever: "Neste quebra-cabeça desafiador, quero que você raciocine cuidadosamente em cada etapa para chegar à solução correta. Vamos detalhá-lo passo a passo ......", seria melhor simplesmente perguntar: "Resolva o seguinte quebra-cabeça [incluindo detalhes do quebra-cabeça]. Explique seu raciocínio." O modelo naturalmente pensará internamente, passo a passo, e dará uma explicação. O excesso de instruções pode, na verdade, fazer com que as coisascomplicar-Um estudo descobriu que adicionar muito contexto de dicas ou muitos exemplos podeDesempenho reduzido do O1que essencialmente sobrecarrega seu processo de raciocínio.Dica: Para tarefas complexas, comece com zero dicas de amostra (somente descrições de tarefas) e adicione mais instruções somente quando achar que o resultado não atende às suas necessidades. Em geral, a minimização das dicas produz os melhores resultados para esses modelos de inferência.

Exemplo de dica:

Dicas simples (O1/O3-mini): "Analise este relatório de pesquisa de mercado para identificar as três tendências de mercado mais importantes."
Dica de redundância (não recomendada): "Tenho aqui um relatório de pesquisa de mercado muito importante, com muito conteúdo e informações, e gostaria que você o lesse com cuidado e atenção, pensasse profundamente sobre ele e depois o analisasse. Seria melhor listar as três tendências mais importantes e explicar por que você acha que elas são as mais importantes."

Evite exemplos de amostras desnecessariamente pequenas

Os trabalhos tradicionais de dicas do GPT-3/4 normalmente usam menos exemplos de amostra ou demonstrações para orientar o modelo. No entanto, para O1/O3, menos é mais. A série O1 é especificamente treinada para não incluir dicas com um grande número de exemplos. De fato, usar vários exemplos seriaminarDesempenho. A pesquisa sobre o O1-preview e o O1-mini sugere que dicas com menos amostras degradam consistentemente seu desempenho - mesmo exemplos bem escolhidos podem torná-los piores do que dicas simples em muitos casos. As próprias diretrizes da OpenAI estão de acordo com isso: elas recomendam limitar o modelo de inferência a outros contextos ou exemplos para evitar confundir sua lógica interna. Prática recomendada: use zero exemplos ou, no máximo, um exemplo que seja absolutamente necessário. Se você incluir um exemplo, torne-o altamente relevante e simples. Por exemplo, nos prompts de análise jurídica, você normalmentenão vai (agir, acontecer etc.)Adicione o exemplo completo do estudo de caso com antecedência; em vez disso, solicite o novo caso diretamente. O único caso em que você pode usar uma demonstração é se o formato da tarefa for muito específico e o modelo não seguir as instruções - então, mostre um pequeno exemplo do formato desejado. Caso contrário, confie que o modelo descobrirá a partir da consulta direta.

Exemplo de dica:

Zero pontas de amostra (ideal): "Com base nas seguintes informações do registro médico, diagnostique uma doença que o paciente possa ter. [colar informações do histórico médico]"
Menos dicas de amostra (não recomendado): "Aqui estão alguns exemplos de diagnóstico de doenças: [Exemplo 1], [Exemplo 2] Agora, faça o diagnóstico de uma doença que o paciente possa ter com base nas seguintes informações do registro médico. [cole as informações do histórico médico]" (para O1/O3-mini, os prompts de amostra zero geralmente funcionam melhor)

Definição de funções e formatos usando comandos do sistema/desenvolvedor

explícitocontexto de comandoAjuda a orientar a resposta do modelo. Use APIs (ou mensagens do sistema em diálogos) para definir sucintamente a função ou o estilo do modelo. Por exemplo, uma mensagem do sistema pode ser: "Você é um pesquisador científico profissional especializado em explicar soluções passo a passo". O O1 e o O3-mini respondem bem a essas diretrizes de função e as incorporam em seu raciocínio. No entanto, lembre-se de que eles já são bons em compreender tarefas complexas, portanto, suas instruções devem se concentrar emO tipo de saída que você deseja** em vez deComo pensar. Os bons usos da Diretiva de Sistema/Desenvolvedor incluem

Definir o escopo da tarefa ou função: Os exemplos incluem "agir como um analista jurídico" ou "resolver problemas como um professor de matemática explica a um aluno". Isso afeta o tom e o nível de detalhes.
Especifica o formato de saída: Se você precisar da resposta em um formato estruturado (com marcadores, tabela, JSON etc.), especifique isso explicitamente. O O1 e, principalmente, o O3-mini oferecem suporte a modos de saída estruturados e atenderão às solicitações de formatação. Por exemplo, "Forneça suas descobertas na forma de uma lista de marcadores principais". Devido à sua natureza lógica, eles tendem a seguir exatamente as instruções de formatação, o que ajuda a manter as respostas consistentes.
Definir os limites: Se quiser controlar a redundância ou o foco, você pode incluir itens como "forneça conclusões breves após análises detalhadas" ou "use somente as informações fornecidas e não faça suposições externas". Os modelos de raciocínio obedecerão a esses limites e poderão ser impedidos de sair do tópico ou criar ilusões. Isso é importante porque o O1 pode produzir análises muito detalhadas, o que geralmente é bom, mas não se você precisar explicitamente de um resumo.

Certifique-se de incluir todas as orientações sobre tom, caracterização e formatação.

Exemplo de um prompt (mensagem do sistema):

Mensagem do sistema: "Você é um consultor jurídico experiente, especializado na análise de casos jurídicos complexos e na prestação de consultoria jurídica profissional e rigorosa."
Dica para o usuário: "Analise o caso 'Smith v Jones' e determine se Jones deve ser considerado responsável." (O modelo será analisado na função e no tom de um consultor jurídico)

Controle de redundância e profundidade por meio de comandos

Embora o O1 e o O3-mini raciocinem naturalmente em profundidade, você pode controlar esse raciocínio noexportaçõesO grau em que isso se reflete na Se você quiserPara obter uma explicação detalhada**, solicite-a (por exemplo, "Mostre seu raciocínio passo a passo em sua resposta"). Eles não precisam insistirir em frenteraciocínio, mas se você quiserveja issoMas eles precisam ser informados. Em vez disso, se você achar que a resposta do modelo é muito longa ou técnica para seus objetivos, instrua-o a ser mais conciso ou a se concentrar apenas em determinados aspectos. Por exemplo, "Resuma a análise em dois ou três parágrafos, incluindo apenas os pontos mais críticos". Normalmente, os modelos seguem essas instruções com relação ao tamanho ou ao foco. Lembre-se de que o comportamento padrão do O1 é a minúcia - ele é otimizado para a correção e não para a brevidade - portanto, pode tender a fornecer mais detalhes. Na maioria dos casos, um requisito direto de brevidade anulará essa tendência. **

com relação aO3-mini**, OpenAI fornece uma ferramenta adicional para gerenciar a profundidade:"Parâmetro "Força de raciocínio(Baixo, Médio, Alto). Essa configuração permite que o modelo saiba o quanto é difícil "pensar". Em termos de dicas, se você usar uma API ou um sistema que exponha essa funcionalidade, poderá aumentá-la para tarefas muito complexas (garantindo o máximo de raciocínio ao custo de respostas mais longas e atrasos) ou diminuí-la para tarefas mais simples (respostas mais rápidas e simplificadas). Essencialmente, essa é outra maneira de controlar a redundância e o rigor. Se você não tiver acesso direto a esse parâmetro, poderá simulá-lo declarando explicitamente "dar uma resposta rápida, sem necessidade de análise aprofundada".baixa intensidademodelo para situações em que a velocidade é mais importante do que a precisão perfeita. Em vez disso, para simularalta intensidadeVocê pode dizer "Tome todas as medidas necessárias para chegar à resposta correta, mesmo que a explicação seja longa". Essas dicas são consistentes com a forma como as configurações internas do modelo funcionam. **

Exemplo de dica:

Controle de redundância: "Resuma os principais pontos deste artigo, com um limite de 200 palavras."
Profundidade de controle: "Analise a estrutura argumentativa desta redação em profundidade e avalie se ela é logicamente sólida e bem argumentada."

Garantir a precisão em tarefas complexas

Para obter a resposta mais precisa sobre questões difíceis, favorAproveite o modelo de inferência no prompt**. Como o O1 pode se autoverificar e até mesmo detectar contradições, você pode pedir que ele tire proveito disso: por exemplo, "Analise todos os fatos e verifique novamente a consistência de suas conclusões".Em geral, ele faz isso sem solicitar.Jamahiriya Árabe LíbiaaumentarEsse comando solicita que o modelo seja mais cuidadoso. É interessante notar que, como o O1 já realiza a autoverificação de fatos, você raramente precisa solicitar que ele "valide cada etapa" (o que é mais útil para o GPT-4o). Em vez disso, concentre-se em fornecer informações completas e claras. Se houver possíveis ambiguidades na pergunta ou na tarefa, esclareça-as no prompt ou instrua o modelo a listar as suposições. Isso evita que o modelo adivinhe incorretamente. **

Processamento de fontes e dados: Se a sua tarefa envolver a análise de dados fornecidos (por exemplo, resumir um documento ou calcular uma resposta com base nos números fornecidos), certifique-se de apresentar esses dados com clareza. Você pode até mesmo dividir os dados em marcadores ou tabelas para aumentar a clareza. Se o modelo não puder criar ilusões (por exemplo, em um contexto jurídico, ele não deve inventar leis), deixe claro que "sua resposta se baseia apenas nas informações fornecidas e no bom senso; não fabrique nenhum detalhe". Os modelos de raciocínio geralmente são bons em se ater a fatos conhecidos, e essas instruções reduzem ainda mais a probabilidade de alucinações.Iteração e validação: Se a tarefa for crítica (por exemplo, raciocínio jurídico complexo ou cálculos de engenharia de alto risco), as técnicas de engenharia imediata sãointegrado (como em um circuito integrado)A resposta do modelo. Não se trata de um único prompt, mas de uma estratégia: você pode executar a consulta (ou pedir ao modelo que considere soluções alternativas) várias vezes e depois comparar as respostas. Ao comparar os resultados ou pedir ao modelo para "refletir sobre a existência de explicações alternativas" nos prompts subsequentes, você pode aumentar a confiança nos resultados. Embora o GPT-4o também se beneficie dessa abordagem, ela é particularmente útil para o O1 quando a precisão absoluta é fundamental - essencialmente explorando a profundidade do próprio modelo por meio da validação cruzada.

Por fim, lembre-se de que a seleção de modelos faz parte da engenharia de dicas: se o problema não exigir raciocínio de nível O1, pode ser mais eficaz e igualmente preciso usar o GPT-4o. A openAI recomenda reservar o O1 para casos difíceis e usar o GPT-4o para o restante. Se for simples, indique o O1 diretamente para evitar pensar demais ou mude para o GPT-4o. Se for complexo, use as técnicas acima para aproveitar os recursos do O1.

Exemplo de dica:

Ênfase nas fontes de dados: "Analise as categorias de produtos com o crescimento mais rápido de vendas no último trimestre com base na tabela de dados de vendas a seguir. [colar tabela de dados de vendas] Certifique-se de usar somente os dados da tabela para sua análise e não faça referência a outras fontes."
Validação iterativa: "Analise o caso 'Smith v Jones' e determine se Jones deve ser considerado responsável. Forneça os resultados de sua análise inicial. Em seguida, reveja sua análise e considere se há outras explicações ou lacunas possíveis. Por fim, combine os resultados de ambas as análises e dê seu parecer jurídico final." (Melhorando a confiabilidade das análises jurídicas por meio de iteração e reflexão)

Como o O1/O3-mini lida com a dedução lógica em comparação com o GPT-4o

Esses modelos de raciocínio lidam com problemas lógicos de uma forma fundamentalmente diferente do GPT-4o, e sua estratégia de estímulo deve ser ajustada de acordo:

Cadeia interna de pensamento: O1 e O3-mini realizam efetivamente o diálogo interno ou soluções passo a passo porque interpretam as respostas. A menos que seja explicitamente instruído, o GPT-4o pode não passar por cada etapa rigorosamente. Por exemplo, em quebra-cabeças lógicos ou problemas de matemática, o GPT-4o pode dar uma resposta rápida que pareça plausível, mas pule parte do raciocínio, aumentando o risco de erro.Diferença de dica: não solicite ao O1 que "mostre a dedução" a menos que você realmente queira vê-la. Para o GPT-4o, você usará o prompt do CoT ("First, consider ...... then ......") para melhorar a dedução, mas para o O1, é necessário informá-la externamente! Fazer isso pode ser redundante ou até mesmo confuso. Em vez disso, certifique-se de que o problema seja apresentado claramente e deixe que o O1 raciocine dedutivamente sobre ele.Exemplo de dica:
- GPT-4o (necessidade de conduzir a corrente de pensamento): "Resolva o seguinte problema de aplicação de matemática: [TÓPICO DE APLICAÇÃO]. Siga estas etapas para resolver o problema: 1. entenda o significado do problema; 2. analise as condições conhecidas e desconhecidas; 3. liste as etapas para resolver o problema; e 4. calcule a resposta."
- O1 (sem inicialização): "Resolva o seguinte problema de aplicação de matemática: [Título da aplicação]." (O1 raciocinará automaticamente de forma lógica e dará a resposta)
Lidando com a ambiguidade: Em uma tarefa de dedução lógica, o GPT-4o pode fazer suposições imediatas se houver falta de informações ou ambiguidade. Devido à sua abordagem reflexiva, é mais provável que O1 marque ambiguidades ou considere várias possibilidades. Para tirar proveito disso, sua sugestão para o O1 poderia ser perguntar diretamente: "Se houver alguma incerteza, indique suas suposições antes de resolvê-las". O GPT-4 pode precisar mais desse tipo de estímulo. O1 pode fazer isso naturalmente ou, pelo menos, tem menos probabilidade de presumir fatos não fornecidos. Assim, ao comparar os doisA interpretação da O1 é cautelosa e completae a apresentação do GPT-4o é rápida e abrangente. Ajuste suas dicas de acordo - com o GPT-4o, oriente-o discretamente; com o O1, você precisa principalmente fornecer informações e deixá-lo agir.Exemplo de dica:
- O1 (lidar com a ambiguidade): "Analise este contrato e determine se ele é válido. Se, no decorrer de sua análise, você encontrar ambiguidades em qualquer um dos termos, identifique-as claramente e declare seu entendimento e suas suposições sobre essas ambiguidades."
Exportação progressiva: Às vezes, você realmente quer estar emexportaçõesVeja as etapas lógicas em (para ensino ou transparência). Com o GPT-4o, você deve solicitar explicitamente ("Please show your work"). Se a pergunta for suficientemente complexa, o O1 poderá incluir uma justificativa estruturada por padrão, mas normalmente ele fornecerá uma resposta bem fundamentada sem precisar enumerar explicitamente cada etapa, a menos que seja solicitado. Se você quiser que o O1 produza uma cadeia de lógica, basta instruí-lo - ele fará isso sem dificuldade. De fato, foi observado que o O1-mini é capaz de fornecer decomposições passo a passo quando solicitado (por exemplo, em problemas de codificação). Além disso, se você(prefixo negativo)Se quiser que O1 faça uma longa exposição da lógica (talvez você queira apenas a resposta final), diga "give the final answer directly" para pular a explicação detalhada.Exemplo de dica:
- Requer saída passo a passo (O1): "Resolva este problema de programação: [descrição do problema de programação]. Mostre sua solução passo a passo, incluindo cada linha de código que você escreveu, e explique o que o código faz."
- Requer saída direta (O1): "Resolva este problema de programação: [descrição do problema de programação]. Forneça o código final do programa diretamente, sem explicações."
Rigor lógico vs. criatividade: Outra diferença: o GPT-4 (e o 4o) é caracterizado pela criatividade e generatividade. Às vezes, em problemas de lógica, isso pode levá-lo a "imaginar" cenários ou analogias, o que nem sempre é necessário. o1 é mais rigoroso e se atém à análise lógica. Se o seu prompt envolver um cenário que exija dedução e um pouco de criatividade (por exemplo, juntando pistas), você poderá usá-lo como exemplo.responder cantandoadicionar narração para resolver um mistério), o GPT-4 pode ser melhor em lidar com a narração, enquanto o O1 se concentrará estritamente na dedução. No projeto de prompt, você pode combinar os pontos fortes de ambos: use o O1 para obter uma solução lógica e, em seguida, use o GPT-4 para embelezar a apresentação. Se ficar apenas com o O1/O3-mini, saiba que talvez seja necessário pedir explicitamente toques criativos ou respostas mais imaginativas - eles são projetados para priorizar a lógica e a correção.Exemplo de dica:
- Ênfase na criatividade (GPT-4o): "Você deve desempenhar o papel de um detetive e elaborar uma história de detetive convincente com base nas seguintes pistas, incluindo a causa, o curso e o resultado do caso, bem como os motivos e o modus operandi do assassino. [forneça pistas]"
- Ênfase no rigor lógico (O1): "Você é solicitado a desempenhar o papel de um lógico que, com base nas pistas a seguir, deduz rigorosamente a verdade do caso e explica a base lógica de cada etapa do raciocínio. [forneça pistas]"

Principais ajustes: Em resumo, para aproveitar a lógica do O1/O3-mini, forneça a eles as tarefas de raciocínio mais exigentes como prompts individuais bem definidos. Deixe que eles completem a lógica internamente (eles foram criados para esse fim) sem precisar microgerenciar seus processos de pensamento. Para o GPT-4o, continue a usar a engenharia clássica de estímulos (decompondo o problema, exigindo raciocínio em etapas, etc.) para induzir o mesmo nível de dedução. E sempre combine o estilo do prompt com o modelo - o que pode confundir o GPT-4o pode ser o ideal para o O1 e vice-versa, devido ao raciocínio diferente.

Produzindo dicas eficazes: um resumo das práticas recomendadas

Para consolidar o que foi dito acima em um guia prático, aqui está uma lista de práticas recomendadas ao solicitar o O1 ou o O3-mini:

Use instruções claras e específicas: Diga claramente o que você quer que o modelo faça ou responda. Evite detalhes irrelevantes. No caso de perguntas complexas, o questionamento direto geralmente é suficiente (não é necessário usar encenações complexas ou prompts com várias perguntas).
Forneça o contexto necessário e omita o restante: Inclua qualquer informação de domínio que o modelo precisará (fatos sobre o caso, dados sobre o problema de matemática etc.), pois o modelo pode não ter conhecimento atualizado ou de nicho. No entanto, não inclua texto irrelevante ou muitos exemplos no prompt - conteúdo adicional inútil pode ser prejudicial ao modelo.enfraquecimentoModelagem da atenção.
Exemplos mínimos ou inexistentes de subamostragem: Por padrão, comece com zero prompts de amostra. Se o modelo não entender a tarefa ou o formato, adicione uma amostra simples como guia, mas não adicione longas cadeias de amostras para O1/O3-mini. Elas não são necessárias e podem até prejudicar o desempenho.
Defina o personagem ou o tom de voz, se necessário: Use mensagens do sistema ou prefixos curtos para colocar o modelo no estado de espírito correto (por exemplo, "Você é um assistente jurídico sênior analisando casos"). . Isso ajuda especialmente com o tom (formal vs. casual) e garante uma linguagem apropriada ao domínio.
Especifica o formato de saída: Se quiser que a resposta esteja em uma estrutura específica (lista, esboço, JSON etc.), informe explicitamente o modelo. O modelo de inferência seguirá de forma confiável as instruções de formatação. Por exemplo, "Dê sua resposta em uma lista ordenada de etapas".
Controle o comprimento e os detalhes por descrição: Se quiser uma resposta curta, deixe isso explícito ("Responda em um parágrafo" ou "Responda apenas sim/não e explique em uma frase"). Se você quiser uma análise aprofundada, incentive-a ("Forneça uma explicação detalhada"). Não presuma que o modelo sabe por padrão o nível de detalhe que você deseja - instrua-o.
Usando a configuração de força de inferência do O3-mini: Ao usar o O3-mini por meio da API, selecione a força de raciocínio apropriada (baixa/média/alta) para a tarefa. O alto fornece respostas mais completas (para raciocínio jurídico complexo ou perguntas difíceis) e o baixo fornece respostas mais rápidas e curtas (para verificações rápidas ou consultas mais simples). Essa é uma maneira exclusiva de ajustar o comportamento dos prompts do O3-mini.
Evite prompts "passo a passo" redundantes: não adicione frases ou comandos de cadeia de pensamento como "vamos pensar nisso" para O1/O3-mini; o modelo já faz isso internamente. Salve esses tokens e use essas dicas somente no GPT-4o, onde elas têm impacto. Uma exceção pode ser se você quiser explicitamente que o modelo produza cada etapa para fins de transparência - nesse caso, você pode usar isso no comandoexportaçõesEle é obrigado a fazer isso, mas você ainda não precisa dizer a ele paraImplementação práticaRaciocínio.
Testes e iteração: Como esses modelos podem ser sensíveis ao texto, se você não obtiver uma boa resposta, tente reformular a pergunta ou reforçar as instruções. Você pode descobrir que pequenas mudanças (por exemplo, fazer perguntas diretas em vez de prompts abertos) produzem respostas significativamente melhores. Felizmente, o O1/O3-mini requer menos iterações do que os modelos mais antigos (eles geralmente executam tarefas complexas corretamente em uma única sessão), mas os ajustes nos prompts ainda podem ajudar a otimizar a clareza ou a formatação.
Valida saídas importantes: Para casos de uso críticos, não confie em um único ciclo de solicitação e resposta. Use prompts de acompanhamento para pedir ao modelo que valide ou justifique sua resposta ("Você está confiante nessa conclusão? Por favor, explique por quê.") ou execute o prompt novamente para ver se são obtidos resultados consistentes. Respostas consistentes e bem fundamentadas indicam que o raciocínio do modelo é confiável.

Ao seguir essas técnicas, você pode aproveitar todos os recursos do O1 e do O3-mini com uma resposta altamente otimizada.

Aplicação de práticas recomendadas a estudos de casos jurídicos

Por fim, vamos considerar como podemos traduzir essas diretrizes de engenharia de dicas emCenário de análise de caso jurídico** (conforme descrito anteriormente). As análises jurídicas são exemplos perfeitos de tarefas de raciocínio complexas nas quais o O1 pode ser muito eficaz, desde que elaboremos o prompt:**

Entrada construída: Comece descrevendo claramente os principais fatos do caso e as perguntas jurídicas a serem respondidas. Por exemplo, liste os fatos de fundo como pontos ou parágrafos curtos e, em seguida, faça explicitamente a pergunta jurídica: "À luz dos fatos acima, determine se a Parte A é responsável pela quebra de contrato segundo a lei dos EUA". A construção do prompt dessa forma permite que o modelo analise o cenário com mais facilidade. Isso também garante que nenhum detalhe crítico seja esquecido ou ignorado.
Forneça o contexto ou a lei relevante: Se estatutos específicos, precedentes de casos ou definições forem relevantes, inclua-os (ou seus trechos) no prompt. O O1 não tem uma função de navegação e pode não ser capaz de recuperar leis de nicho da memória, portanto, se suas análises dependerem do texto de uma lei específica, forneça-o ao modelo. Por exemplo, "Com base em [trecho do estatuto X], [forneça o texto] ...... aplica esse estatuto ao caso". Dessa forma, o modelo tem as ferramentas necessárias para fazer inferências precisas.
Configuração de funções em mensagens do sistema: Instruções do sistema, como "Você é um analista jurídico que explica a aplicação da lei aos fatos de forma clara e passo a passo". farão com que o modelo produza uma análise formal e fundamentada. Embora O1 tenha tentado um raciocínio cuidadoso, a instrução alinha seu tom e sua estrutura com o que esperaríamos de um discurso jurídico (por exemplo, citar fatos, aplicar a lei, tirar conclusões).
Não há necessidade de vários exemplos: Não forneça um exemplo completo de estudo de caso como um prompt (talvez você queira considerar o uso do GPT-4o para isso). O O1 não precisa seguir o exemplo - ele pode realizar a análise do zero. No entanto, você pode mencionar brevemente o formato exigido: "Forneça sua resposta no formato IRAC (pergunta, regra, análise, conclusão)". Essa nota de formatação fornece um modelo sem a necessidade de exibir exemplos longos, e o O1 organizará o resultado de acordo.
Controle a redundância conforme necessário: Se você precisar de uma análise exaustiva do caso, peça ao O1 que apresente seu raciocínio abrangente. O resultado pode ser vários parágrafos que cobrem cada questão em profundidade. Se você achar que o resultado é muito longo ou se precisar especificamente de um resumo sucinto (por exemplo, uma opinião consultiva rápida), instrua o modelo a "manter a análise em alguns parágrafos-chave, concentrando-se nas questões centrais". Isso garantirá que você obtenha apenas os pontos principais. Por outro lado, se a resposta inicial parecer muito curta ou superficial, diga novamente: "Explique com mais detalhes, especialmente como você aplica a lei aos fatos". O O1 terá prazer em elaborar, pois já fez o raciocínio pesado internamente.
Precisão e consistência lógica: A análise jurídica exige precisão ao aplicar regras aos fatos. Com o O1, você pode confiar que ele resolverá os problemas de forma lógica, mas é aconselhável verificar novamente todas as referências legais ou declarações específicas que ele fizer (já que os dados de treinamento podem não conter todos os detalhes). Você pode até adicionar uma dica no final, por exemplo, "Verifique novamente se todos os fatos foram resolvidos e se as conclusões estão em conformidade com a lei". Dada a tendência do O1 de se autoverificar, ele mesmo pode apontar se algo não se sustenta ou se outras suposições são necessárias. Essa é uma rede de segurança útil em áreas em que as nuances são importantes.
Use consultas de acompanhamento: Em cenários jurídicos, é comum fazer perguntas de acompanhamento. Por exemplo, se O1 fizer uma análise, você pode perguntar: "E se o contrato tivesse termos diferentes para rescisão? Como isso mudaria a análise?" O O1 pode lidar muito bem com essas perguntas iterativas com raciocínio. Tenha em mente que, se estiver trabalhando em um projeto, a interface não tem memória de longo prazo além do contexto do diálogo atual (e não é navegada), e cada parte subsequente do conteúdo deve se basear no contexto fornecido ou incluir qualquer nova informação necessária. Mantenha o diálogo focado nos fatos do caso em questão para evitar confusão.

Ao aplicar essas práticas recomendadas, suas dicas orientarão o O1 ou o O3-mini a fornecer análises jurídicas de alta qualidade. Em resumo, apresente os casos com clareza, atribua tarefas e deixe que os modelos de raciocínio façam o trabalho pesado.O resultado deve ser uma discussão jurídica bem fundamentada, passo a passo, que faça uso das habilidades lógicas do O1, tudo otimizado por uma construção eficaz do prompt.

O uso dos modelos de inferência da OpenAI dessa forma permite que você aproveite seus pontos fortes na solução de problemas complexos e, ao mesmo tempo, mantenha o controle sobre o estilo e a clareza do resultado. Como a própria documentação da OpenAI aponta, a série O1 se destaca em tarefas de raciocínio profundo em áreas como pesquisa e estratégia - a análise jurídica também se beneficia desse recurso. Ao compreender as diferenças com o GPT-4o e adaptar seus métodos de solicitação de acordo com elas, você pode maximizar o desempenho do O1 e do O3-mini e obter respostas precisas e bem estruturadas, mesmo para as tarefas de raciocínio mais desafiadoras.