Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

A o1 não é um modelo de bate-papo, ensinando a você como motivar adequadamente os recursos da o1

Como fazer isso corretamente o1: não escreva prompts; escreva resumos, concentre-se nos objetivos: descreva o que você desejanadaNão é o que você quer.De que formaAdquira-o e esteja ciente dos prós e contras da o1!

Desde o lançamento do o1 em outubro e o anúncio do o1 pro/o3 em dezembro, muitas pessoas têm se esforçado para dar sentido às suas percepções, tanto positivas quanto negativas. Adotamos uma postura fortemente positiva no ponto mais baixo do sentimento em relação ao o1 Pro e mapeamos o que seria necessário para que a OpenAI lançasse um produto proxy de US$ 2.000 por mês (segundo rumores, nas próximas semanas). Desde então, a o1 tem estado em todas as LMArena As paradas têm se mantido em primeiro lugar.

Desde então, ele lançou o Dawn Analytics e continua a publicar pensamentos não filtrados sobre a o1 - inicialmente como um cético e, aos poucos, tornando-se um usuário diário. Adoramos os vários significados das pessoas que mudam de opinião e achamos que o mesmo diálogo está acontecendo em todo o mundo, à medida que as pessoas lutam para fazer a transição do modo de bate-papo para o novo mundo de raciocínio e centenas de dólares por mês para produtos profissionais de IA, agora GA))). Aqui estão nossos pensamentos.


 

Como passei de odiar o o1 a usá-lo todos os dias para resolver meus problemas mais importantes?

Aprendi a usá-lo.

o1 不是聊天模型,教你如何正确的激发o1能力-1

Quando o o1 pro foi lançado, não hesitei em fazer a assinatura.Para justificar o preço de US$ 200 por mês, ele só precisa fornecer de 1 a 2 horas de engenharia por mês

Mas, no final do dia, ao tentar fazer o modelo funcionar, concluí queÉ um lixo..

Toda vez que faço uma pergunta, tenho que esperar 5 minutos e sou recebido com uma grande quantidade de bobagens contraditórias com diagramas de arquitetura não solicitados + uma lista de prós e contras.

o1 不是聊天模型,教你如何正确的激发o1能力-1

o1 Responda à minha pergunta e se contradiga várias vezes.

 

É claro que as pessoas costumam ser muito fanáticas pelo OpenAI após o lançamento (que é a segunda melhor estratégia para se tornar viral, depois das críticas negativas).

Mas isso parece diferente - essas percepções vêm de pessoas em situações difíceis.

Quando comecei a conversar com pessoas que discordavam de mim, percebi que estava completamente errado:

Eu uso o o1 como um modelo de bate-papo, mas o o1 não é um modelo de bate-papo.

 

Como usar a o1 corretamente

Se o1 não é um modelo de bate-papo, o que é?

Penso nele como um "gerador de relatórios". Se você der a ele contexto suficiente e informar o que deseja gerar, ele geralmente resolve o problema de uma vez por todas.

Observação de swyx: a OpenAI publicou uma proposta para a solicitação do o1, mas achamos que ela está incompleta e, de certa forma, você pode pensar neste artigo como o "manual que faltava" para a experiência prática com o o1 e o o1 pro na prática.

1. não escreva prompts; escreva resumos

Forneça bastante contexto. O que quer que você pense que eu quero dizer com "muito", multiplique por 10.

o1 不是聊天模型,教你如何正确的激发o1能力-1

 

Quando você usa um objeto como Claude Ao modelar um bate-papo como o 3.5 Sonnet ou o 4o, você geralmente começa com uma pergunta simples e algum contexto. Se o modelo precisar de mais contexto, ele geralmente pedirá a você (ou ficará óbvio no resultado).

Você itera para frente e para trás com o modelo, corrigindo-o e ampliando os requisitos até obter o resultado desejado. É quase como uma cerâmica.O modelo de bate-papo basicamente extrai o contexto de você por meio desse vai e vem. Com o passar do tempo, nossos problemas se tornaram mais rápidos e mais preguiçosos - o mais preguiçoso possível, sem deixar de obter bons resultados.

A o1 só levará ao pé da letra as perguntas preguiçosas e não tentará extrair o contexto de você. Em vez disso, você precisaEnvie o máximo de contexto possível para o1.

Mesmo que você esteja fazendo uma simples pergunta de engenharia:

  • Explique todas as maneiras que você tentou e que não funcionaram
  • Adicionar um dump completo de todos os esquemas de banco de dados
  • Explique o que sua empresa faz e qual é o tamanho dela (e defina termos específicos da empresa)

Em resumo, trate o1 como uma nova contratação. Observe que os erros em *o1 incluem o raciocínio sobre o quanto ele deve raciocinar. *Às vezes, a variação não consegue mapear com precisão a dificuldade da tarefa. Por exemplo, se a tarefa for muito, muito fácil, ele geralmente entra em um buraco de coelho de raciocínio sem motivo aparente.Observação: A API o1 permite que você especifique reasoning_effort baixo/médio/alto, mas o ChatGPT Não disponível para os usuários.

Facilitar a obtenção de dicas contextuais para o1

  1. Sugiro usar seu mac/telefone no Aplicativo de memorandos de vozEu apenas descrevo todo o espaço do problema por um ou dois minutos e depois colo o texto. Eu apenas descrevo todo o espaço do problema por um ou dois minutos e depois colo o texto.
    • Na verdade, tenho uma anotação onde guardo longos segmentos de contexto para serem reutilizados.
    • swyx: Eu uso o Sarav's Careless no LS Discord. Sussurro
  2. Os assistentes de IA que aparecem dentro do produto muitas vezes podem facilitar essa extração. Por exemplo, se estiver usando o Supabase, tente pedir ao Supabase Assistant para despejar/descrever todas as tabelas/RPCs relevantes etc.
o1 不是聊天模型,教你如何正确的激发o1能力-1

swyx: Eu mudaria o início para "Spend 10x mais time on prompts".

 

2) Concentre-se no objetivo: descreva o que você desejanadaNão é o que você quer.De que formaObter.

Depois que você tiver preenchido o modelo com o máximo de contexto possível -Concentre-se em explicar o que você deseja que seja o resultado.

Para a maioria dos modelos, estamos acostumados a dizer ao modelo que queremos que eleDe que formaResponda-nos. Por exemplo, "Você é um engenheiro de software profissional. Pense devagar e com cuidado"

Isso é o oposto do que eu achei o1 bem-sucedido. Eu não treino isso.De que formaFaça - apenas instrua-onada. Em seguida, deixe que o1 assuma o controle, planeje e resolva suas próprias etapas. Esse é o objetivo do raciocínio autônomo e, na verdade, pode ser muito mais rápido do que se você revisasse manualmente e conversasse como um "humano no circuito".

o1 不是聊天模型,教你如何正确的激发o1能力-1

A pobre tentativa de ilustração de swyx

Isso requer que vocêRealmente saiba exatamente o que você quer.(E você realmente deve solicitar um resultado específico em cada solicitação, pois isso só pode ser discutido no início!)

Parece mais fácil do que é! Quero que a o1 implemente uma arquitetura específica na produção, crie um aplicativo de teste mínimo ou apenas explore as opções e liste os prós e os contras? Esses são requisitos completamente diferentes.

O o1 geralmente explica conceitos usando a sintaxe de estilo de relatório por padrão - títulos e subtítulos totalmente numerados. Se você quiser ignorar a explicação e gerar o documento completo, basta declarar isso explicitamente.

  • Dicas profissionais da swyxEstabelecer critérios realmente bons para "bom" e "ruim" o ajuda aForneça ao modelo uma maneira de avaliar seu próprio resultado e melhorar/corrigir seus próprios erros por conta própria.

o1 不是聊天模型,教你如何正确的激发o1能力-1

Como benefício adicional, isso lhe dará o LLM como uma ferramenta de avaliação que pode ser usada para um ajuste fino intensivo durante o GA.

Desde que aprendi a usar o o1, fiquei impressionado com sua capacidade de gerar a resposta certa na primeira vez. Na verdade, ele é melhor em quase todos os aspectos (exceto custo/latência).

Aqui estão alguns dos momentos que mais se destacam:

 

3. entender as vantagens e desvantagens de o1

o1 Vantagens:

  • Perfeito para gerar arquivos inteiros/múltiplos de uma só vez: Até o momento, esse é o recurso mais impressionante do o1. Eu copio/colo um monte de código e um monte de contexto sobre o que estou construindo, e ele gera o arquivo inteiro (ou vários arquivos!) em uma única passagem completamente ), geralmente sem erros e seguindo os padrões existentes em minha base de código.
  • Menos alucinaçõesEm geral, ele parece confundir menos as coisas. Por exemplo, o o1 é muito bom em personalizar linguagens de consulta (por exemplo, ClickHouse e New Relic), enquanto o Claude costuma confundir a sintaxe do Postgres.
  • **DIAGNÓSTICO MÉDICO:** Minha namorada é dermatologista, portanto, sempre que algum amigo ou membro da minha família tem algum problema de pele, eles enviam uma foto para ela! Por diversão, comecei a perguntar a o1 ao mesmo tempo. Em geral, a resposta é bem próxima da correta - cerca de 3/5 das vezes. Mais útil para profissionais da área médica -Ele quase sempre fornece um diagnóstico diferencial extremamente preciso.
  • **Explicação de conceitos:** Achei muito bom explicar conceitos de engenharia muito difíceis com exemplos. É quase como gerar um artigo inteiro. Quando estou lidando com decisões arquitetônicas difíceis, muitas vezes peço ao o1 para gerar vários planos, cada um com prós e contras, e até mesmo comparar esses planos. Copio/colo as respostas como PDFs e as comparo, quase como se estivesse analisando propostas.
  • **Recompensa: avaliação. **Sempre fui cético em relação ao uso do LLM como júri para avaliação, porque, fundamentalmente, os modelos de júri geralmente encontram os mesmos modos de falha que o modelo que inicialmente gerou o resultado. No entanto, o o1 se mostra muito promissor - ele geralmente é capaz de julgar se a geração está correta ou não com muito pouco contexto.

Desvantagens da o1 (por enquanto):

  • **Escrevendo em uma voz/estilo específico:** Não, eu não usei o1 para esta postagem 🙂 .
    Acho o site muito ruim para escrever qualquer coisa, especialmente em termos de uma voz ou estilo específico. Ele tem um estilo de reportagem muito acadêmico/corporativo que deseja seguir. Acho que há muito raciocínio Token Incline o tom nessa direção e será difícil se livrar dele.
    Aqui está um exemplo da minha tentativa de fazer com que ele escreva este artigo - isso depois de muitas idas e vindas - ele está apenas tentando produzir um relatório escolar sem graça.

o1 不是聊天模型,教你如何正确的激发o1能力-1

Crie o aplicativo inteiro:O o1 é muito bom em gerar arquivos inteiros de uma só vez. Ainda assim, apesar de algumas das demonstrações mais otimistas do ...... que você pode ver no Twitter, o o1 não criará todo o SaaS para você, pelo menos não depois que omagnânimode iterações. Mas issopossível** Gerar funções quase inteiras de uma só vez, especialmente funções de front-end ou back-end simples.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " A o1 não é um modelo de bate-papo, ensinando a você como motivar adequadamente os recursos da o1
pt_BRPortuguês do Brasil