Como fazer isso corretamente o1: não escreva prompts; escreva resumos, concentre-se nos objetivos: descreva o que você desejanadaNão é o que você quer.De que formaAdquira-o e esteja ciente dos prós e contras da o1!
Desde o lançamento do o1 em outubro e o anúncio do o1 pro/o3 em dezembro, muitas pessoas têm se esforçado para dar sentido às suas percepções, tanto positivas quanto negativas. Adotamos uma postura fortemente positiva no ponto mais baixo do sentimento do o1 Pro e mapeamos o que seria necessário para que a OpenAI lançasse um produto proxy de US$ 2.000 por mês (segundo rumores, nas próximas semanas). Desde então, a o1 tem estado solidamente em primeiro lugar em todos os gráficos da LMArena.
Desde então, ele lançou o Dawn Analytics e continua a publicar pensamentos não filtrados sobre a o1 - inicialmente como um cético e, aos poucos, tornando-se um usuário diário. Adoramos os vários significados das pessoas que mudam de opinião e achamos que o mesmo diálogo está acontecendo em todo o mundo, à medida que as pessoas lutam para fazer a transição do modo de bate-papo para o novo mundo de raciocínio e centenas de dólares por mês para produtos profissionais de IA, agora GA))). Aqui estão nossos pensamentos.
Como passei de odiar o o1 a usá-lo todos os dias para resolver meus problemas mais importantes?
Aprendi a usá-lo.
Quando o o1 pro foi lançado, não hesitei em fazer a assinatura.Para justificar o preço de US$ 200 por mês, ele só precisa fornecer de 1 a 2 horas de engenharia por mês
Mas, no final do dia, ao tentar fazer o modelo funcionar, concluí queÉ um lixo..
Toda vez que faço uma pergunta, tenho que esperar 5 minutos e sou recebido com uma grande quantidade de bobagens contraditórias com diagramas de arquitetura não solicitados + uma lista de prós e contras.
o1 Responda à minha pergunta e se contradiga várias vezes.
É claro que as pessoas costumam ser muito fanáticas pelo OpenAI após o lançamento (que é a segunda melhor estratégia para se tornar viral, depois das críticas negativas).
Mas isso parece diferente - essas percepções vêm de pessoas em situações difíceis.
Quando comecei a conversar com pessoas que discordavam de mim, percebi que estava completamente errado:
Eu uso o o1 como um modelo de bate-papo, mas o o1 não é um modelo de bate-papo.
Como usar a o1 corretamente
Se o1 não é um modelo de bate-papo, o que é?
Penso nele como um "gerador de relatórios". Se você der a ele contexto suficiente e informar o que deseja gerar, ele geralmente resolve o problema de uma vez por todas.
Observação de swyx: a OpenAI publicou uma proposta para a solicitação do o1, mas achamos que ela está incompleta e, de certa forma, você pode pensar neste artigo como o "manual que faltava" para a experiência prática com o o1 e o o1 pro na prática.
1. não escreva prompts; escreva resumos
Forneça bastante contexto. O que quer que você pense que eu quero dizer com "muito", multiplique por 10.
Quando você usa um objeto como Claude Ao modelar um bate-papo como o 3.5 Sonnet ou o 4o, você geralmente começa com uma pergunta simples e algum contexto. Se o modelo precisar de mais contexto, ele geralmente pedirá a você (ou ficará óbvio no resultado).
Você itera para frente e para trás com o modelo, corrigindo-o e ampliando os requisitos até obter o resultado desejado. É quase como uma cerâmica.O modelo de bate-papo basicamente extrai o contexto de você por meio desse vai e vem. Com o passar do tempo, nossos problemas se tornaram mais rápidos e mais preguiçosos - o mais preguiçoso possível, sem deixar de obter bons resultados.
A o1 só levará ao pé da letra as perguntas preguiçosas e não tentará extrair o contexto de você. Em vez disso, você precisaEnvie o máximo de contexto possível para o1.
Mesmo que você esteja fazendo uma simples pergunta de engenharia:
- Explique todas as maneiras que você tentou e que não funcionaram
- Adicionar um dump completo de todos os esquemas de banco de dados
- Explique o que sua empresa faz e qual é o tamanho dela (e defina termos específicos da empresa)
Em resumo, trate o1 como uma nova contratação. Observe que os erros em *o1 incluem o raciocínio sobre o quanto ele deve raciocinar. *Às vezes, a variação não consegue mapear com precisão a dificuldade da tarefa. Por exemplo, se a tarefa for muito, muito fácil, ele geralmente entra em um buraco de coelho de raciocínio sem motivo aparente.Observação: A API o1 permite que você especifique reasoning_effort baixo/médio/alto, mas o ChatGPT Não disponível para os usuários.
Facilitar a obtenção de dicas contextuais para o1
- Sugiro usar seu mac/telefone no Aplicativo de memorandos de vozEu apenas descrevo todo o espaço do problema por um ou dois minutos e depois colo o texto. Eu apenas descrevo todo o espaço do problema por um ou dois minutos e depois colo o texto.
- Na verdade, tenho uma anotação onde guardo longos segmentos de contexto para serem reutilizados.
- swyx: Eu uso o Sarav's Careless no LS Discord. Sussurro
- Os assistentes de IA que aparecem dentro do produto muitas vezes podem facilitar essa extração. Por exemplo, se estiver usando o Supabase, tente pedir ao Supabase Assistant para despejar/descrever todas as tabelas/RPCs relevantes etc.
swyx: Eu mudaria o início para "Spend 10x mais time on prompts".
2) Concentre-se no objetivo: descreva o que você desejanadaNão é o que você quer.De que formaObter.
Depois que você tiver preenchido o modelo com o máximo de contexto possível -Concentre-se em explicar o que você deseja que seja o resultado.
Para a maioria dos modelos, estamos acostumados a dizer ao modelo que queremos que eleDe que formaResponda-nos. Por exemplo, "Você é um engenheiro de software profissional. Pense devagar e com cuidado"
Isso é o oposto do que eu achei o1 bem-sucedido. Eu não treino isso.De que formaFaça - apenas instrua-onada. Em seguida, deixe que o1 assuma o controle, planeje e resolva suas próprias etapas. Esse é o objetivo do raciocínio autônomo e, na verdade, pode ser muito mais rápido do que se você revisasse manualmente e conversasse como um "humano no circuito".
A pobre tentativa de ilustração de swyx
Isso requer que vocêRealmente saiba exatamente o que você quer.(E você realmente deve solicitar um resultado específico em cada solicitação, pois isso só pode ser discutido no início!)
Parece mais fácil do que é! Quero que a o1 implemente uma arquitetura específica na produção, crie um aplicativo de teste mínimo ou apenas explore as opções e liste os prós e os contras? Esses são requisitos completamente diferentes.
O o1 geralmente explica conceitos usando a sintaxe de estilo de relatório por padrão - títulos e subtítulos totalmente numerados. Se você quiser ignorar a explicação e gerar o documento completo, basta declarar isso explicitamente.
- Dicas profissionais da swyxEstabelecer critérios realmente bons para "bom" e "ruim" o ajuda aForneça ao modelo uma maneira de avaliar seu próprio resultado e melhorar/corrigir seus próprios erros por conta própria.
Como benefício adicional, isso lhe dará o LLM como uma ferramenta de avaliação que pode ser usada para um ajuste fino intensivo durante o GA.
Desde que aprendi a usar o o1, fiquei impressionado com sua capacidade de gerar a resposta certa na primeira vez. Na verdade, ele é melhor em quase todos os aspectos (exceto custo/latência).
Aqui estão alguns dos momentos que mais se destacam:
3. entender as vantagens e desvantagens de o1
o1 Vantagens:
- Perfeito para gerar arquivos inteiros/múltiplos de uma só vez: Até o momento, esse é o recurso mais impressionante do o1. Eu copio/colo um monte de código e um monte de contexto sobre o que estou construindo, e ele gera o arquivo inteiro (ou vários arquivos!) em uma única passagem completamente ), geralmente sem erros e seguindo os padrões existentes em minha base de código.
- Menos alucinaçõesEm geral, ele parece confundir menos as coisas. Por exemplo, o o1 é muito bom em personalizar linguagens de consulta (por exemplo, ClickHouse e New Relic), enquanto o Claude costuma confundir a sintaxe do Postgres.
- **DIAGNÓSTICO MÉDICO:** Minha namorada é dermatologista, portanto, sempre que algum amigo ou membro da minha família tem algum problema de pele, eles enviam uma foto para ela! Por diversão, comecei a perguntar a o1 ao mesmo tempo. Em geral, a resposta é bem próxima da correta - cerca de 3/5 das vezes. Mais útil para profissionais da área médica -Ele quase sempre fornece um diagnóstico diferencial extremamente preciso.
- **Explicação de conceitos:** Achei muito bom explicar conceitos de engenharia muito difíceis com exemplos. É quase como gerar um artigo inteiro. Quando estou lidando com decisões arquitetônicas difíceis, muitas vezes peço ao o1 para gerar vários planos, cada um com prós e contras, e até mesmo comparar esses planos. Copio/colo as respostas como PDFs e as comparo, quase como se estivesse analisando propostas.
- **Recompensa: avaliação. **Sempre fui cético em relação ao uso do LLM como júri para avaliação, porque, fundamentalmente, os modelos de júri geralmente encontram os mesmos modos de falha que o modelo que inicialmente gerou o resultado. No entanto, o o1 se mostra muito promissor - ele geralmente é capaz de julgar se a geração está correta ou não com muito pouco contexto.
Desvantagens da o1 (por enquanto):
- **Escrevendo em uma voz/estilo específico:** Não, eu não usei o1 para esta postagem 🙂 .
Acho o site muito ruim para escrever qualquer coisa, especialmente em termos de uma voz ou estilo específico. Ele tem um estilo de reportagem muito acadêmico/corporativo que deseja seguir. Acho que há muito raciocínio Token Incline o tom nessa direção e será difícil se livrar dele.
Aqui está um exemplo da minha tentativa de fazer com que ele escreva este artigo - isso depois de muitas idas e vindas - ele está apenas tentando produzir um relatório escolar sem graça.
Crie o aplicativo inteiro:O o1 é muito bom em gerar arquivos inteiros de uma só vez. Ainda assim, apesar de algumas das demonstrações mais otimistas do ...... que você pode ver no Twitter, o o1 não criará todo o SaaS para você, pelo menos não depois que omagnânimode iterações. Mas issopossível** Gerar funções quase inteiras de uma só vez, especialmente funções de front-end ou back-end simples.