Vamos começar o ano novo de uma maneira empolgante!
- Pode ser gerado pelo GPT-5
E se eu lhe dissesse que o GPT-5 é real? Ele não apenas é real, mas já está moldando o mundo de maneiras que você não pode ver. Aqui está uma hipótese: a OpenAI desenvolveu o GPT-5, mas está mantendo-o internamente porque o ROI é muito maior do que abri-lo para milhões de pessoas. ChatGPT usuários. Além disso, o ROI que eles obtêm do Não é dinheiro. Em vez disso, é outra coisa. Como você pode ver, a ideia é bastante simples; o desafio é juntar as pistas que apontam para ela. Este artigo explica por que acho que essas pistas acabam se conectando.
Aviso prévio: isso é pura especulação. As evidências são todas de domínio público, mas não há vazamentos ou rumores internos que confirmem que estou correto. Na verdade, estou construindo essa teoria por meio deste artigo, não apenas compartilhando-a. Não tenho informações privilegiadas e, mesmo que tivesse, estou vinculado a um contrato de confidencialidade. Essa hipótese é convincente porque lógico . Honestamente, o que mais eu preciso para iniciar essa máquina de boatos?
Se você acredita ou não, depende de você. Mesmo que eu esteja errado - e eventualmente saberemos a resposta - acho que é um jogo de detetive divertido. Convido-o a participar de especulações na seção de comentários, mas seja construtivo e atencioso. Não deixe de ler o artigo inteiro primeiro. Fora isso, todo debate é bem-vindo.
I. O misterioso desaparecimento do Opus 3.5
Antes de explorar o GPT-5, temos que mencionar seu primo distante igualmente desaparecido: o Anthropic Claude Opus 3.5.
Como você sabe, os três principais laboratórios de IA - OpenAI, Google DeepMind e Anthropic - oferecem portfólios de modelos que cobrem o espectro de preço/latência versus desempenho, GPT-4o mini, bem como o1 e o1-mini; o Google DeepMind oferece Gêmeos Ultra, Pro e Flash; a Anthropic tem o Claude Opus, o Sonnet e o Haiku, e o objetivo é claro: abranger o maior número possível de perfis de clientes. Alguns estão buscando o melhor desempenho, independentemente do custo, enquanto outros precisam de soluções acessíveis e adequadas. Tudo isso faz sentido.
Mas em outubro de 2024 aconteceu uma coisa estranha. Enquanto todos esperavam que a Anthropic lançasse o Claude Opus 3.5 como resposta ao GPT-4o (que foi lançado em maio de 2024), eles lançaram uma versão atualizada do Claude Sonnet 3.5 (que ficou conhecido como Sonnet 3.6) em 22 de outubro, e o Opus 3.5 desapareceu, deixando a Anthropic sem um produto em concorrência direta com o GPT-4o. A Anthropic ficou sem um produto em concorrência direta com o GPT-4o. Estranho, não é mesmo? Aqui está uma rápida olhada na linha do tempo do Opus 3.5:
- Em 28 de outubro, escrevi em meu artigo de revisão semanal: "[Há] rumores de que o Sonnet 3.6 é.... . um ponto de verificação intermediário gerado durante a tão esperada falha de treinamento do Opus 3.5". No mesmo dia, apareceu uma postagem no subfórum r/ClaudeAI, "Claude 3.5 Opus has been deprecated", com um link para a página de modelos Anthropic - ainda não há sinal do Opus 3.5. Especula-se que essa medida tenha sido tomada para manter a confiança dos investidores antes de uma nova rodada de financiamento.
- Em 11 de novembro, o CEO da Anthropic, Dario Amodei, divulgou o Opus 3.5 no podcast de Lex Fridman: "Embora não possamos dar uma data exata, ainda estamos planejando lançar o Opus Claude 3.5." O texto é cautelosamente ambíguo, mas eficaz.
- Em 13 de novembro, a Bloomberg confirmou os primeiros rumores de que "após a conclusão do treinamento, a Anthropic constatou que o Opus 3.5 superou a versão anterior nas avaliações, mas o aumento ficou aquém das expectativas, dado o tamanho do modelo e o custo de construção da execução". Dario não informou uma data, aparentemente porque os resultados foram insatisfatórios, apesar de o treinamento do Opus 3.5 não ter falhado. Observe o foco em Relação entre custo e desempenho Não apenas o desempenho.
- Em 11 de dezembro, o especialista em semicondutores Dylan Patel e sua equipe da Semianalysis deram a última reviravolta, oferecendo a explicação: "A Anthropic concluiu o treinamento do Claude 3.5 Opus e teve um bom desempenho... ... mas não o lançou. Como eles mudaram para Geração de dados de síntese com o Claude 3.5 Opus que aprimora significativamente o Sonnet Claude 3.5 por meio de modelagem de bônus."
Em resumo, a Anthropic treinou o Claude Opus 3.5 e abandonou o nome porque os resultados não foram bons o suficiente. O Dario acredita que os resultados poderiam ter sido melhorados com um processo de treinamento diferente e evita a data. A Bloomberg confirma que ele supera os modelos existentes, mas que o custo de inferência (o custo para o usuário de usar o modelo) é inacessível, e a equipe de Dylan revela a conexão entre o Sonnet 3.6 e o Opus 3.5 ausente: o último foi usado para gerar internamente dados sintéticos para melhorar o desempenho do primeiro.
Todo o processo pode ser esquematizado da seguinte forma:
II. melhor, menor e mais barato?
O processo de usar um modelo forte e caro para gerar dados para aumentar um modelo um pouco mais fraco, porém mais econômico, é chamado de destilação. Essa é uma prática comum. A técnica permite que os laboratórios de IA ultrapassem as limitações do pré-treinamento sozinho e aumentem o desempenho de modelos menores.
Existem diferentes métodos de destilação, mas não vamos nos aprofundar nisso. O principal a ser lembrado é que um modelo sólido como "professor" pode mudar o modelo do "aluno" de [pequeno, barato, rápido] + (após um decimal ou fração) ligeiramente menor que Transformado em [pequeno, barato, rápido] + formidável . Dylan explica por que isso faz sentido para a combinação Opus 3.5-Sonnet 3.6 da Anthropic:
(O custo de inferência (do novo Sonnet em relação ao antigo) não mudou significativamente, mas o desempenho do modelo melhorou. Por que se preocupar em lançar o 3.5 Opus do ponto de vista do custo quando se pode obter o 3.5 Sonnet por meio do pós-treinamento com o 3.5 Opus?
Voltando à questão do custo: a destilação controla as despesas de inferência e, ao mesmo tempo, melhora o desempenho. Isso aborda diretamente o problema central relatado pela Bloomberg, e a Anthropic optou por não lançar o Opus 3.5 não apenas por causa de seus resultados sem brilho, mas também por causa de seu valor interno mais alto. (Dylan ressalta que é por isso que a comunidade de código aberto está rapidamente alcançando o GPT-4 - eles estão pegando ouro diretamente da mina de ouro da OpenAI).
A revelação mais surpreendente... O Soneto 3.6 não é apenas excelente - ele alcança o nível superior . Além do GPT-4o, o modelo de médio porte da Anthropic supera o carro-chefe da OpenAI ao destilar o Opus 3.5 (e provavelmente por outros motivos; cinco meses é tempo suficiente em IA). De repente, a percepção de alto custo como sinônimo de alto desempenho começou a se desfazer.
O que aconteceu com a era do "maior é melhor", que o CEO da OpenAI, Sam Altman, adverte que acabou? Eu escrevi sobre isso. Quando os principais laboratórios se tornaram sigilosos, eles pararam de compartilhar os números dos parâmetros. Os tamanhos dos parâmetros não eram mais confiáveis e, sabiamente, passamos a nos concentrar no desempenho do benchmark. O último tamanho de parâmetro disponível publicamente da OpenAI foi 175 bilhões para o GPT-3 em 2020. Rumores em junho de 2023 sugeriam que o GPT-4 era um modelo híbrido especializado com aproximadamente 1,8 trilhão de parâmetros. Uma avaliação detalhada subsequente da Semianalysis confirmou que o GPT-4 tinha 1,76 trilhão de parâmetros, em julho de 2023. A avaliação detalhada de acompanhamento da Semianalysis confirmou que o GPT-4 tinha 1,76 trilhão de parâmetros em julho de 2023.
Até dezembro de 2024 - daqui a um ano e meio - Ege Erdil, pesquisador da EpochAI, uma organização focada no impacto futuro da IA, estima que as escalas de parâmetros dos modelos de fronteira, incluindo GPT-4o e Sonnet 3.6, são significativamente menores do que o GPT-4 (embora ambos os benchmarks superem o GPT-4):
... Os modelos de fronteira atuais, como o GPT-4o de primeira geração e o Claude 3.5 Sonnet, podem ser uma ordem de grandeza menor que o GPT-4, com o 4o em torno de 200 bilhões de parâmetros e o 3.5 Sonnet em torno de 400 bilhões ... Embora a rugosidade da estimativa possa levar a erros de até um fator de dois.
Ele explica detalhadamente como chegou a esse número sem que o laboratório divulgasse detalhes arquitetônicos, mas isso não é importante para nós. O ponto é que a névoa está se dissipando: o Anthropic e o OpenAI parecem estar seguindo trajetórias semelhantes. Seus modelos mais recentes não são apenas melhores, mas também são menores e mais baratos do que os anteriores. Sabemos que a Anthropic fez isso ao destilar o Opus 3.5. Mas o que a OpenAI fez?
III. os laboratórios de IA são movidos pelo universalismo
Pode-se pensar que a estratégia de destilação da Anthropic decorre de uma situação única, ou seja, os resultados ruins do treinamento do Opus 3.5. Mas a realidade é que a situação da Anthropic não é única, e os últimos resultados de treinamento do Google DeepMind e da OpenAI são igualmente insatisfatórios. (Observe que resultados ruins não são o mesmo que O modelo é pior. ) Os motivos não nos interessam: retornos decrescentes devido à insuficiência de dados, limitações inerentes à arquitetura do Transformer, platô da lei de escalonamento pré-treinamento etc. De qualquer forma, o contexto particular do Anthropic é, na verdade, universal.
Mas lembre-se do que a Bloomberg informa: as métricas de desempenho são tão boas quanto o custo. Esse é outro fator compartilhado? Sim, e Ege explica o motivo: o aumento da demanda após o boom do ChatGPT/GPT-4. A IA generativa está se espalhando em um ritmo que torna difícil para os laboratórios sustentarem as perdas da expansão contínua. Isso os forçou a reduzir os custos de inferência (o treinamento é apenas uma vez, os custos de inferência aumentam com o volume e o uso do usuário). Se 300 milhões de usuários estiverem usando o produto toda semana, as despesas operacionais poderão ser fatais de repente.
Os fatores que levaram a Anthropic a aprimorar o Sonnet 3.6 com a destilação estão afetando a OpenAI com intensidade exponencial. A destilação é eficaz porque transforma esses dois desafios generalizados em pontos fortes: resolver o problema do custo da inferência fornecendo modelos pequenos e, ao mesmo tempo, não liberar modelos grandes para evitar a reação do público contra o desempenho medíocre.
Ege acha que a OpenAI pode escolher a alternativa: treinamento excessivo. Ou seja, treinar mais dados com modelos menores em um estado não ideal do ponto de vista computacional: "Quando a inferência é a maior parte das despesas do modelo, é melhor... treinar mais tokens com modelos menores". Quando a inferência é a maior parte do custo do modelo, é melhor treinar mais tokens com modelos menores." Mas o treinamento excessivo não é mais viável; o AI Labs ficou sem dados de pré-treinamento de alta qualidade, como Elon Musk e Ilya Sutskever reconheceram recentemente.
Voltando à destilação, Ege conclui: "Acho que é provável que tanto o GPT-4o quanto o Claude 3.5 Sonnet tenham sido destilados de modelos maiores".
Todas as pistas até este ponto indicam que a OpenAI está fazendo o que a Anthropic fez com o Opus 3.5 (treinar e esconder) da mesma forma (destilação) e pelos mesmos motivos (resultados ruins/controle de custos). Isso é uma descoberta. Mas a questão é a seguinte: o Opus 3.5 ainda Onde estão escondidas as contrapartes da OpenAI? Será que estão escondidas no porão da empresa? Você se atreve a adivinhar seu nome...
IV. Os pioneiros devem abrir o caminho
Abro a análise examinando o evento Opus 3.5 do Anthropic, que é mais transparente em suas informações. Em seguida, faço a ponte entre o conceito de destilação e a OpenAI, explicando que as mesmas forças subjacentes que impulsionam a Anthropic estão em ação na OpenAI, mas nossa teoria encontra um novo obstáculo: como pioneira, a OpenAI pode enfrentar obstáculos que a Anthropic ainda não encontrou.
Por exemplo, os requisitos de hardware para treinar o GPT-5. O Sonnet 3.6 é comparável ao GPT-4o, mas foi lançado cinco meses depois. Devemos presumir que o GPT-5 está em um nível mais alto: mais potente e maior. Não apenas o custo de raciocínio, mas também o custo de treinamento é maior. Pode haver meio bilhão de dólares em custos de treinamento envolvidos. É possível fazer isso com o hardware existente?
A Ege está mais uma vez desvendando: é possível. Não é realista oferecer um produto desse porte a 300 milhões de usuários, mas o treinamento não é um problema:
Em princípio, o hardware existente é suficiente para suportar modelos muito maiores que o GPT-4: por exemplo, um modelo de 100 trilhões de parâmetros que é 50 vezes maior que o GPT-4, com um custo de inferência de cerca de US$ 3.000/milhão de tokens de saída e uma taxa de saída de 10-20 tokens/segundo. Mas para que isso seja viável, os modelos grandes devem criar um valor econômico significativo para os clientes.
Mas nem mesmo a Microsoft, o Google ou a Amazon (os proprietários da OpenAI, DeepMind e Anthropic, respectivamente) podem se dar ao luxo de fazer esse tipo de inferência. A solução é simples: se eles planejam disponibilizar trilhões de modelos paramétricos para o público, eles teriam que "criar um valor econômico significativo". Portanto, não o fazem.
Eles treinaram o modelo. Encontraram "melhor desempenho do que os produtos existentes". Mas tiveram que aceitar que "não melhorou o suficiente para justificar o enorme custo de mantê-lo funcionando". (Isso soa familiar? O Wall Street Journal fez um relatório sobre o GPT-5 há um mês em termos surpreendentemente semelhantes ao relatório da Bloomberg sobre o Opus 3.5).
Eles relatam resultados medíocres (com a flexibilidade de ajustar a narrativa). Mantenha-os internamente como modelos de professores para destilar modelos de alunos. Em seguida, libere os últimos. Recebemos o Sonnet 3.6 e o GPT-4o, o1, etc. e nos alegramos com sua qualidade barata. As expectativas para o Opus 3.5 e o GPT-5 permanecem intactas, mesmo quando ficamos mais impacientes. Sua mina de ouro continua a brilhar.
V. Com certeza você tem mais motivos, Sr. Altman!
V. É claro que você tem mais motivos, Sr. Altman!
Quando cheguei até aqui em minha investigação, ainda não estava totalmente convencido. É verdade que todas as evidências sugerem que isso é totalmente plausível para a OpenAI, mas ainda há uma lacuna entre "plausível" ou mesmo "plausível" e "real". Não vou preencher essa lacuna para você - afinal, trata-se apenas de especulação. Mas posso fortalecer ainda mais o argumento.
Há mais evidências de que a OpenAI está operando dessa maneira? Há mais motivos para eles atrasarem o lançamento do GPT-5 além do desempenho ruim e das perdas crescentes, e quais informações podemos extrair das declarações públicas dos executivos da OpenAI sobre o GPT-5? Eles não estão correndo o risco de sofrer danos à reputação ao atrasar repetidamente o lançamento do modelo? Afinal de contas, a OpenAI é a face da revolução da IA, e a Anthropic opera à sua sombra. A Anthropic pode se dar ao luxo de operar dessa forma, mas e a OpenAI? Talvez não sem um preço.
Por falar em dinheiro, vamos nos aprofundar em alguns detalhes relevantes sobre a parceria da OpenAI com a Microsoft. Primeiro, o fato bem conhecido: termos da AGI. Na publicação do blog da OpenAI sobre sua estrutura, eles têm cinco cláusulas de governança que definem como operam, seu relacionamento com organizações sem fins lucrativos, seu relacionamento com o conselho de administração e seu relacionamento com a Microsoft. A quinta cláusula define a AGI como "um sistema altamente autônomo capaz de superar os seres humanos na maioria dos empreendimentos economicamente valiosos" e estabelece que, assim que o Conselho de Administração da OpenAI declarar que a AGI foi implementada, "o sistema será excluído do licenciamento de propriedade intelectual e de outros termos comerciais com a Microsoft, que estão sujeitos apenas aos termos da licença da Microsoft e a outros termos comerciais. outros termos comerciais com a Microsoft, que se aplicam somente à tecnologia pré-AGI".
Não é preciso dizer que nenhuma das empresas quer que a parceria seja desfeita. A openAI estabelece os termos, mas faz tudo o que pode para evitar ter que cumpri-los. Uma maneira de fazer isso é atrasar o lançamento de sistemas que possam ser rotulados como AGI. "Mas o GPT-5 certamente não é AGI", você dirá. E aqui está um segundo fato que quase ninguém conhece: a OpenAI e a Microsoft têm uma definição secreta de AGI que, embora irrelevante para fins científicos, define legalmente sua parceria: uma AGI é um "sistema de IA capaz de gerar pelo menos US$ 100 bilhões em lucros". Sistema de IA.
Se a OpenAI hipoteticamente adiasse o lançamento sob o pretexto de que o GPT-5 não estava pronto, ela conseguiria outra coisa além de controlar os custos e evitar uma reação pública negativa: evitaria anunciar se o produto atingiu ou não o limite para ser classificado como AGI. Embora US$ 100 bilhões seja uma cifra impressionante, nada impede que clientes ambiciosos obtenham tanto lucro além disso. Por outro lado, sejamos claros: se a OpenAI prevê que o GPT-5 gerará US$ 100 bilhões em receita recorrente por ano, ela não se importará em acionar a cláusula AGI e se separar da Microsoft.
A maior parte da reação pública ao fato de a OpenAI não lançar o GPT-5 baseou-se na suposição de que eles não o estavam lançando porque não era bom o suficiente. Mesmo que isso fosse verdade, nenhum cético deixa de pensar que a OpenAI pode ter um caso de uso interno melhor do que um uso externo. Há uma enorme diferença entre criar um modelo excelente e criar um modelo excelente que possa atender a 300 milhões de pessoas de forma econômica. Se você não puder fazer isso, não o fará. Mas, novamente, se você desnecessário Faça isso e você não o fará. Eles costumavam nos fornecer seus melhores modelos porque precisavam de nossos dados. Isso não é mais tão necessário. E eles não estão mais atrás do nosso dinheiro. Esse é o negócio da Microsoft, não o deles. Eles querem AGI, depois ASI. Querem deixar um legado.
VI. Por que isso muda tudo
Estamos chegando ao fim. Acredito que já apresentei argumentos suficientes para construir uma tese sólida: é muito provável que a OpenAI já tenha o GPT-5 internamente, assim como a Anthropic tem o Opus 3.5. É até mesmo possível que a OpenAI nunca lance o GPT-5. O público agora mede o desempenho em termos de o1/o3, não apenas GPT-4o ou Claude Sonnet 3.6. Com a OpenAI explorando a lei do escalonamento nos testes, a barra que precisa ser ultrapassada para o GPT-5 continua subindo. Como eles podem lançar um GPT-5 que realmente supere o desempenho do o1, do o3 e dos próximos modelos da série o, especialmente se estiverem lançando-os em um ritmo tão rápido? Além disso, eles não precisam mais de nosso dinheiro ou dados.
O treinamento de novos modelos básicos - GPT-5, GPT-6 e posteriores - sempre fez sentido internamente para a OpenAI, mas não necessariamente como um produto. Isso provavelmente acabou. O único objetivo importante para eles agora é continuar a gerar dados melhores para a próxima geração de modelos. De agora em diante, o modelo básico poderá operar em segundo plano, capacitando outros modelos a realizar feitos que não poderiam realizar por conta própria - como um velho recluso que transmite sabedoria de uma caverna secreta, só que essa caverna é um data center gigante. Quer o vejamos ou não, experimentaremos as consequências de sua sabedoria.
Mesmo que o GPT-5 acabe sendo lançado, esse fato de repente parece quase irrelevante. Se a OpenAI e a Anthropic forem bem-sucedidas Autoaperfeiçoamento recursivo (embora ainda com o envolvimento humano), então não importará mais o que eles nos apresentarem publicamente. Eles ficarão cada vez mais à frente - assim como o universo está se expandindo tão rapidamente que a luz de galáxias distantes não pode mais chegar até nós.
Talvez seja por isso que a OpenAI saltou do o1 para o o3 em apenas três meses. É também por isso que eles estão saltando para o4 e o5. Provavelmente é por isso que eles estão tão animados nas mídias sociais ultimamente. Porque implementaram um modo de operação novo e aprimorado.
Você realmente acha que estar próximo da AGI significa que você poderá usar uma IA cada vez mais poderosa? Que eles liberarão todos os avanços para que possamos usá-los? É claro que você não acreditará nisso. Eles estavam falando sério quando disseram que seus modelos os levariam tão longe que ninguém mais seria capaz de alcançá-los. Cada nova geração de modelos é um motor de velocidade de escape. Da estratosfera, eles deram adeus.
Ainda não se sabe se eles retornarão.