o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

Notícias sobre IAPublicado há 8 meses Círculo de compartilhamento de IA

13.4K 00

As manchetes no mundo da IA estão sendo DeepSeek Após dez dias de contratação, a OpenAI finalmente se sentou e lançou uma nova série de modelos de inferência, o3-mini, que não apenas abre modelos de inferência para usuários gratuitos pela primeira vez, mas também reduz o custo por um fator de 15 em comparação com a série o1 anterior.

A OpenAI também afirma que esse é o modelo mais novo e mais econômico de sua família de modelos de inferência:

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Ele acaba de ser lançado, e alguns internautas mal podem esperar para compará-lo com os modelos grandes produzidos internamente que estão varrendo o mundo dos modelos grandes. DeepSeek R1 Foram feitas comparações.
Há algum tempo, a comunidade de IA ficou obcecada com o uso do DeepSeek R1 para competir com outros modelos (de inferência) nesta tarefa: "Escreva um script Python que faça uma bola quicar dentro de uma determinada forma. Faça a forma girar lentamente e certifique-se de que a bola permaneça dentro da forma."
Esse teste de simulação de bola quicando é um desafio clássico de programação. Ele é equivalente a um algoritmo de detecção de colisão que exige que o modelo reconheça quando dois objetos (por exemplo, uma bola e a lateral de uma forma) colidem. Algoritmos escritos de forma inadequada podem apresentar erros óbvios de física.
Enquanto o DeepSeek R1 varria as buscas nacionais e internacionais, e as plataformas americanas de computação em nuvem, como Microsoft, NVIDIA e Amazon, se esforçavam para introduzir o R1, o R1 também acabou esmagando o OpenAI o1 pro nessa tarefa.
olhar novamente Claude 3.5 Sonnet e Google Gêmeos Com resultados de 1,5 Pro, o modelo de código aberto do DeepSeek está de fato mais de um nível acima.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 No entanto, em o3-mini Depois de entrar no ar, a situação parece ter mudado da noite para o dia, com publicações como esta afirmando que o OpenAI o3-mini esmagou o DeepSeek R1, que agora atraiu quase 4 milhões de seguidores.
O desenvolvedor usou o prompt: "escreva um programa Python que mostre uma bola quicando dentro de um hexágono giratório. A bola deve ser afetada pela gravidade e pelo atrito, e deve quicar nas paredes giratórias de forma realista". A bola deve ser afetada pela gravidade e pelo atrito, e deve quicar nas paredes giratórias de forma realista".
Ou seja, deixe o o3-mini e o DeepSeek R1 escreverem, respectivamente, um programa em python para uma bola quicando dentro de um hexágono giratório, com a bola quicando seguindo os efeitos da gravidade e do atrito. A apresentação final é a seguinte:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Em termos de efeitos, a o3-mini mostra muito melhor os efeitos de colisão e quique. A partir da compreensão da gravidade e do atrito, a versão DeepSeek R1 da bola parece estar um pouco sobrecarregada pela placa do caixão de Newton e não é controlada pela gravidade.
Esse não é um caso isolado, pois o cofundador da @hyperbolic_labs, Yuchen Jin, também descobriu esse problema anteriormente, ao digitar as palavras de prompt no DeepSeek R1 e no o3-mini, respectivamente: write a python script of a ball bouncing inside a tesseract (escrever write a Python script of a ball bouncing inside a tesseract (escrever um script Python de uma bola quicando dentro de um tesseract).
Cada vértice de um hipercubo quadridimensional é adjacente a quatro pinos, e cada pino conecta dois cubos. A geometria em quatro dimensões está além da percepção intuitiva humana, portanto, ao ouvir essas descrições, pode ser difícil imaginar como é um hipercubo quadridimensional.
Além de a o3mini apresentar uma geometria estável, a bola quica em quatro dimensões com uma trajetória mais flexível, com a sensação percussiva de bater na lateral de um cubo.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Observando o DeepSeek R1, parece que sua compreensão da forma do hipercubo quadridimensional não é suficientemente profunda. Ao mesmo tempo, a trajetória da bola nele parece um pouco estranha, com uma sensação de "vibração".
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 De acordo com Yuchen Jin, ele tentou várias vezes e todas as tentativas com o DeepSeek R1 foram piores do que o o3-mini descartável, como a que está abaixo, onde a bola foi deixada.
O coração da máquina também é um teste pessoal, o mesmo teste Pass@1, DeepSeek R1, desta vez há a bola e o quadro geométrico, e até mesmo a bola mudará a cor da cor, infelizmente, ela reduz o hipercubo quadridimensional em um eixo de coordenadas de espaço tridimensional.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 O desempenho da o3-mini é um pouco como um "show do comprador". Obviamente, Yuchen Jin insere exatamente os mesmos prompts, mas por que a o3-mini não pode fazer o mesmo? Por que a o3-mini não consegue obter o "show do vendedor" como mostrado acima?
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Parece que o DeepSeek R1 não é uma falha completa do o3-mini na geração de um procedimento para quicar a bola dentro da estrutura geométrica.
O praticante do AIGC @myapdx testou o o3-mini e o DeepSeek R1 com uma sugestão mais complexa do gênero: escrever um script p5.js que simule 100 bolhas coloridas quicando dentro de uma esfera. Cada bola deve deixar uma trajetória de desvanecimento mostrando seu caminho mais próximo. A esfera do contêiner deve girar lentamente. Certifique-se de implementar a detecção de colisão adequada para que as bolhas permaneçam dentro da esfera.
O o3-mini funciona da seguinte maneira:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Muitos requisitos na palavra cue: saltar dentro da esfera, deixar um rastro de desvanecimento, rotação lenta do contêiner ..... .o3-mini são todos perfeitamente atendidos.
E o DeepSeek R1 não parece estar pior:
Quanto ao motivo dessa discrepância, tanto Yuchen Jin quanto @myapdx mencionaram em suas postagens que a tarefa é sensível à forma como o modelo entende as leis físicas do mundo real. Os modelos precisam combinar seus conhecimentos de linguagem, geometria, física e programação para chegar aos resultados finais da simulação. Com base nos resultados das duas primeiras rodadas, parece que o o3-mini tem o potencial de ser o melhor modelo grande para a física.
Enquanto isso, a OpenAI também destacou no blog de lançamento de ontem que o o3-mini-low supera o o1-mini em problemas científicos de nível de doutorado. O o3-mini-high tem desempenho comparável ao do o1, com melhorias significativas em problemas de biologia, química e física de nível de doutorado.
Entender a gravidade e o atrito quando uma pequena bola quica não é difícil para os seres humanos, mas no campo da modelagem de linguagem ampla, essa capacidade de entender "modelos mundiais" do estado físico dos objetos não foi um avanço real até recentemente.
Também há especulações de que o DeepSeek R1 às vezes é programado com apenas uma bola, será que ele está pensando demais nas coisas? Gostaria de saber se algum de nossos leitores já passou por isso por conta própria. Fique à vontade para discutir.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

O arsenal de ferramentas de IA do otimizador de anúncios: inovações em copywriting, mapeamento e vídeo full-link

Notícias sobre IA

7 meses atrás

013.8K

Nature重磅：8分钟预测15天全球天气，DeepMind AI击败全球最先进天气预报系统

A natureza tem sua opinião: 8 minutos para prever 15 dias de clima global, a IA da DeepMind supera o sistema de previsão do tempo mais avançado do mundo

Notícias sobre IA

10 meses atrás

013.2K

“agent”一词令人沮丧，GPT-4级模型已不值一提，大神程序员盘点「大模型的2024」

A palavra "agente" é deprimente, os modelos GPT-4 não são mais dignos de menção e os grandes programadores fazem um balanço do "The Big Model 2024".

Notícias sobre IA

9 meses atrás

014.6K

Análise da forma do produto de IA que executa tarefas de manipulação de desktop usando o AutoGLM como guia

Notícias sobre IA

6 meses atrás

014.8K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

As 5 principais plataformas de inferência de IA que usam uma versão completa do DeepSeek-R1 gratuitamente

Demonstra-se que: a RL supera a SFT no aprendizado de conhecimentos generalizáveis, especialmente em tarefas multimodais, mostrando habilidades mais fortes de raciocínio e reconhecimento visual

Artigos relacionados

O arsenal de ferramentas de IA do otimizador de anúncios: inovações em copywriting, mapeamento e vídeo full-link

A natureza tem sua opinião: 8 minutos para prever 15 dias de clima global, a IA da DeepMind supera o sistema de previsão do tempo mais avançado do mundo

A palavra "agente" é deprimente, os modelos GPT-4 não são mais dignos de menção e os grandes programadores fazem um balanço do "The Big Model 2024".

Análise da forma do produto de IA que executa tarefas de manipulação de desktop usando o AutoGLM como guia

Sem comentários

Últimas coleções

Artigos mais recentes

o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

As 5 principais plataformas de inferência de IA que usam uma versão completa do DeepSeek-R1 gratuitamente

Demonstra-se que: a RL supera a SFT no aprendizado de conhecimentos generalizáveis, especialmente em tarefas multimodais, mostrando habilidades mais fortes de raciocínio e reconhecimento visual

Artigos relacionados

O arsenal de ferramentas de IA do otimizador de anúncios: inovações em copywriting, mapeamento e vídeo full-link

A natureza tem sua opinião: 8 minutos para prever 15 dias de clima global, a IA da DeepMind supera o sistema de previsão do tempo mais avançado do mundo

A palavra "agente" é deprimente, os modelos GPT-4 não são mais dignos de menção e os grandes programadores fazem um balanço do "The Big Model 2024".

Análise da forma do produto de IA que executa tarefas de manipulação de desktop usando o AutoGLM como guia

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes