Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

As manchetes no mundo da IA estão sendo DeepSeek Após dez dias de contratação, a OpenAI finalmente se sentou e lançou uma nova série de modelos de inferência, o3-mini, que não apenas abre modelos de inferência para usuários gratuitos pela primeira vez, mas também reduz o custo por um fator de 15 em comparação com a série o1 anterior.

 


A OpenAI também afirma que esse é o modelo mais novo e mais econômico de sua família de modelos de inferência:

 

blank Ele acaba de ser lançado, e alguns internautas mal podem esperar para compará-lo com os modelos grandes produzidos internamente que estão varrendo o mundo dos modelos grandes. DeepSeek R1 Foram feitas comparações.
Há algum tempo, a comunidade de IA ficou obcecada com o uso do DeepSeek R1 para competir com outros modelos (de inferência) nesta tarefa: "Escreva um script Python que faça uma bola quicar dentro de uma determinada forma. Faça a forma girar lentamente e certifique-se de que a bola permaneça dentro da forma."
Esse teste de simulação de bola quicando é um desafio clássico de programação. Ele é equivalente a um algoritmo de detecção de colisão que exige que o modelo reconheça quando dois objetos (por exemplo, uma bola e a lateral de uma forma) colidem. Algoritmos escritos de forma inadequada podem apresentar erros óbvios de física.
Enquanto o DeepSeek R1 varria as buscas nacionais e internacionais, e as plataformas americanas de computação em nuvem, como Microsoft, NVIDIA e Amazon, se esforçavam para introduzir o R1, o R1 também acabou esmagando o OpenAI o1 pro nessa tarefa.
olhar novamente Claude 3.5 Sonnet e Google Gêmeos Com resultados de 1,5 Pro, o modelo de código aberto do DeepSeek está de fato mais de um nível acima.
blank No entanto, em o3-mini Depois de entrar no ar, a situação parece ter mudado da noite para o dia, com publicações como esta afirmando que o OpenAI o3-mini esmagou o DeepSeek R1, que agora atraiu quase 4 milhões de seguidores.
blank O desenvolvedor usou o prompt: "escreva um programa Python que mostre uma bola quicando dentro de um hexágono giratório. A bola deve ser afetada pela gravidade e pelo atrito, e deve quicar nas paredes giratórias de forma realista". A bola deve ser afetada pela gravidade e pelo atrito, e deve quicar nas paredes giratórias de forma realista".
Ou seja, deixe o o3-mini e o DeepSeek R1 escreverem, respectivamente, um programa em python para uma bola quicando dentro de um hexágono giratório, com a bola quicando seguindo os efeitos da gravidade e do atrito. A apresentação final é a seguinte:
blank Em termos de efeitos, a o3-mini mostra muito melhor os efeitos de colisão e quique. A partir da compreensão da gravidade e do atrito, a versão DeepSeek R1 da bola parece estar um pouco sobrecarregada pela placa do caixão de Newton e não é controlada pela gravidade.
Esse não é um caso isolado, pois o cofundador da @hyperbolic_labs, Yuchen Jin, também descobriu esse problema anteriormente, ao digitar as palavras de prompt no DeepSeek R1 e no o3-mini, respectivamente: write a python script of a ball bouncing inside a tesseract (escrever write a Python script of a ball bouncing inside a tesseract (escrever um script Python de uma bola quicando dentro de um tesseract).
Cada vértice de um hipercubo quadridimensional é adjacente a quatro pinos, e cada pino conecta dois cubos. A geometria em quatro dimensões está além da percepção intuitiva humana, portanto, ao ouvir essas descrições, pode ser difícil imaginar como é um hipercubo quadridimensional.
Além de a o3mini apresentar uma geometria estável, a bola quica em quatro dimensões com uma trajetória mais flexível, com a sensação percussiva de bater na lateral de um cubo.
blank Observando o DeepSeek R1, parece que sua compreensão da forma do hipercubo quadridimensional não é suficientemente profunda. Ao mesmo tempo, a trajetória da bola nele parece um pouco estranha, com uma sensação de "vibração".
blank De acordo com Yuchen Jin, ele tentou várias vezes e todas as tentativas com o DeepSeek R1 foram piores do que o o3-mini descartável, como a que está abaixo, onde a bola foi deixada.
blank O coração da máquina também é um teste pessoal, o mesmo teste Pass@1, DeepSeek R1, desta vez há a bola e o quadro geométrico, e até mesmo a bola mudará a cor da cor, infelizmente, ela reduz o hipercubo quadridimensional em um eixo de coordenadas de espaço tridimensional.
blank O desempenho da o3-mini é um pouco como um "show do comprador". Obviamente, Yuchen Jin insere exatamente os mesmos prompts, mas por que a o3-mini não pode fazer o mesmo? Por que a o3-mini não consegue obter o "show do vendedor" como mostrado acima?
blank Parece que o DeepSeek R1 não é uma falha completa do o3-mini na geração de um procedimento para quicar a bola dentro da estrutura geométrica.
O praticante do AIGC @myapdx testou o o3-mini e o DeepSeek R1 com uma sugestão mais complexa do gênero: escrever um script p5.js que simule 100 bolhas coloridas quicando dentro de uma esfera. Cada bola deve deixar uma trajetória de desvanecimento mostrando seu caminho mais próximo. A esfera do contêiner deve girar lentamente. Certifique-se de implementar a detecção de colisão adequada para que as bolhas permaneçam dentro da esfera.
O o3-mini funciona da seguinte maneira:
blank Muitos requisitos na palavra cue: saltar dentro da esfera, deixar um rastro de desvanecimento, rotação lenta do contêiner ..... .o3-mini são todos perfeitamente atendidos.
E o DeepSeek R1 não parece estar pior:
blank Quanto ao motivo dessa discrepância, tanto Yuchen Jin quanto @myapdx mencionaram em suas postagens que a tarefa é sensível à forma como o modelo entende as leis físicas do mundo real. Os modelos precisam combinar seus conhecimentos de linguagem, geometria, física e programação para chegar aos resultados finais da simulação. Com base nos resultados das duas primeiras rodadas, parece que o o3-mini tem o potencial de ser o melhor modelo grande para a física.
Enquanto isso, a OpenAI também destacou no blog de lançamento de ontem que o o3-mini-low supera o o1-mini em problemas científicos de nível de doutorado. O o3-mini-high tem desempenho comparável ao do o1, com melhorias significativas em problemas de biologia, química e física de nível de doutorado.
Entender a gravidade e o atrito quando uma pequena bola quica não é difícil para os seres humanos, mas no campo da modelagem de linguagem ampla, essa capacidade de entender "modelos mundiais" do estado físico dos objetos não foi um avanço real até recentemente.
Também há especulações de que o DeepSeek R1 às vezes é programado com apenas uma bola, será que ele está pensando demais nas coisas? Gostaria de saber se algum de nossos leitores já passou por isso por conta própria. Fique à vontade para discutir.

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " o3-mini esmaga o DeepSeek R1: um programa Python que gerou quase 4 milhões de visualizações

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil