o3-mini, DeepSeek R1을 제압하다: 400만 뷰에 가까운 조회수를 기록한 파이썬 프로그램

45.4K 00

AI 세계의 헤드라인은 다음과 같습니다. DeepSeek 열흘간의 계약 끝에 마침내 OpenAI는 새로운 추론 모델 시리즈인 o3-mini를 출시했으며, 이는 추론 모델을 처음으로 무료 사용자에게 개방할 뿐만 아니라 기존 o1 시리즈에 비해 비용을 15배나 낮춘 제품입니다.

또한 OpenAI는 이 모델이 자사의 추론 모델 제품군 중 가장 새롭고 비용 효율적인 모델이라고 주장합니다:

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 이제 막 출시되어 일부 네티즌들은 대형 모델계를 휩쓸고 있는 국산 대형 모델과 비교하고 싶어합니다. DeepSeek R1 비교가 이루어졌습니다.
얼마 전, AI 커뮤니티는 "특정 도형 안에서 공을 튕기게 하는 Python 스크립트를 작성하는 과제에서 다른 (추론) 모델과 경쟁하기 위해 DeepSeek R1을 사용하는 것에 집착하게 되었습니다. 도형을 천천히 회전시키면서 공이 도형 안에 머물도록 하세요."라는 과제였습니다.
이 시뮬레이션 튕기는 공 테스트는 고전적인 프로그래밍 과제입니다. 두 물체(예: 공과 도형의 측면)가 충돌할 때 모델이 이를 인식해야 하는 충돌 감지 알고리즘과 동일합니다. 부적절하게 작성된 알고리즘은 명백한 물리학적 오류를 일으킬 수 있습니다.
딥서치 R1이 국내외 인기 검색어를 휩쓸고 마이크로소프트, 엔비디아, 아마존 등 미국의 클라우드 컴퓨팅 플랫폼이 앞다투어 R1을 도입하는 가운데, 이번 작업에서도 R1이 오픈AI o1 프로를 압도하는 성과를 거뒀습니다.
다시 보기 Claude 3.5 소네트와 구글의 쌍둥이자리 1.5 Pro의 결과를 보면, 딥시크의 오픈소스 모델은 실제로 한 단계 이상 높은 수준입니다.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 그러나 o3-mini 출시 이후, OpenAI o3-mini가 현재 약 400만 명의 방문자를 끌어모은 DeepSeek R1을 무너뜨렸다는 이와 같은 게시물이 올라오는 등 전세가 하룻밤 사이에 뒤집힌 것으로 보입니다.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 개발자는 "회전하는 육각형 안에서 공이 튀어 오르는 것을 보여주는 파이썬 프로그램을 작성하세요. 공은 중력과 마찰의 영향을 받아야 하며, 다음과 같이 해야 합니다. 공은 중력과 마찰의 영향을 받아야 하며, 회전하는 벽에서 사실적으로 튀어야 합니다."라는 질문을 받았습니다.
즉, 중력과 마찰의 효과에 따라 공이 회전하는 육각형 안에서 튀어 오르는 공에 대한 파이썬 프로그램을 o3-mini와 DeepSeek R1이 각각 작성하도록 합니다. 최종 발표는 다음과 같습니다:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 효과 면에서 보면 충돌과 튀어 오르는 효과는 o3-mini가 훨씬 더 잘 보여줍니다. 중력과 마찰에 대한 이해로 볼 때, 딥시크 R1 버전의 공은 뉴턴의 관판에 약간 압도되어 중력에 의해 전혀 제어되지 않는 것처럼 보입니다.
이것은 고립된 사례가 아니며, @hyperbolic_labs의 공동 창립자인 Yuchen Jin도 앞서 이 문제를 발견하기 위해 DeepSeek R1과 o3-mini에 각각 다음과 같은 프롬프트 단어를 입력하여 테서랙트 안에서 튕기는 공의 파이썬 스크립트를 작성했습니다(쓰기 테서랙트 안에서 튀어 오르는 공의 파이썬 스크립트 작성).
4차원 하이퍼큐브의 각 꼭지점은 4개의 갈래에 인접하고, 각 갈래는 두 개의 큐브를 연결합니다. 4차원의 기하학은 인간의 직관적 인식을 넘어서는 것이므로 이러한 설명을 들으면 4차원 하이퍼큐브가 어떻게 생겼는지 상상하기 어려울 수 있습니다.
또한 o3mini는 안정적인 지오메트리를 보여줄 뿐만 아니라 큐브의 측면을 치는 듯한 타악기 느낌으로 공이 4차원에서 보다 유연한 궤적을 그리며 튕겨 나갑니다.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 DeepSeek R1을 보면 4차원 하이퍼큐브의 모양에 대한 이해가 충분히 깊지 않은 것 같습니다. 동시에 그 안의 공의 궤적이 "펄럭이는" 느낌과 함께 약간 이상해 보입니다.
유첸 진에 따르면, 그는 여러 번 시도했지만 딥시크 R1으로 시도한 모든 시도가 일회용 o3-mini보다 더 나빴다고 합니다(예: 공이 남겨진 아래 사진).
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 기계의 핵심은 또한 개인 테스트, 동일한 Pass@1 테스트, DeepSeek R1 이번에는 공과 기하학적 프레임이 모두 있으며 공도 색상이 변경되며 불행히도 3 차원 공간 좌표 축으로 단순화 된 4 차원 하이퍼 큐브입니다.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 o3-mini의 성능은 "구매자 쇼"와 약간 비슷합니다. 분명히 Yuchen Jin은 똑같은 프롬프트를 입력하는데 왜 o3-mini는 똑같이 할 수 없나요? 왜 o3-mini는 위와 같은 "판매자 쇼"를 할 수 없는 걸까요?
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 딥시크 R1은 기하학적 프레임 내부에서 공을 튕기는 절차를 생성하는 데 있어 o3-mini의 완전한 실패는 아닌 것 같습니다.
AIGC 실무자 @myapdx는 좀 더 복잡한 종류의 큐로 o3-mini와 DeepSeek R1을 테스트했습니다. 구 안에서 100개의 컬러 블롭이 튀는 것을 시뮬레이션하는 p5.js 스크립트를 작성하는 것이었습니다. 각 공은 가장 가까운 경로를 보여주는 페이드 궤적을 남겨야 합니다. 컨테이너 구체는 천천히 회전해야 합니다. 블롭이 구 안에 머물도록 적절한 충돌 감지를 구현해야 합니다.
o3-mini는 다음과 같이 작동합니다:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 구 내부에서 튀기, 페이드 트랙 남기기, 컨테이너의 느린 회전 등 큐워드의 많은 요구 사항 ..... .o3-mini가 모두 완벽하게 충족됩니다.
그리고 DeepSeek R1은 마모도 나쁘지 않은 것 같습니다:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 이러한 불일치가 발생하는 이유에 대해 유첸 진과 @myapdx는 게시글에서 모델이 실제 세계의 물리 법칙을 이해하는 방식에 따라 반응하는 작업이라고 언급했습니다. 모델은 언어, 기하학, 물리학 및 프로그래밍에 대한 이해를 결합하여 최종 시뮬레이션 결과를 도출해야 합니다. 처음 두 라운드의 결과를 보면, o3-mini는 물리학을 위한 최고의 대형 모델이 될 가능성이 있는 것으로 보입니다.
한편, OpenAI는 어제 발표한 블로그에서 o3-mini-low가 박사급 과학 문제에서 o1-mini보다 성능이 뛰어나며, o3-mini-high는 박사급 생물학, 화학 및 물리학 문제에서 상당한 개선을 보이며 o1과 비슷한 성능을 보인다고 강조한 바 있습니다.
작은 공이 튕길 때 중력과 마찰을 이해하는 것은 인간에게는 어렵지 않지만, 대규모 언어 모델링 분야에서는 물체의 물리적 상태에 대한 '세계 모델'을 이해하는 능력이 최근까지 진정한 돌파구가 되지 못했습니다.
딥시크 R1이 때때로 하나의 공으로만 프로그래밍된다는 추측도 있는데, 지나친 생각일 수 있을까요? 독자분들 중 직접 경험하신 분이 계신가요? 자유롭게 토론해 주세요.