OpenAI, 딥시크에 밀려 새로운 o3-mini 모델 출시? 가격은 여전히 이길 수 없다

47.6K 00

인기도를 향한 고품질 AI 추론 모델.

오늘 아침 일찍 OpenAI는 새로운 추론 모델을 발표했습니다.o3-mini.

OpenAI는 이 모델이 과학, 수학, 프로그래밍 등에서 이전 모델인 o1 모델을 능가하는 복잡한 추론 및 대화 기능을 크게 향상시키면서도 o1-mini의 저렴한 비용과 짧은 지연 시간을 유지하면서 가장 비용 효율적인 추론 모델이라고 주장합니다.네트워크 검색 기능과 함께 사용할 수 있습니다..

o3-mini는 이미 ChatGPT와 API에서 사용할 수 있으며, 기업용 액세스는 다음에서 사용할 수 있습니다.1주일시작.

딥시크가 미국 앱스토어 무료 차트 1위에 오르면서 OpenAI에 대한 압박이 커진 것으로 보입니다.

오늘.ChatGPT는 처음으로 모든 사용자에게 무료 추론 모델을 제공합니다.사용자는 ChatGPT에서 "이유" 버튼을 선택하여 o3-mini를 사용해 볼 수 있습니다.

ChatGPT 프로 사용자는 다음을 수행할 수 있습니다.무제한 액세스플러스 및 팀 사용자의 요금 한도가 o1-mini의 경우 하루 50건에서 o3-mini의 경우 하루 50건으로 세 배로 늘어났습니다.150개 메시지.

유료 구독자에게는 더 지능적인 버전을 선택할 수 있는 옵션도 있습니다."O3-mini-high". 이 버전은 응답을 생성하는 데 시간이 더 오래 걸립니다.

o1 모델과 마찬가지로, o3-mini 모델의 지식 컷오프는 다음과 같습니다.2023년 10월컨텍스트 창은 200,000 토큰이며 최대 출력은 100,000 토큰입니다. o3-mini는 개발자가 특정 사용 사례에 맞게 최적화할 수 있도록 낮음, 중간, 높음 버전으로 제공됩니다.

현재 o3-mini는 시각적 기능을 지원하지 않으므로 개발자는 시각적 추론 작업에는 여전히 o1을 사용해야 합니다.

o3-mini는 즉시 채팅 완료 API, 어시스턴트 API, 배치 API에서 사용할 수 있습니다. 오픈AI는 토큰당 가격이 GPT-4 출시에 비해 95% 인하되었지만 최고 수준의 추론 성능을 유지한다고 주장합니다. 그러나 o3-mini의 API 가격은 여전히 딥시크 모델보다 높습니다.

OpenAI 모델과 DeepSeek 모델 API 가격 비교

OpenAI는 보안 측면에서 o3-mini가 까다로운 보안 및 탈옥 측면에서 GPT-4o보다 훨씬 뛰어난 성능을 발휘한다는 사실을 발견했습니다.

01. 세부 정보 O3-MINI: 지연 시간을 크게 줄인 과학 수학 프로그래밍 기능의 진화

전문:OpenAI o3-mini 시스템 설명서(중국어)

OpenAI는 모델 소개, 데이터 및 훈련, 테스트 범위, 보안 과제 및 평가, 외부 레드팀 테스트, 준비 프레임워크 평가, 다국어 성능, 결론 등 광범위한 영역을 다루는 37페이지 분량의 상세한 o3-mini 보고서를 발표했습니다.

o3-mini는 과학, 수학, 프로그래밍 추론에 최적화되어 있을 뿐만 아니라 반응 속도도 더 빠릅니다. 이 모델은 GPQA 다이아몬드(과학, 화학, 생물학), AIME 2022-2024(수학), Codeforces ELO(프로그래밍) 벤치마크에서 각각 0.77점, 0.80점, 2036점을 기록했습니다. o3-mini는 o1 추론 모델과 일치하거나 그 이상의 성능을 발휘합니다.

o3-mini는 14개 언어로 구성된 MMLU 테스트에서 o1-mini를 크게 앞질러 다국어 이해 능력의 발전을 입증했습니다.

외부 전문가 테스터들의 평가 결과, o3-mini가 o1-mini보다 더 정확하고 명확한 답변과 더 나은 추론을 제공한 것으로 나타났습니다. 인간 선호도 평가에서 테스터들은 o3-mini의 답변을 561 TP3T보다 선호했으며, 어려운 실제 문제에서 중대한 오류가 391 TP3T 감소하는 것을 관찰했습니다. o3-mini는 중간 추론 능력에서 가장 어려운 추론 및 지능 평가(AIME 및 GPQA 포함)에서 o1과 비슷한 성능을 보였습니다.

o3-mini의 지능은 o1과 비슷하여 더 빠른 성능과 더 높은 효율성을 제공합니다. 또한 이 모델은 중간 수준의 추론 능력 아래에서 추가적인 수학적 및 사실적 평가에서도 탁월합니다. A/B 테스트에서 o3-mini는 평균 응답 시간이 7.7초로 o1-mini의 10.16초보다 24% 더 빠르게 응답했습니다.

수학의 경우, 추론 능력이 낮은 경우 o3-mini는 o1-mini와 비슷한 성능을 보였고, 추론 능력이 중간 정도인 경우 o3-mini는 o1과 비슷한 성능을 보였습니다. 반면, 높은 추론 능력에서는 o3-mini가 o1-mini와 o1보다 성능이 뛰어났습니다.

추론력이 높은 o3-mini는 FrontierMath에서 이전 버전보다 더 뛰어난 성능을 보였습니다. 프론티어매쓰 테스트에서 파이썬 도구를 사용하라는 메시지가 표시되었을 때 추론력이 높은 o3-mini는 첫 번째 시도에서 281개 이상의 도전적인(T3) 문제를 포함하여 321개 이상의 TP3T 문제를 푸는 데 성공했습니다.

o3-mini는 추론 능력이 증가함에 따라 점진적으로 더 높은 Elo 점수를 획득하며, 모두 o1-mini보다 우수합니다. 중간 정도의 추론 능력에서는 o1과 비슷한 성능을 발휘합니다.

o3-mini는 SWE 벤치 검증에서 가장 우수한 성능을 자랑하는 OpenAI의 모델입니다.

SWE 벤치 검증 결과에 대한 자세한 데이터는 아래와 같습니다. o3-mini(도구)가 611 TP3T로 가장 우수한 성능을 보였습니다. o3-mini 상장 후보는 내부 도구 대신 에이전트리스(Agentless)를 사용하여 391 TP3T를 기록했습니다. o1은 481 TP3T로 두 번째로 우수한 성능을 보인 모델입니다.

라이브벤치 프로그래밍 테스트에서는 전반적으로 고도의 추론 능력을 갖춘 o3-mini가 o1-high보다 더 높은 점수를 받았습니다.

02. 다중 안전성 평가가 GPT-4o를 초과합니다.

OpenAI는 또한 여러 보안 평가에서 o3-mini의 성능을 자세히 설명하면서, o3-mini는 까다로운 보안 및 탈옥 평가에서 GPT-4o보다 훨씬 뛰어난 성능을 보였으며, 허용되지 않은 콘텐츠 평가에서는 표준 거부 평가와 까다로운 거부 평가에서 GPT-4o와 비슷한 성능을 보였지만 XSTest에서 약간 더 나빴다고 밝혔습니다. .

탈옥 평가에서 o3-mini는 프로덕션 탈옥, 탈옥 강화 예제, StrongReject 및 휴먼 소스 탈옥 평가에서 o1-mini와 비교하여 비슷한 성능을 보였습니다.

PersonQA 데이터 세트를 사용한 환각 평가에서 o3-mini는 정확도 21.71 TP3T, 환각률 14.81 TP3T로 GPT-4o 및 o1-mini와 비슷하거나 더 나은 성능을 보였습니다.

공정성 및 편향성 평가에서 o3-mini는 BBQ 평가의 o1-mini와 비슷한 성능을 보였지만 모호한 질문을 처리할 때 정확도가 약간 떨어졌습니다.

외부 레드팀 테스트 결과, o3-mini는 o1과 비교했을 때 비슷한 성능을 보였으며, 두 제품 모두 GPT-4o보다 훨씬 뛰어난 성능을 보였습니다.

그레이 스완 아레나 탈옥 테스트에서 o3-mini의 평균 사용자 공격 성공률은 3.61 TP3T로, o1-mini 및 GPT-4o에 비해 약간 높았습니다. 준비성 프레임워크 평가는 사이버 보안, CBRN(화학, 생물학, 방사능, 핵), 설득, 모델 자율성의 네 가지 위험 범주를 다루었으며, o3-mini는 사이버 보안에서 "저위험", CBRN, 설득, 모델 자율성에서 "중간 위험", 생물학적 위협에서 "중간 위험" 등급을 받았습니다. 위험", 생물학적 위협 생성 성능에 대한 "중간 위험" 임계값을 충족했지만 핵 및 방사능 무기 개발 능력은 제한적이었습니다.

등급에 따라 완화 점수가 '중간' 이하인 모델만 배포할 수 있으며, '높음' 이하인 모델은 추가 개발이 가능합니다.

03. o3 벤치마킹에 3천만 달러 이상 소요될 수 있으며, OpenAI는 290억 달러의 신규 자금 조달을 위한 협상을 진행 중입니다.

OpenAI는 작년 9월 o1을 출시한 이후 추론 모델을 지속적으로 개선해 왔으며, 작년 말 출시된 o3 모델은 최신 세대의 AI 추론 모델입니다. o3 모델의 하이엔드 버전은 고성능 컴퓨팅 애플리케이션을 대상으로 하며, o3-mini는 비용 효율성과 효율성을 모두 원하는 사용자를 대상으로 합니다. 이는 프리미엄 유료 제품과 접근성의 균형을 맞추려는 OpenAI의 전략을 반영합니다.

지난 이틀 동안 딥시크에 밀린 것인지, 아니면 o3-mini를 예열하기 위한 것인지는 모르겠지만, OpenAI의 공동 창업자인 샘 알트먼은 소셜 미디어 플랫폼에서 매우 활발하게 활동하며 다시 한번 딥시크 R1을 인상적이라고 칭찬하고, OpenAI가 더 나은 모델을 제공할 것이라며 더 많은 연산이 중요하다고 강조하고 있습니다.

어제 그는 중요한 발표를 했습니다.최초의 완전한 8-랙 GB200 NVL72 서버는 OpenAI용 Microsoft Azure에서 실행 중입니다.

이번 주 금요일에 발표된 인도 정부의 2024-2025년 경제 조사 보고서에 따르면 OpenAI는3,000만 달러의 최신 AI 추론 모델인 o3를 벤치마킹했습니다. 이 보고서는 OpenAI o3 모델의 획기적인 처리 능력은 매우 높은 대가를 치렀습니다. ARC-AGI 벤치마킹은 가장 어려운 AI 작업 중 하나로 간주되며 OpenAI의 비효율적인 모델 구성으로 인해$200,000효율적인 모델의 비용은 비효율적인 모델의 비용보다 훨씬 높습니다. 효율적인 모델의 비용은 비효율적인 모델의 비용보다 훨씬 높습니다.172회그 내용은 다음과 같습니다.3,440만 달러.

알트먼은 또한 얼마 전 사티아 나델라(Satya Nadella) 마이크로소프트 회장 겸 CEO와 함께 찍은 사진을 올리며, 마이크로소프트와 OpenAI의 파트너십의 다음 단계는 누구도 상상할 수 없었던 훨씬 더 나은 단계가 될 것이라고 말했습니다.

하지만 OpenAI의 최대 투자자로서의 마이크로소프트의 명성은 일본 소프트뱅크 그룹에 빼앗길 수도 있습니다. 최근 소프트뱅크 그룹의 창업자이자 CEO인 손 마사요시와 알트먼은 점점 더 가까워지고 있으며, 지난주에는 손을 잡고 AI 메가 프로젝트 '스타게이트'를 설립하고 향후 4년간 5000억 달러(약 3조 6000억 원)를 투자해 AI 인프라를 구축하겠다고 발표했고, 어제 새로운 OpenAI 자금 조달 라운드의 주요 투자자가 될 것이라고 밝혔기 때문입니다. OpenAI의 새로운 파이낸싱 라운드.

외신 보도에 따르면, OpenAI는 최대 규모의 자금 조달을 위한 예비 협상을 진행 중입니다.미화 400억 달러(약 2,901억 위안)평가액은 다음과 같습니다.미화 3,000억 달러(약 21조 1,800억 원). 일본 소프트뱅크 그룹이 이번 라운드를 주도하며 투자 협상을 진행 중입니다.150억 달러에서 250억 달러나머지 자금은 다른 투자자들로부터 조달할 예정입니다. 나머지 자금은 소프트뱅크가 이전에 스타게이트에 투자하기로 약속한 금액 외에 다른 투자자로부터 조달할 예정입니다.150억 달러 이상궁극적으로 소프트뱅크는 OpenAI와의 파트너십에 투자할 수 있습니다.400억 달러 이상. 이는 지금까지 소프트뱅크의 투자 중 가장 큰 규모 중 하나가 될 것입니다.

04.결론: 대중화를 향한 가격 대비 성능과 고품질 AI 추론 모델의 대폭 상승

이전에 머스크와 다른 기술 리더들은 '스타게이트'를 구축하는 데 드는 막대한 비용을 어떻게 감당할 수 있을지 공개적으로 의문을 제기한 바 있습니다. 딥시크의 고성능, 저비용 오픈소스 모델의 영향으로 미국 AI 업계와 월스트리트 투자자들은 OpenAI와 같은 다른 미국 AI 개발업체의 대규모 지출 전략에 대해 더욱 회의적인 시각을 보이고 있습니다.

OpenAI가 최근 출시한 o3-mini는 업계에서 특히 관심을 갖고 있는 딥시크 모델의 공세를 방어하기 위한 최신 조치로 여겨집니다.

OpenAI는 보도자료를 통해 o3-mini의 출시는 비용 효율적인 인텔리전스의 한계를 뛰어넘고 고품질 AI의 접근성을 높인다는 회사의 사명을 향한 또 다른 진전이며, OpenAI는 인텔리전스, 효율성, 보안이 균형을 이루는 대규모 모델을 구축하는 데 앞장서기 위해 최선을 다하고 있다고 밝혔습니다.