OpenAI o1-mini 매크로 모델 소개

40.1K 00

비용 효율적인 추론 기법을 장려합니다.

비용 효율적인 추론 모델인 OpenAI o1-mini를 출시했습니다. o1-mini는 특히 수학과 프로그래밍 등 STEM 분야에서 뛰어난 성능을 발휘하며, 거의 OpenAI o1 AIME 및 Codeforces와 같은 리뷰 벤치마크에서 비슷한 성능을 보였습니다. 추론이 필요하지만 광범위한 세계 지식에 의존하지 않는 애플리케이션 시나리오에 o1-mini가 더 빠르고 경제적인 옵션이 될 것으로 기대합니다.

현재 OpenAI o1-프리뷰보다 저렴한 80%에 대해 OpenAI o1-프리뷰를 제공하고 있습니다. 티어 5 API 사용자(새 창에서 열기) o1-mini 출시: ChatGPT 플러스, 팀, 엔터프라이즈, 에듀 사용자는 o1-preview의 대안으로 o1-mini를 사용하여 더 높은 사용 제한과 짧은 지연 시간을 즐길 수 있습니다([모델 속도] 참조).

STEM 추론에 최적화

o1과 같은 대규모 언어 모델은 일반적으로 대규모 텍스트 데이터 세트에 대해 사전 학습됩니다. 이러한 대용량 모델은 방대한 세계 지식에도 불구하고 실제 애플리케이션에서는 비용이 많이 들고 속도가 느릴 수 있습니다. 반면, o1-mini는 사전 훈련 단계에서 STEM 추론에 특별히 최적화된 소형 모델입니다. o1과 동일한 대용량 강화 학습(RL) 파이프라인을 사용하여 훈련된 후, o1-mini는 많은 실제 추론 작업에서 비슷한 성능을 발휘하면서도 훨씬 더 비용 효율적입니다.

지능과 추론이 필요한 벤치마크 테스트에서는 o1-mini가 o1-preview와 o1보다 성능이 뛰어납니다. 그러나 o1-mini는 비STEM 사실 지식이 필요한 작업에서는 성능이 떨어집니다([제한 사항] 참조).

수학적 성능 및 추론 비용

수학: 고등학교 AIME 수학 경시대회에서 o1-mini(70.0%)는 o1(74.4%)과 비슷한 성적을 보였으며, 훨씬 더 저렴했고, o1-preview( 44.6%). o1-mini의 점수(11문항 중 약 15문항이 정답)는 대략 미국 고등학생 중 상위 500명 내외에 속하는 점수입니다.

프로그래밍: Codeforces 대회 웹사이트에서 o1-mini의 Elo 점수는 1650점으로, o1(1673점)과 비슷하고 o1-preview(1258점)보다 높습니다. 이 Elo 점수로 o1-mini는 Codeforces 플랫폼에서 상위 86% 백분위수에 속하는 프로그래머입니다. o1-mini는 또한 HumanEval 프로그래밍 벤치마크와 고등학교 수준의 사이버 보안 깃발 뺏기 챌린지(CTF)에서도 매우 우수한 성적을 거뒀습니다.

코드포스

HumanEval

사이버 보안 CTF

STEM: o1-mini는 추론이 필요한 일부 학업 시험(예: GPQA(과학) 및 MATH-500)에서 GPT-4o보다 성능이 뛰어나지만, MMLU 과제에서는 GPT-4o보다 성능이 떨어지고 광범위한 세계 지식이 부족해 GPQA에서는 o1-preview보다 뒤떨어집니다.

MMLU

GPQA

MATH-500

인간 선호도 평가: 평가자들에게 [o1-preview와 GPT-4o 비교](https://openai.com/index/learning-to-reason-with-llms/)에서와 동일한 방법론을 사용하여 다양한 영역의 개방형 퍼즐에 대해 o1-mini와 GPT-4o를 비교하도록 요청했습니다. o1-preview와 마찬가지로, 추론이 필요한 영역에서는 o1-mini가 GPT-4o보다 인기가 높지만 언어 중심 영역에서는 GPT-4o보다 인기가 낮습니다.