친칠라 모멘트와 o3 모멘트: 빅 언어 모델을 위한 규모의 법칙의 진화

41.1K 00

기사 요약 읽기

이 글에서는 대규모 언어 모델(LLM)의 확장 법칙의 과거와 현재, 그리고 향후 AI 연구의 방향에 대해 포괄적이고 심도 있게 살펴봅니다. 명확한 논리와 풍부한 예시를 통해 저자 Cameron R. Wolfe는 기본 개념부터 최첨단 연구까지 독자들을 안내하며 AI 분야에 대한 폭넓은 그림을 제시합니다. 다음은 기사의 핵심 내용과 저자의 관점에 대한 요약 및 해설입니다:

1. 규모의 법칙의 기원과 발전: GPT에서 친칠라까지

저자는 규모의 법칙이 대규모 언어 모델 개발의 핵심 동력이라고 말하며 서두를 시작합니다. 저자는 파워 법칙의 기본 개념을 소개하면서 모델 파라미터, 데이터 세트의 크기, 계산량이 증가함에 따라 대규모 언어 모델의 테스트 손실이 어떻게 감소하는지 설명합니다.
저자는 GPT 모델 제품군의 진화 과정을 살펴보고 규모의 법칙이 실제로 어떻게 적용되는지 생생하게 보여 줍니다. 초기 GPT와 GPT-2에서 획기적인 GPT-3, 신비한 GPT-4에 이르기까지 OpenAI는 항상 "큰 노력으로 기적을 만든다"는 전략을 고수해 왔으며 대규모 언어 모델의 기능 상한을 지속적으로 갱신해 왔습니다. 이 기사에서는 각 모델의 주요 혁신, 실험 설정 및 성능에 대해 자세히 설명하며 GPT-3의 등장은 대형 언어 모델의 특수 모델에서 범용 기본 모델로 전환하고 AI 연구의 새로운 시대를 열었다는 점을 지적합니다.
저자는 맹목적으로 "클수록 좋다"고 주장하는 것이 아니라 친칠라 모델이 제안하는 "계산적으로 최적"인 크기의 법칙을 합리적으로 분석합니다. 딥마인드의 연구에 따르면 이전 모델은 일반적으로 데이터 세트 크기가 모델 크기에 비해 너무 작아 "훈련이 부족"했으며, 친칠라 모델의 성공은 데이터 세트 크기를 적절히 늘리는 것이 동일한 계산 예산으로 모델 크기를 확장하는 것보다 더 효과적일 수 있음을 입증했습니다. 이 발견은 이후 대규모 언어 모델을 학습하는 데 큰 영향을 미쳤습니다.

댓글: 저자는 비전문가인 독자도 규모의 법칙의 핵심 아이디어를 이해할 수 있도록 이론적 설명과 뒷받침되는 사례를 통해 규모의 법칙에 대한 심도 있는 소개를 제공합니다. 저자는 GPT 시리즈 모델의 진화 과정을 검토함으로써 추상적인 규모의 법칙을 구체적인 모델 개발과 연결하여 글의 가독성과 설득력을 높였습니다. 친칠라 모델에 대한 분석은 맹목적으로 규모를 옹호하는 것이 아니라 독자들이 컴퓨팅 자원을 더 효율적으로 사용할 수 있는 방법을 생각하도록 유도하는 저자의 담론적 정신을 보여줍니다.

2. 규모의 법칙의 '종말': 질문과 성찰

이 기사의 두 번째 부분에서는 최근 AI의 규모의 법칙에 대한 의문을 집중적으로 다룹니다. 저자들은 여러 언론 보도를 인용하며 모델 개선 속도가 느려지면서 업계가 규모의 법칙이 한계에 부딪힌 것은 아닌지 의구심을 품기 시작했다고 말합니다. 동시에 저자들은 Dario Amodei와 Sam Altman과 같은 업계 내부자의 말을 인용하여 규모가 여전히 AI 발전을 이끄는 중요한 동력이라고 주장합니다.
저자들은 규모의 법칙의 '둔화'는 어느 정도 예상된 결과라고 말합니다. 규모의 법칙은 규모가 커질수록 성능 개선의 난이도가 기하급수적으로 증가한다고 예측합니다. 또한 저자들은 '성능'을 정의하는 것이 중요하다고 강조합니다. 테스트 손실의 감소가 빅 언어 모델의 기능 향상과 반드시 일치하는 것은 아니며 빅 언어 모델에 대한 업계의 기대치는 매우 다양합니다.
'데이터 병목 현상'은 저자들이 중점을 두고 있는 문제 중 하나입니다. 친칠라 모델과 후속 연구는 데이터 크기의 중요성을 강조했지만, 인터넷에서 고품질 데이터의 제한된 가용성은 향후 빅 언어 모델 개발에 병목 현상으로 작용할 수 있습니다.

댓글: 이 섹션은 저자의 비판적 사고와 업계에 대한 예리한 통찰력을 보여줍니다. 저자는 논쟁을 피하는 대신 다양한 당사자의 견해를 객관적으로 제시하고 기술적 관점에서 '규모 둔화'의 가능한 원인을 분석합니다. 특히 '데이터 병목 현상'에 대한 저자의 강조는 대규모 언어 모델 개발에 대한 실질적인 과제일 뿐만 아니라 향후 연구 방향으로서도 매우 중요합니다.

3. AI 연구의 미래: 사전 학습 그 이상

이 글의 마지막 부분에서는 대규모 언어 모델 시스템/에이전트 및 추론 모델에 초점을 맞춰 AI 연구의 미래 방향을 살펴봅니다.
저자들은 사전 학습된 모델의 크기가 증가하여 병목현상이 발생하더라도 대규모 언어 모델의 복잡한 시스템을 구축함으로써 AI의 기능을 향상시킬 수 있다고 주장합니다. 이 문서에서는 작업 분해와 연결이라는 두 가지 주요 전략을 설명하고, 복잡한 작업을 대규모 언어 모델이 잘 처리할 수 있는 하위 작업으로 세분화하는 방법을 책 요약을 예로 들어 설명합니다.
또한 저자는 제품 개발에 빅 언어 모델을 적용할 수 있는 전망에 대해 논의하며 진정으로 유용한 빅 언어 모델 제품을 구축하는 것이 현재 AI 연구의 중요한 방향이라고 지적합니다. 특히, 이 글에서는 도구를 사용할 수 있는 기능을 제공하여 대규모 언어 모델의 적용 시나리오를 확장하는 에이전트 개념을 강조합니다. 그러나 저자는 복잡한 대규모 언어 모델링 시스템 구축의 견고성 문제를 지적하고 메타 생성 알고리즘 개선을 통해 시스템 안정성을 개선하기 위한 연구 방향도 제시합니다.
추론 모델 측면에서 저자는 복잡한 추론 작업에서 인상적인 성과를 거둔 OpenAI의 o1 및 o3 모델을 소개합니다. 특히 o3는 몇 가지 까다로운 벤치마크에서 인간의 수준을 뛰어넘었으며, 일부 문제에 대해서는 테렌스 타오의 예측을 깨기도 했습니다. 저자들은 o1과 o3 모델의 성공은 사전 학습을 확장하는 것 외에도 추론 시점에 계산 입력을 늘리는 새로운 확장 패러다임으로 모델의 추론을 크게 향상시킬 수 있다는 것을 보여줍니다.

댓글: 이 섹션은 매우 미래지향적이며, 저자들이 빅 언어 모델링 시스템/에이전트 및 추론 모델에 대해 소개하는 내용은 독자들에게 새로운 지평을 열어줍니다. 저자들이 강조하는 빅 언어 모델 제품 구축은 학술 연구뿐만 아니라 현장에서의 AI 기술 적용에 있어서도 매우 실용적인 중요성을 지니고 있습니다. o1과 o3 모델의 소개는 복잡한 추론 작업에 대한 AI의 큰 잠재력을 보여주고 미래 AI 연구의 새로운 방향을 제시한다는 점에서 매우 고무적입니다.

요약하고 반성하세요:

카메론 R. 울프의 글은 대규모 언어 모델을 위한 규모의 법칙의 발전에 대한 체계적인 개요를 제공할 뿐만 아니라 AI 연구의 미래에 대한 통찰력 있는 전망도 제공하는 폭과 깊이를 겸비한 훌륭한 작품입니다. 저자의 관점은 객관적이고 합리적이며 규모의 법칙의 중요한 역할을 긍정하면서도 그 한계와 과제를 지적합니다. 글의 논리가 명확하고 논증이 잘 되어 있어 AI 분야에 익숙하지 않은 독자도 유익한 정보를 얻을 수 있습니다.

주목할 만한 하이라이트:

심층적인 설명입니다: 저자는 힘의 법칙, 규모의 법칙, 작업 분해 등 복잡한 개념을 알기 쉬운 언어로 설명하는 데 능숙합니다.
풍부한 사례로 뒷받침됩니다: 이 기사에서는 추상적인 이론을 구체적이고 공감할 수 있도록 GPT 시리즈, 친칠라, 고퍼, o1, o3 등과 같은 수많은 모델과 실험 결과를 나열하고 있습니다.
종합적인 문헌 검토: 이 글은 대규모 언어 모델링 분야의 고전적인 논문과 최근 연구 결과를 다루는 많은 참고 문헌을 인용하여 독자들에게 심층적인 학습을 위한 리소스를 제공합니다.
열린 사고: 저자는 규모의 법칙의 미래에 대한 최종적인 답을 제시하지 않고 "다음에는 무엇을 확장할 것인가?"와 같은 독자적인 사고로 독자를 이끕니다. 이 질문은 더 많은 연구자들이 AI의 경계를 탐구하도록 영감을 줄 것입니다.

인공지능의 발전을 따르는 모든 사람들이 주의 깊게 읽어볼 만한 기사입니다. 과거를 요약할 뿐만 아니라 미래를 전망하는 글이기도 합니다. 이 기사의 가치는 콘텐츠 자체뿐만 아니라 사고를 자극하고 혁신을 주도하는 정신에도 있습니다. 앞으로의 AI 연구에서는 o3와 같은 획기적인 아이디어가 더 많이 나올 것이며, 대규모의 아이디어가 새로운 형태로 AI 기술의 발전을 계속 주도할 것이라고 믿습니다.

제목:대규모 언어 모델을 위한 규모의 법칙: GPT-3에서 o3까지.

원본 텍스트:https://cameronrwolfe.substack.com/p/llm-scaling-laws

대규모 빅 언어 모델링의 현재 상태와 AI 연구의 미래에 대해 알아보세요...

Chinchilla 时刻与 o3 时代：大语言模型“规模定律”的演进之路
(출처 [1, 7, 10, 21])

가장 최근의 AI 연구 발전 -특히 대규모 언어 모델(LLM)- 이 모든 것은 규모에 의해 결정됩니다. 더 많은 데이터로 더 큰 모델을 훈련하면 더 나은 결과를 얻을 수 있습니다. 이 관계는 규모의 법칙으로 보다 엄격하게 정의할 수 있는데, 이는 관련 수량(예: 학습 연산량)이 증가함에 따라 대규모 언어 모델의 테스트 손실이 어떻게 감소하는지를 설명하는 방정식입니다. 규모의 법칙은 더 크고 비용이 많이 드는 훈련 실행의 결과를 예측하는 데 도움이 되며, 따라서 확장에 계속 투자하는 데 필요한 확신을 줍니다.

"대규모 데이터 세트가 있고 매우 큰 신경망을 학습시키면 성공은 보장됩니다!" - 일리야 수츠케버

규모의 법칙은 수년 동안 AI 연구에 있어 예측 가능한 북극성이었습니다. 실제로 OpenAI와 같은 초기 프론티어 연구소의 성공은 규모의 법칙을 준수했기 때문이기도 합니다. 그러나 최근 최고의 연구소에서 더 나은 차세대 대규모 언어 모델을 만들기 위해 노력하고 있다는1 보고가 나오면서 규모의 지속성에 의문이 제기되고 있습니다. 이러한 주장은 우리를 회의적으로 만들 수 있습니다:규모에 따라 병목 현상이 발생하나요? 그렇다면 다른 방법이 있나요?

이 개요에서는 빅 언어 모델 규모의 법칙과 관련 연구에 대한 심층적인 설명부터 시작하여 이러한 질문에 대한 답을 처음부터 다시 제시합니다. 규모의 법칙의 개념은 간단하지만, 스케일링에 대한 대중의 오해에는 여러 가지가 있습니다.이 연구의 배경이 되는 과학은 실제로 매우 구체적입니다.규모의 법칙. 스케일링에 대한 자세한 이해를 바탕으로 빅 언어 모델링 연구의 최신 동향과 규모의 법칙을 '정체'시킨 요인에 대해 논의할 것입니다. 마지막으로, 이 정보를 바탕으로 몇 가지 핵심 아이디어를 중심으로 AI 연구의 미래에 대한 보다 명확한 그림을 제시할 것입니다.규모 포함--이러한 아이디어는 계속해서 발전을 이끌 수 있습니다.

대규모 언어 모델을 위한 기본 스케일링 개념

대규모 언어 모델의 확장 상태를 이해하려면 먼저 규모의 법칙에 대한 일반적인 이해가 필요합니다. 힘의 법칙의 개념부터 시작하여 처음부터 이러한 이해를 구축할 것입니다. 그런 다음 대규모 언어 모델 연구에서 힘의 법칙이 어떻게 적용되어 오늘날 우리가 사용하는 규모의 법칙을 도출했는지 살펴볼 것입니다.

힘의 법칙이란 무엇인가요?

거듭제곱 법칙은 대규모 언어 모델 확장의 기본 개념입니다. 간단히 말해, 힘의 법칙은 두 수량 간의 관계를 간단히 설명합니다. 대규모 언어 모델의 경우 첫 번째 양은 대규모 언어 모델의 테스트 손실입니다.또는 기타 관련 성능 지표(예: 다운스트림 작업 정확도 [7])- 다른 하나는 모델 매개변수 수와 같은 특정 설정을 확장하려는 경우입니다. 예를 들어 대규모 언어 모델의 스케일링 속성을 조사할 때 다음과 같은 문장이 표시될 수 있습니다.

"충분한 학습 데이터를 사용할 수 있는 경우 유효성 검사 손실의 스케일링은 모델 크기에 대한 대략적인 평활 전력법 함수가 되어야 합니다." - 출처 [4]

이러한 진술은 모델의 테스트 손실과 모델 매개 변수의 총 수 사이에 측정 가능한 관계가 있음을 알려줍니다. 이 수량 중 하나가 변경되면 다른 수치의 상대적 규모는 변함없이 변경됩니다. 즉, 이 관계를 통해 모델 매개 변수의 총 개수가 증가하면다른 조건이 충족된다고 가정할 경우(예: 충분한 학습 데이터를 사용할 수 있는 경우)--테스트 손실이 예측 가능한 요인만큼 감소합니다.

거듭제곱 공식. 기본 힘의 법칙은 다음 공식을 통해 표현됩니다.

여기서 연구한 두 가지 수량은 다음과 같습니다. x 노래로 응답 y그러나 (아닌) a 노래로 응답 p 는 이러한 수량 간의 관계를 설명하는 상수입니다. 이 거듭제곱 법칙 함수2 를 플롯하면 아래 그림이 나옵니다. 대규모 언어 모델의 스케일링을 연구하는 대부분의 논문에서 로그 스케일을 사용하기 때문에 일반 스케일과 로그 스케일 모두에 대한 플롯을 제공합니다.

x와 y 사이의 기본 거듭제곱 법칙 그래프

그러나 빅 언어 모델을 확장하기 위해 제공된 다이어그램은 위에 표시된 다이어그램과는 다릅니다.보통 거꾸로 되어 있습니다.아래 예시를 참조하세요.

(출처 [1])

그것은 단지반대힘의 법칙은 아래와 같이 공식화할 수 있습니다.

역 거듭제곱 법칙의 방정식은 표준 거듭제곱 법칙의 방정식과 거의 동일하지만, 우리는 다음과 같은 점에 관심이 있습니다. p 음의 지수를 사용합니다. 거듭제곱 법칙의 지수를 음수로 만들면 그래프가 거꾸로 뒤집어집니다(아래 예시를 참조하세요).

x와 y 사이의 역수 법칙 그래프

로그 스케일을 사용하여 플롯할 경우 이 역제곱 법칙은 대부분의 대규모 언어 모델의 크기 법칙을 특징짓는 선형 관계를 생성합니다. 이 개요에서 다루는 거의 모든 논문에서는 다양한 요소(예: 크기, 계산, 데이터 등)의 스케일링이 대규모 언어 모델의 성능에 미치는 영향을 조사하기 위해 이러한 플롯을 생성합니다. 이제 대규모 언어 모델 확장의 맥락에서 파워 법칙을 연구한 최초의 논문 중 하나를 이해함으로써 파워 법칙에 대해 좀 더 실용적으로 살펴보겠습니다[1].

신경언어학 모델링을 위한 척도 법칙 [1]

언어 모델링 초창기에는 규모가 성능에 미치는 영향을 이해하지 못했습니다. 언어 모델링은 유망한 연구 분야였지만, 당시의 현 세대 모델(예: 오리지널 GPT)은 성능이 제한적이었습니다. 아직 더 큰 모델의 힘을 발견하지 못했고, 더 나은 언어 모델을 만드는 길도 명확하지 않았습니다.모델의 모양(즉, 레이어 수와 크기)이 중요한가요? 모델을 더 크게 만들면 더 나은 성능을 발휘하는 데 도움이 되나요? 이렇게 큰 모델을 훈련하려면 얼마나 많은 데이터가 필요한가요?

"모델 크기, 데이터 세트 크기, 학습에 사용되는 연산량이 증가함에 따라 손실은 거듭제곱 법칙으로 증가하며, 이러한 추세 중 일부는 7배 이상의 규모에 걸쳐 있습니다." - 출처 [1]

1]에서 저자들은 다음과 같은 몇 가지 요인을 분석하고자 했습니다.모델 크기, 모델 모양, 데이터 세트 크기, 학습 계산 및 배치 크기 등이 그 예입니다.- 에 대한 모델 성능을 분석하여 이러한 질문에 답했습니다. 이 분석을 통해 대규모 언어 모델의 성능은 다음과 같은 수의

모델 매개변수 수입니다.
데이터 집합의 크기입니다.
교육에 사용되는 계산량입니다.

좀 더 구체적으로 설명합니다.다른 두 가지 요인으로 인해 성능이 병목 현상이 발생하지 않는 경우, 각 요인과 대규모 언어 모델의 테스트 손실 간에 파워 법칙 관계가 관찰됩니다.

실험적 설정.저자들은 파워 법칙에 맞추기 위해 최대 15억 개의 매개변수 크기와 220억에서 230억 개의 토큰을 포함하는 WebText2 말뭉치의 하위 집합에서 대규모 언어 모델을 사전 학습했으며, 모든 모델은 1,024 토큰 의 고정 컨텍스트 길이와 표준 다음 토큰 예측(교차 엔트로피) 손실을 학습에 사용합니다. 예약된 테스트 세트에서 동일한 손실을 측정하여 주요 성능 지표로 사용합니다.이 설정은 대부분의 대규모 언어 모델에 대한 표준 사전 학습 설정과 일치합니다..

(출처 [1])

대규모 언어 모델의 규모의 힘 법칙.1]에서 학습된 대규모 언어 모델의 성능 - -.웹텍스트2에서의 테스트 손실 측면에서 보면- 는 매개변수, 데이터, 계산이 늘어날수록 꾸준히 개선되는 것으로 입증되었습니다3. 이러한 추세는 계산량에서 8배, 모델 크기에서 6배, 데이터 세트 크기에서 2배에 걸쳐 나타납니다. 정확한 거듭제곱법 관계와 각 관계에 맞는 방정식은 위 그림에 나와 있습니다. 여기에 있는 각 방정식은 앞서 살펴본 역 거듭제곱 법칙 방정식과 매우 유사합니다. 그러나 다음을 설정합니다. a = 1 를 입력하고 괄호 안에 곱셈 상수 4를 추가합니다.

1]의 저자들은 이러한 파워 법칙을 올바르게 적용하는 데 필요한 사소한 세부 사항을 지적합니다. 모델 파라미터의 총 수를 계산할 때 위치 또는 토큰 임베딩을 포함하지 않으므로 보다 명확한 스케일링 추세가 나타납니다(아래 참조).

(출처 [1])

이러한 힘의 법칙은 다른 요인으로 인해 교육이 병목현상을 일으키지 않을 때만 적용됩니다. 따라서 세 가지 구성 요소인모델 크기, 데이터 및 계산-최적의 성능을 위해 모두 동시에 확장해야 합니다. 이러한 구성 요소 중 하나라도 개별적으로 확장하면 수익이 감소하는 지점에 도달하게 됩니다.

힘의 법칙은 우리에게 무엇을 알려주나요?1]에 제공된 파워 법칙 플롯은 유망해 보이지만, 이 플롯은 로그 스케일을 사용하여 생성되었다는 점에 유의해야 합니다. 로그 스케일이 없는 일반 플롯을 생성하면 다음 그림과 같이 파워 법칙의 모양이 지수 붕괴와 유사하다는 것을 알 수 있습니다.

로그 눈금이 없는 거듭제곱법 그래프

스케일링과 AGI에 대한 많은 온라인 담론을 고려할 때 이러한 결과는 직관에 반하는 것처럼 보입니다. 많은 경우, 대규모 언어 모델의 품질은 계산의 대수적 증가에 따라 기하급수적으로 향상된다는 직관을 갖고 있지만, 실제로는 그렇지 않습니다. 실제로규모가 커질수록 대규모 언어 모델의 품질 개선은 점점 더 어려워집니다..

(출처 [1])

기타 유용한 결과.1]에서 관찰된 파워 법칙 외에도 모델 모양이나 아키텍처 설정과 같은 다른 요소는 모델 성능에 거의 영향을 미치지 않는다는 것을 확인했습니다(위 참조). 지금까지 대규모 언어에 대해 더 나은 모델을 만드는 데 가장 크게 기여하는 요소는 규모입니다.더 많은 데이터, 계산 및 모델 매개변수를 통해 대규모 언어 모델의 성능이 원활하게 향상됩니다..

"모델이 클수록 샘플 효율이 훨씬 더 높으므로 계산 효율을 최적화하려면 비교적 적은 양의 데이터로 매우 큰 모델을 훈련하고 수렴하기 전에 크게 멈추는 것이 좋습니다." - 출처 [1]

흥미롭게도 [1]의 경험적 분석에 따르면 대규모 언어 모델은 표본 효율성이 높은 경향이 있으며, 이는 소규모 모델에 비해 동일한 수준의 테스트 손실을 달성하기 위해 더 적은 데이터를 사용한다는 것을 의미합니다. 이러한 이유로융합을 위해 대규모 언어 모델을 사전 학습하는 것은 (틀림없이) 최적이 아닙니다.. 대신 더 적은 데이터로 더 큰 모델을 훈련하고 수렴 전에 훈련 프로세스를 중단할 수 있습니다. 이 접근 방식은 사용되는 훈련 계산의 양 측면에서 최적이지만 추론 비용을 고려하지 않습니다. 실제로 더 작은 모델은 호스팅 비용이 적게 들기 때문에 일반적으로 더 많은 데이터에 대해 더 작은 모델을 훈련합니다.

또한 저자들은 모델 크기와 사전 학습에 사용되는 데이터의 양 사이의 관계를 광범위하게 분석한 결과, 데이터 세트의 크기가 모델 크기만큼 빠르게 증가할 필요가 없다는 사실을 발견했습니다.모델 크기가 약 8배 증가하면 과적합을 피하기 위해 학습 데이터 양이 약 5배 증가해야 합니다..

(출처 [1])

1]에서 발견한 스케일링 법칙은 다른 여러 데이터 세트에서도 복제되며, 테스트 손실에 고정 오프셋을 추가한 후에도(즉, 데이터 세트가 다르다는 사실을 고려하기 위해) 동일한 스케일링 법칙이 유지되는 것을 확인할 수 있습니다(위 참조). 이러한 결과는 대규모 언어 모델 확장에 대한 설득력 있는 사례를 제공합니다. 더 많은 데이터에 대해 더 큰 모델을 더 오랜 기간 동안 훈련함으로써 얻은 매우 명확하고 측정 가능한 이득은 대규모 언어 모델을 더 큰 규모로 사전 훈련하는 데 대한 관심을 불러일으켰습니다.

"이 결과는 모델 크기, 데이터 및 계산을 적절히 확장할 때 언어 모델링 성능이 원활하고 예측 가능하게 향상된다는 것을 보여줍니다. 더 큰 언어 모델은 현재 모델보다 성능이 더 우수하고 샘플 효율성이 더 높을 것으로 기대합니다." - 출처 [1]

크기의 법칙의 실제 적용

대규모 사전 학습이 매우 유익하다는 사실은 우리에게 작은 딜레마를 제시합니다. 대량의 데이터로 대규모 모델을 훈련하면 최상의 결과를 얻을 수 있습니다. 그러나 이러한 훈련은 매우 비용이 많이 들고이는 또한 많은 위험을 감수해야 한다는 것을 의미합니다.천만 달러를 들여 모델을 훈련시켰는데 기대에 미치지 못한다면 어떻게 해야 할까요? 천만 달러를 들여 모델을 훈련했는데 기대에 미치지 못한다면 어떻게 해야 할까요? 사전 학습 비용을 고려할 때 모델별 튜닝을 수행할 수 없으며, 학습한 모델이 제대로 작동하는지 확인해야 합니다. 너무 많은 비용을 들이지 않고도 이러한 모델을 튜닝하고 성능을 예측할 수 있는 전략을 개발해야 합니다.

(출처 [11])

바로 이 부분에서 크기의 법칙이 유용하게 활용됩니다. 지금까지 규모의 법칙의 존재를 입증하기 위해 수행된 여러 가지 경험적 분석을 살펴봤습니다.하지만 이러한 규모의 법칙은 AI 연구에서도 매우 실용적인 활용 사례가 있습니다.. 특히, 우리는 할 수 있습니다:

다양한 훈련 설정을 사용하여 여러 개의 작은 모델을 훈련하세요.
스케일 법칙을 작은 모델의 성능에 맞추세요.
크기의 법칙을 사용하여 더 큰 모델의 성능을 추론합니다.

물론 이 접근 방식에는 한계가 있습니다. 작은 모델에서 큰 모델의 성능을 예측하는 것은 어렵고 부정확할 수 있습니다. 모델은 크기에 따라 다르게 작동할 수 있습니다. 그러나 이를 보다 실현 가능하게 만들기 위해 다양한 방법이 제안되어 왔으며, 현재 이러한 목적으로 크기 법칙이 일반적으로 사용되고 있습니다. 크기 법칙을 사용하여 더 큰 모델의 성능을 예측할 수 있게 되면 연구자로서 더 큰 자신감과 마음의 평화를 얻을 수 있습니다. 또한 규모의 법칙은 AI 연구에 대한 투자를 정당화할 수 있는 간단한 방법을 제공합니다.

스케일업 및 사전 교육 시대

"이것이 바로 오늘날 우리가 보고 있는 모든 발전의 원동력입니다. 방대한 데이터 세트로 훈련된 메가 뉴럴 네트워크입니다." - 일리야 수츠케버

규모의 법칙의 발견은 최근 대규모 언어 모델 연구에 많은 발전을 가져왔습니다. 더 나은 결과를 얻으려면 더 큰 (그리고 더 나은!) 데이터셋으로 모델을 학습시켜야 합니다. 데이터셋으로 모델을 학습시켜 점점 더 큰 모델을 학습시키면 됩니다. 이 전략은 GPT 제품군의 여러 모델과 OpenAI 외부 팀의 잘 알려진 모델 대부분을 만드는 데 사용되었습니다. 여기에서는 이러한 확장 연구의 진행 상황을 자세히 살펴보겠습니다.최근 일리야 수츠케버는 "사전 교육의 시대"라고 표현했습니다. 5.

GPT 시리즈: GPT [2], GPT-2 [3], GPT-3 [4] 및 GPT-4 [5].

대규모 언어 모델 스케일 법칙의 가장 널리 알려져 있고 눈에 띄는 적용 사례는 OpenAI의 GPT 모델 제품군을 만드는 데 있습니다. 여기서는 주로 이 시리즈의 초기 개방형 모델인GPT-3까지-이유:

이러한 모델에 대한 자세한 내용은 보다 공개적으로 공유되고 있습니다.
이후 모델은 사전 교육 프로세스를 확장하는 것 외에도 사후 교육 연구의 발전으로 혜택을 받았습니다.

또한 GPT-4의 모델과 같이 알려진 몇 가지 확장 결과도 제시합니다.

(출처 [2])

오리지널 GPT 모델 [2] 사실 아주 작습니다.총 12개의 레이어와 1억 1,700만 개의 파라미터. 이 모델은 먼저 약 7,000권의 원시 텍스트가 포함된 데이터 세트인 BooksCorpus에 대해 사전 학습을 거쳤습니다. 그런 다음 지도 학습 목표를 사용하고 각 작업에 대해 별도의 분류 헤더를 생성하여 다양한 다운스트림 작업을 해결하도록 모델을 미세 조정했습니다(위 참조). 이 논문은 디코더 전용과 비전용을 구분한 최초의 논문 중 하나입니다. 트랜스포머 대규모 자체 감독 사전 교육을 실시한 논문 중 하나에서 흥미로운 결과가 나왔습니다:

플랫 텍스트에 대한 자체 감독 사전 교육은 매우 효과적입니다.
사전 교육에는 길고 연속적인 텍스트를 사용하는 것이 중요합니다.
이러한 방식으로 사전 학습된 개별 모델은 최첨단 정확도로 다양한 작업을 해결하도록 미세 조정할 수 있습니다6 .

전반적으로 GPT는 특별히 주목할 만한 모델은 아니지만, 비슷한 모델을 더 큰 규모로 탐구한 이후 작업(예: 디코더 전용 트랜스포머 및 자체 감독 사전 교육)에 중요한 토대를 마련했습니다.

(출처 [3])

GPT-2 [3]은 GPT 직후에 제안되었으며, 최대 15억 개의 파라미터를 포함하는 다양한 모델을 포함합니다(위 참조). 이러한 모델은 GPT 모델과 동일한 아키텍처를 공유하며 동일한 자가 지도 언어 모델링 목표를 사용하여 사전 학습됩니다. 그러나 GPT-2는 GPT에 비해 사전 학습 프로세스에 두 가지 중요한 변화가 있습니다:

이러한 모델은 WebText에 대해 사전 학습된 모델입니다. i) 는 북스코퍼스보다 훨씬 크고 ii) 인터넷에서 데이터를 가져와서 만들었습니다.
이러한 모델은 다운스트림 작업을 위해 미세 조정되지 않습니다. 대신 사전 학습된 모델을 사용하여 제로 샘플 추론7을 수행하여 작업을 해결합니다.

GPT-2 모델은 대부분의 벤치마크에서 최신 성능에 미치지 못하지만8 , 모델 크기가 커질수록 성능이 지속적으로 향상됩니다.모델 매개변수의 수를 확장하면 다음과 같은 이점이 분명하게 나타납니다.아래를 참조하세요.

(출처 [3])

3]의 저자들은 또한 GPT-2 모델에 대해 다음과 같이 밝혔습니다.인상적인 결과에도 불구하고-- 은 여전히 웹 텍스트 말뭉치에 적합하지 않은 것으로 보입니다. 이 발견을 통해 대규모 언어 모델 사전 학습의 지속적인 확장을 추론할 수 있습니다.모델 및 데이터 크기 측면에서--도움이 될 것입니다. GPT-2 모델이 특별히 강력하지는 않지만, 이 모델에서 제공하는 분석을 통해 AI 연구를 계속 확장하고 궁극적으로 변곡점에 도달할 수 있다는 확신을 갖게 됩니다.

"충분한 용량을 갖춘 언어 모델은 습득 방법에 관계없이 자연어 시퀀스에서 보여지는 작업을 더 잘 예측하기 위해 추론하고 수행하는 방법을 배우기 시작할 것입니다." - 출처 [3]

GPT-3 [4]는 대규모 언어 모델에 대한 대규모 사전 학습의 이점을 명확하게 보여준 AI 연구의 분수령이었습니다. 이 모델은 1,750억 개 이상의 파라미터로 가장 큰 GPT-2 모델보다 100배 이상 큰 규모입니다(아래 참조).

(출처 [4])

다시 말하지만, GPT-3는 이전 모델과 매우 유사한 디코더 전용 모델 아키텍처를 사용하지만, CommonCrawl을 기반으로 훨씬 더 큰 데이터 세트에서 모델을 사전 훈련했습니다. 이 데이터 세트는 이전 웹 텍스트 데이터 세트보다 10배 더 크며, [4]의 저자들은 이 대규모 사전 학습 데이터 세트와 다른 여러 사전 학습 데이터 소스를 결합하여 다양한 코퍼스를 혼합하여 만들었습니다(아래 참조).

(출처 [4])

GPT-3는 주로 [4]에서 소규모 샘플 학습 방법을 사용하여 평가되었습니다. 작은 샘플 힌트(GPT-3에서 사용), 제로 샘플 힌트(GPT-2에서 사용), 미세 조정(GPT에서 사용)의 차이는 아래 그림에 나와 있습니다.

(출처 [4])

소규모 샘플 학습은 대규모 언어 모델이 컨텍스트 창에 배치된 예제를 기반으로 작업을 수행하는 방법을 학습하는 새로운 패러다임입니다. 4]의 저자들은 이 개념을 "컨텍스트 학습"이라고 부릅니다. 이 경우 대규모 언어 모델이 실제로 "학습"하는 것이 아니라 컨텍스트 창에 배치된 예제에서 학습하는 것이 대규모 언어 모델입니다.모델 가중치가 전혀 업데이트되지 않았습니다.. 대신, 모델 입력의 예시는 보다 정확한 출력을 생성하기 위한 컨텍스트로 사용됩니다. 우리는 [4]에서 GPT-3가 적은 수의 샘플을 매우 잘 학습하는 것을 보았는데, 이는 컨텍스트 학습이 대규모 모델에 대한 새로운9 기능임을 나타냅니다(아래 참조).

(출처 [4])

다양한 언어 이해 과제에 대해 GPT-3를 평가할 때, 아래 그림과 같이 더 큰 모델을 사용하면 적은 수의 샘플 학습 성과에 훨씬 유리하다는 것을 알 수 있습니다. 작은 모델에 비해 큰 모델이 더 나은 성능을 보일 수 있습니다.더 효과적인——地利用其上下文窗口中的信息。GPT-3 能够通过少量样本学习在多个任务上超越最先进的性能，并且模型的性能随着大小的增加而平稳提高。

(출처 [4])

당시에는 단일 모델이 이렇게 많은 작업을 훌륭하게 수행할 수 있다는 사실이 인상적이었습니다. 이러한 각 작업을 해결하기 위해 기본 모델을 미세 조정하거나 변경할 필요가 없었습니다.모델 큐를 조정하기만 하면 됩니다.GPT-3는 최초로 출시된 진정한 의미의 기본 모델 중 하나였습니다. 이 모델은 AI 연구의 다음 시대를 열었으며 대규모 언어 모델(즉, 단서)과 상호 작용하는 새롭고 직관적인 패러다임을 도입했습니다.

GPT-3 이후. GPT-3의 인상적인 성능은 대규모 사전 훈련에 중점을 둔 대규모 언어 모델 연구에 많은 관심을 불러 일으켰습니다. OpenAI가 출시한 다음 몇 가지 모델인InstructGPT [8], ChatGPT 및 GPT-4 [5]--대규모 사전 학습과 새로운 사후 학습 기술(예: 인간의 피드백을 통한 감독 미세 조정 및 강화 학습)을 결합하여 대규모 언어 모델의 품질을 획기적으로 개선했습니다. 이러한 모델은 매우 인상적이어서 AI 연구에 대한 대중의 관심이 급증하기도 했습니다.

"GPT-4는 문서에서 다음 토큰을 예측하도록 사전 학습된 Transformer 기반 모델입니다. 학습 후 정렬 프로세스는 팩토리얼리티 메트릭과 원하는 행동 준수를 개선합니다." - 출처 [5]

이 시점에서 OpenAI는 연구에 대한 세부 정보를 더 적게 공개하기 시작했습니다. 대신 새로운 모델은 API를 통해서만 공개되었기 때문에 대중은 이러한 모델이 어떻게 만들어졌는지 이해할 수 없었습니다. 다행히도 OpenAI가 공개하는 자료에서 몇 가지 유용한 정보를 얻을 수 있습니다. 예를 들어, InstructGPT [8]-ChatGPT 전임자-- 모델의 학습 후 전략에 대해 자세히 설명하는 관련 논문이 있습니다(아래 참조). 이 논문에서도 GPT-3가 InstructGPT의 기본 모델이라고 명시되어 있으므로 이 모델의 성능 향상은 확장된 사전 학습 과정과 크게 무관하다고 추론하는 것이 합리적입니다.

(출처 [8])

ChatGPT에 비해 GPT-4의 기능은 크게 향상되었습니다. 그러나 연구원들은 GPT-4의 기술 보고서[5]에만 GPT-4의 기술적 세부 사항을 거의 공유하지 않았습니다:

GPT-4는 트랜스포머를 기반으로 합니다.
모델은 다음 토큰 예측을 사용하여 사전 학습됩니다.
공개 및 라이선스가 부여된 타사 데이터 사용.
이 모델은 사람의 피드백을 통한 강화 학습을 사용하여 미세 조정됩니다.

그럼에도 불구하고 이 기술 보고서에서는 확장의 중요성이 매우 분명하게 드러납니다. 저자들은 이 작업의 핵심 과제는 다양한 규모에서 예측 가능한 성능을 발휘하는 확장 가능한 훈련 아키텍처를 개발하여 소규모 실행의 결과를 추정할 수 있게 함으로써 대규모(그리고 훨씬 더 비싼!) 훈련에 대한 확신을 제공하는 것이라고 지적합니다. 자신감을 가지고 훈련할 수 있도록 하는 것입니다.

"적절하게 학습된 대규모 언어 모델(......)의 최종 손실은 모델 학습에 사용된 계산량의 거듭제곱 법칙으로 근사화할 수 있습니다." - 출처 [5]

대규모 사전 교육은 비용이 많이 들기 때문에 보통 한 번만 제대로 할 수 있는 기회가 주어집니다.모델별로 조정할 여지가 없습니다.. 이 과정에서 크기의 법칙이 중요한 역할을 합니다. 1,000~10,000배 더 적은 계산으로 모델을 훈련하고 이러한 훈련 실행 결과를 사용하여 힘의 법칙에 맞출 수 있습니다. 그런 다음 이 힘의 법칙을 사용하여 더 큰 모델의 성능을 예측할 수 있습니다. 특히 [8]에서 계산과 테스트 손실 간의 관계를 측정하는 파워 법칙을 사용하여 GPT-4의 성능을 예측할 수 있음을 확인했습니다(아래 참조).

교육을 위한 GPT-4 척도 법칙 공식(출처 [5])

이 표현은 앞에서 본 것과 거의 동일해 보이지만, 대규모 언어 모델의 테스트 손실이 결코 0에 도달하지 않을 수 있다는 사실을 설명하기 위해 근사치가 아닌 손실 항을 추가합니다. 일단 이 척도 법칙이 적용되면 아래 그림과 같이 매우 높은 정확도로 GPT-4의 최종 성능을 예측하는 데 사용됩니다. 여기서 그래프는 로그 스케일을 사용하여 생성된 것이 아니며, 계산이 증가함에 따라 손실 개선이 분명히 감소하기 시작하는 것을 볼 수 있습니다!

(출처 [5])

5]의 저자들도 테스트 손실이 쉽게 해석할 수 있는 지표가 아니라는 점을 지적하며 다양한 다른 성능 지표를 예측하려고 시도했습니다. 예를 들어, HumanEval 코딩 벤치마크 테스트에서 대규모 언어 모델의 합격률을 예측하기 위해 스케일링 법칙을 적용했습니다. 먼저, HumanEval의 문제를 난이도에 따라 버킷으로 그룹화했습니다. 그런 다음 대규모 언어 모델의 합격률을 예측하기 위해 스케일링 법칙을 적용했습니다. 우리는 [5]에서 이 접근법이 1,000배나 적은 계산을 필요로 하는 실험을 기반으로 HumanEval에서 GPT-4의 합격률을 정확하게 예측하는 데 사용될 수 있음을 확인했습니다(아래 참조).

(출처 [5])

지금까지 살펴본 바와 같이 사전 교육 프로세스를 확장하는 것은 가치가 있습니다. 하지만 대규모 사전 교육은 비용도 많이 듭니다.규모의 법칙은 프로세스를 더욱 예측 가능하게 만듭니다.이를 통해 불필요하거나 과도하게 계산된 비용을 피할 수 있습니다.

친칠라. 계산적으로 최적의 대규모 언어 모델 훈련 [5]

(출처 [9])

1]에서 저자들은 대규모 언어 모델의 사전 학습을 확장할 때 모델 크기가 데이터 세트 크기보다 빠르게 증가해야 한다고 제안했습니다. 그러나 GPT-3 이후의 대부분의 사전 학습 연구는 그 반대의 방법을 제안합니다. 저희는 GPT-3보다 훨씬 더 큰 모델을 훈련했습니다.예를 들어, 5,300억 개의 매개변수가 있는 MT-NLG[9] 모델이 있습니다.-- 하지만 이러한 모델을 훈련하는 데 사용된 데이터 세트의 크기는 GPT-3 데이터 세트의 크기와 비슷했습니다(위 참조). 이러한 모델은 GPT-3의 성능을 개선하지 못한 반면, 더 많은 매개변수와 더 많은 데이터를 조합하여 사용하는 모델(예: Gopher [10])은 훨씬 더 나은 성능을 보였습니다(아래 참조).

(출처 [10])

최적의 크기 법칙을 계산합니다.이러한 관찰에서 영감을 얻은 [6]의 저자들은 원래 [1]에서 제안한 규모의 법칙의 모범 사례를 완전히 재고했습니다. 6]의 크기 법칙 분석은 훨씬 더 큰 모델을 사용하여 수행되었으며, 이전과는 약간 다른 결과를 도출했습니다. 보다 구체적으로, 7천만 개에서 170억 개에 이르는 대규모 언어 모델을 1조 개가 넘는 토큰의 데이터 세트에 대해 학습시켰습니다(아래 참조).

(출처 [10])

모델과 데이터 크기의 다양한 조합을 사용하여 대규모 언어 모델을 훈련함으로써 이러한 요소의 함수로 대규모 언어 모델의 테스트 손실을 예측하는 파워 법칙을 발견할 수 있습니다. 이러한 힘의 법칙을 기반으로 주어진 컴퓨팅 예산에 가장 적합한 훈련 설정을 결정할 수 있습니다. 6]의 저자들은 최적의 훈련 계산10은 모델과 데이터 크기에 비례하여 확장되어야 한다고 주장합니다. 이러한 발견은 대부분의 대규모 언어 모델이 그 크기에 비례하여 학습하지 않는다는 것을 시사합니다.더 많은 데이터로 기존 빅 언어 모델을 훈련하면 도움이 될 것입니다.. 예를 들어, [6]의 적합 척도 법칙은 Gopher가 20배 더 큰 데이터 세트에 대해 학습해야 한다고 예측합니다!

"필요한 학습 데이터의 양이 현재 대규모 모델 학습에 사용되는 데이터의 양을 훨씬 초과할 것으로 예상됩니다." - 출처 [6]

친칠라.6]에 제공된 분석은 데이터 크기의 중요성을 강조합니다.최적의 성능을 달성하려면 더 많은 데이터로 대규모 모델을 학습시켜야 합니다.이 결과를 검증하기 위해 저자들은 700억 개의 매개변수를 가진 대규모 언어 모델인 Chinchilla를 학습시켰습니다. 이 결과를 검증하기 위해 저자들은 700억 개의 파라미터로 구성된 대규모 언어 모델인 친칠라를 학습시켰습니다. 이전 모델에 비해 Chinchilla는 크기는 더 작지만 사전 학습 데이터 세트가 더 큽니다.총 1조 4천억 개의 훈련 토큰Chinchilla는 Gopher와 동일한 데이터 및 평가 전략을 사용합니다[10]. Gopher보다 4배 작지만 Chinchilla는 지속적으로 더 큰 모델을 능가하는 성능을 발휘합니다(아래 참조).

(출처 [6])

친칠라[6]가 제안한 규모의 법칙은 이후 몇 년 동안 AI 연구의 표준이 되었습니다."친칠라 베스트" 이제 친칠라는 일반적으로 사용되는 용어가 되었습니다. 다양한 추가 스케일링 연구가 발표된 이후에도 친칠라와 이와 관련된 스케일링 법칙은 여전히 끊임없이 인용되고 있습니다.

규모의 법칙의 '종말'

규모의 법칙은 최근 AI 연구 분야에서 뜨거운(그리고 논란의 여지가 있는) 주제가 되었습니다. 이 개요에서 살펴본 바와 같이, 사전 학습 시대에는 규모가 AI의 많은 개선을 이끌었습니다. 그러나 2024년 하반기에 모델 출시 및 개선 속도가 느려지면서11 , 모델 확장에 대한 광범위한 의문이 제기되기 시작했고, 이는 AI 연구, 즉특히 규모의 법칙은--벽에 부딪혔을 수 있습니다.

로이터 통신은 OpenAI가 현재 접근 방식을 확장하는 데 병목 현상이 발생해 제품 전략을 바꾸고 있다고 전했습니다.
정보에 따르면 GPT 모델의 개선 속도가 느려지기 시작했다고 합니다.
블룸버그는 더 강력한 AI를 개발하려는 여러 첨단 연구소가 직면한 어려움을 조명합니다.
테크크런치는 규모에 따른 수익이 감소하기 시작했다고 말합니다.
타임지는 AI 연구의 속도를 늦추는 다양한 요인을 강조하는 미묘한 기사를 게재했습니다.
NeurIPS'24의 일리야 수츠케버는 *"우리가 알고 있는 사전 교육은 끝날 것"*이라고 말했습니다.

동시에 많은 전문가들이 정반대의 견해를 가지고 있습니다. 예를 들어, (인류학 CEO)는 확장 *"아마도 ...... 계속 될 것"이라고 말했습니다.그리고 샘 알트먼은 계속해서 설교를 이어갑니다."벽은 없다"*라는 문구가 있습니다. 이 섹션에서는 현재 규모의 현황과 존재할 수 있는 다양한 문제에 대한 정보에 입각한 설명을 제공함으로써 이 논의에 색채를 더할 것입니다.

규모 축소: 무엇을 의미하나요? 왜 이런 일이 발생하나요?

"두 진술 모두 사실일 수 있습니다. 기술적인 수준에서는 여전히 확장이 효과가 있습니다. 사용자 입장에서는 개선 속도가 느려지고 있습니다." - 네이선 램버트

그런 다음 ......확장 속도가 느려지고 있나요? 답은 복잡하며 '느림'에 대한 정확한 정의에 따라 크게 달라집니다. 지금까지 이 질문에 대한 가장 그럴듯한 답변은 두 가지 답변이 모두 맞다는 것입니다. 따라서 이 질문에는 답하지 않겠습니다. 대신, 대규모 언어 모델 확장의 현재(및 미래) 상태에 대한 보다 미묘한 이해를 돕기 위해 이 주제에 대해 더 깊이 파고들겠습니다.

규모의 법칙은 우리에게 무엇을 알려줄까요?먼저 규모의 법칙에 대한 기술적 정의를 살펴볼 필요가 있습니다. 크기의 법칙은 대규모 언어 모델의 학습 계산(또는 모델/데이터셋 크기)과 테스트 손실 간의 관계를 힘의 법칙에 따라 정의합니다. 그러나이 관계의 본질에 대해 종종 오해하는 경우가 있습니다.. 계산의 대수적 성장으로 기하급수적인 성능 향상을 얻을 수 있다는 생각은 신화입니다. 규모의 법칙은 기하급수적으로 쇠퇴하는 것처럼 보이며, 이는 시간이 지남에 따라 더 많은 성능 향상을 얻으려면 더 열심히 노력해야 한다는 것을 의미합니다(아래 참조).

(출처 [5])

다시 말해규모의 법칙은 시간이 지남에 따라 자연스럽게 평준화됩니다.이런 식으로 말이죠. 이렇게 보면 현재 우리가 겪고 있는 '속도 저하'는 대규모 언어 모델에서 규모의 법칙에 따라 예상되는 부분이라고 할 수 있습니다.

"실무자들은 일반적으로 난해성 평가 세트의 손실보다는 다운스트림 벤치마크 정확도를 모델 품질에 대한 대용물로 사용합니다." - 출처 [7]

성능을 정의합니다.빅 언어 모델이 개선되고 있는지 어떻게 측정하나요? 규모의 법칙의 관점에서 볼 때 대규모 언어 모델의 성능은 일반적으로 사전 학습 중 모델의 테스트 손실로 측정되지만, 낮은 테스트 손실이 대규모 언어 모델의 성능에 미치는 영향은 명확하지 않습니다.손실이 적으면 다운스트림 작업의 정확도가 높아질까요? 더 낮은 손실이 빅 언어 모델의 새로운 기능으로 이어질까요? 규모의 법칙이 우리에게 알려주는 것과 실제로 우리가 관심을 갖는 것 사이에는 괴리가 있습니다:

규모의 법칙에 따르면 사전 학습의 크기를 늘리면 대규모 언어 모델의 테스트 손실을 원활하게 줄일 수 있습니다.
우리의 관심사는 더 큰 언어의 '더 나은' 모델을 얻는 것입니다.

사용자가 누구인지, 새로운 AI 시스템에서 무엇을 기대하는지에 따라 다릅니다.그리고 이러한 새로운 시스템을 평가하는 데 사용한 방법-는 매우 다를 것입니다. 일반 AI 사용자는 범용 채팅 애플리케이션에 집중하는 경향이 있는 반면, 실무자는 다운스트림 작업에서 대규모 언어 모델의 성능에 관심을 갖는 경우가 많습니다. 반면, 최고 수준의 첨단 연구소의 연구원들은 박사 학위 논문 작성이나 고급 수학적 추론 문제 해결 등 AI 시스템에 대한 높은(그리고 매우 구체적인) 기대치를 가지고 있는 것으로 보입니다. 평가하기 어려운 광범위한 기능을 고려할 때 대규모 언어 모델의 성능을 살펴보는 방법에는 여러 가지가 있습니다(아래 참조).

(출처 [15])

이렇게 다양한 모델에 대한 기대치를 고려할 때, 확장이 '효과가 있다'는 명확한 증거를 제시하는 것은 언제나 어려운 일입니다. 규모의 법칙의 성공에 대한 보다 구체적인 정의가 필요합니다. 과학적으로 더 큰 모델이 더 낮은 손실을 달성한다고 해서 새로운 모델이 모든 사람의 기대에 부응한다는 의미는 아닙니다. AGI를 달성하지 못하거나 수상 경력에 빛나는 인간 수학자의 능력을 뛰어넘지 못한다고 해서 스케일링이 기술적 수준에서 여전히 효과가 없다는 증거는 아닙니다! 다시 말해, 스케일링의 '속도 저하'는 규모의 법칙의 기술적 문제가 아니라 인식과 기대의 문제라고 주장할 수 있습니다.

데이터 소멸.대규모 언어 모델 사전 학습을 확장하려면 모델과 데이터 세트의 크기를 모두 늘려야 합니다. 초기 연구[1]에서는 데이터의 양이 모델의 크기보다 덜 중요하다고 보았지만, 친칠라[6]에서는 데이터 세트의 크기가 똑같이 중요하다는 것을 알 수 있습니다. 또한 최근 연구에 따르면 대부분의 연구자들은 모델을 '과도하게 훈련'하는 것을 선호한다고 합니다.또는 친칠라의 최적화를 초과하는 데이터 세트에 대해 사전 학습합니다.-추론 비용을 절감할 수 있습니다[7].

"스케일업 연구는 종종 최적의 훈련 메커니즘을 계산하는 데 중점을 둡니다. ...... 큰 모델은 추론하는 데 더 많은 비용이 들기 때문에 이제 작은 모델을 과도하게 훈련하는 것이 일반적입니다." - 출처 [7]

이 모든 연구는 간단한 결론으로 이어집니다.대규모 언어 모델 사전 학습을 확장하려면 더 큰 규모의 사전 학습 데이터 세트를 만들어야 합니다.이 사실은 대규모 언어 모델에 대한 규모의 법칙에 대한 주요 비판 중 하나입니다. 이 사실은 대규모 언어 모델에 대한 규모의 법칙에 대한 주요 비판 중 하나입니다. 많은 연구자들은 사전 학습 과정을 계속 확장하기에는 데이터가 충분하지 않을 수 있다고 주장해 왔습니다. 그 배경을 살펴보면, 현재 빅 언어 모델에 사용되는 사전 학습 데이터의 대부분은 웹 크롤링을 통해 얻었습니다(아래 참조). 인터넷이 하나뿐인 상황에서 대규모의 고품질 사전 학습 데이터의 완전히 새로운 소스를 찾는 것은 어려울 수 있습니다.

(출처)

일리야 수츠케버(Ilya Sutskever)도 최근 다음과 같은 주장을 펼쳤다. i) 컴퓨팅은 빠르게 성장하고 있지만 ii) 웹 크롤링에 대한 의존도 때문에 데이터가 증가하지 않았습니다. 따라서 그는 사전 학습 프로세스를 언제까지나 계속 확장할 수는 없다고 주장합니다. 우리가 알고 있는 사전 학습은 언젠가는 끝날 것이며, AI 연구가 발전할 수 있는 새로운 방법을 찾아야 합니다. 다시 말해"데이터 피크에 도달했습니다.".

차세대 사전 교육 규모

확장은 결국 수익률 감소로 이어질 것이며, 지속적인 확장을 반대하는 데이터 중심의 주장은 합리적이고 설득력 있는 주장입니다. 그러나 사전 학습 프로세스를 개선할 수 있는 몇 가지 연구 방향이 여전히 남아 있습니다.

합성 데이터.사전 학습 프로세스를 몇 배로 확장하기 위해서는 합성 데이터에 의존해야 할 수도 있습니다. 합성 데이터에 지나치게 의존하면 다양성 문제가 발생할 수 있다는 우려에도 불구하고[14], 빅 언어 모델은 점점 더 많이 사용되고 있습니다.그리고 다음과 같은 성공을 거둔 것으로 보입니다.--합성 데이터 사용[12]. 또한 코스 학습[13]과 지속적인 사전 교육 전략을 통해 사전 교육 데이터를 조정하여 데이터 조합을 변경하거나 사전 교육이 끝날 때 교육 데이터를 추가하는 등 다양한 의미 있는 개선이 이루어졌습니다.

(출처 [7])

실용적인 규모의 법칙.최근 연구에서는 테스트 손실에 기반한 스케일링 법칙의 한계를 해결하려는 시도가 있었습니다. 예를 들어, [7]의 저자들은 LLM 파운드리의 다운스트림 벤치마크 테스트에서 대규모 언어 모델의 성능을 예측하는 데 사용할 수 있는 스케일링 법칙을 정의했습니다(위 참조). 사람이 이러한 메트릭을 해석하는 것은 훨씬 쉽습니다. 테스트 손실이 5% 감소한 것이 무엇을 의미하는지 알 수는 없지만, 우리가 관심 있는 벤치마크에서 85% 정확도에서 90% 정확도로 도약한 것은 일반적으로 쉽게 이해할 수 있습니다. 다른 여러 연구에서는 대규모 언어 모델의 성능에 대한 보다 실용적이고 의미 있는 추정치를 제공하기 위해 스케일링 법칙을 사용하는 아이디어를 탐구했습니다(예: 사후 학습 및 정량화 후[16] 또는 사전 학습 중[17]).

DeepSeek-v3.최근의 논쟁에도 불구하고 대규모 언어 모델에 대한 사전 학습 프로세스를 확장함으로써 조금씩 발전하는 모습을 계속 보고 있습니다. 예를 들어, 최근 출시된 DeepSeek-v3[18]은671억 개의 매개변수12 (MoE) 모델. 이 모델은 오픈 소스일 뿐만 아니라 14조 8천억 개의 토큰 텍스트로 사전 학습되었으며, GPT-4o와 Claude-3.5-Sonnet보다 우수한 성능을 보였습니다. 모델의 성능은 아래 차트에서, 라이선스는 여기에서 확인하실 수 있습니다. 참고로 LLaMA-3 모델은 15조 개가 넘는 원시 텍스트 데이터로 학습되었으며, 자세한 내용은 여기를 참조하세요.

(출처 [18])

GPT-4o와 같은 모델을 능가하는 성능은 개방형 가중치가 적용된 대규모 언어 모델에 있어 큰 도약입니다.가장 큰 LLaMA 모델조차도 이 목표를 달성하지 못합니다.DeepSeek-v3는 다양하고 흥미로운 기술을 사용합니다:

DeepSeek-v2의 최적화된 MoE 아키텍처.
로드 밸런싱을 위한 새로운 비보조 손실 전략 MoE.
훈련 목표에 대한 멀티 토큰 예측.
긴 사고 체인 모델에서 추론 기능을 개선합니다(예: OpenAI의 o1과 유사).

또한 이 모델은 사람의 피드백을 통한 감독 미세 조정 및 강화 학습을 통해 사람의 선호도에 맞게 조정하는 등 사후 학습을 거쳤습니다.

"우리는 14조 8천억 개의 고품질의 다양한 토큰으로 DeepSeek-V3를 훈련했습니다. 사전 훈련 과정은 매우 안정적이었습니다. 훈련 과정에서 복구할 수 없는 손실이 급증하거나 롤백해야 하는 상황도 발생하지 않았습니다." - 출처 [8]

그러나 DeepSeek-v3의 인상적인 성능의 가장 큰 핵심은 사전 학습 규모입니다.이것은 똑같이 큰 데이터 세트에서 학습된 대규모 모델입니다.DeepSeek-v3는 놀라울 정도로 안정적인 사전 학습 프로세스를 갖추고 있으며 매우 저렴한 비용으로 대규모 언어 모델 표준을 따릅니다! 이러한 대규모 모델을 훈련하는 것은 여러 가지 이유로 어렵습니다(예: GPU 장애 및 손실 급증). DeepSeek-v3는 놀랍도록 안정적인 사전 훈련 프로세스를 갖추고 있으며 대규모 언어 모델 표준에 따라 합리적인 비용으로 훈련됩니다(아래 참조).이러한 결과는 대규모 사전 교육 운영이 시간이 지남에 따라 더 관리하기 쉽고 효율적이라는 것을 시사합니다..

(출처 [18])

크기를 몇 배로 늘립니다.규모의 법칙을 계속 테스트하려면 현재 모델보다 훨씬 더 큰 대규모 언어 모델을 학습시켜야 합니다. 스케일링의 유용성에 대한 견해는 차치하더라도, 이 정도 규모의 모델을 훈련하는 데는 여전히 한계가 있습니다. 우리는 해야 합니다:

대규모 컴퓨팅 클러스터13.
더 많은(그리고 더 나은) 하드웨어.
엄청난 파워.
새로운 알고리즘(예: 대규모 분산 교육용)을 지원합니다.

차세대 모델을 훈련하는 것은 단순히 더 많은 GPU를 위한 자금 확보의 문제가 아니라 여러 분야의 공학적 업적입니다. 이러한 복잡한 노력에는 시간이 걸립니다. 참고로 GPT-4는 GPT-3가 출시된 지 거의 3년이 지난 2023년 3월에 출시되었습니다.특히 33개월. 비슷한 타임라인에서 (더 길지는 않더라도) 10~100배의 규모 증가를 합리적으로 기대할 수 있습니다.

"규모가 커질 때마다 다른 혁신을 찾아야 합니다." - 에게 에르딜(에포크 AI)

AI 연구의 미래

이제 대규모 사전 학습의 상태에 대해 더 깊이 이해했으니, (순전히 이 논의의 목적을 위해) 사전 학습 연구가 갑자기 벽에 부딪힌다고 가정해 봅시다. 가까운 미래에 모델 기능이 전혀 개선되지 않더라도 AI 연구가 계속 빠르게 발전할 수 있는 방법은 여러 가지가 있습니다. 이러한 주제 중 일부(예: 합성 데이터)에 대해서는 이미 논의한 바 있습니다. 이 섹션에서는 현재 인기 있는 두 가지 주제에 초점을 맞추겠습니다:

대규모 언어 모델 시스템/에이전트.
추론 모델.

유용한 대규모 언어 모델링 시스템 구축

오늘날 대부분의 빅 언어 모델 기반 애플리케이션은 단일 모델 패러다임으로 실행됩니다. 즉, 하나의 빅 언어 모델에 작업을 전달하고 그 모델의 출력을 해당 작업에 대한 답으로 직접 사용하여 작업을 해결합니다(아래 참조).

이러한 시스템을 개선하려면(즉, 더 어려운 작업을 더 정확하게 해결하려면) 기본 모델의 기능을 개선하면 되지만, 이 접근 방식은 더 강력한 모델을 만드는 데 의존합니다. 대신 여러 개의 대규모 언어 모델을 결합한 대규모 언어 모델을 기반으로 시스템을 구축함으로써 단일 모델 패러다임을 뛰어넘을 수 있습니다.또는 기타 구성 요소-- 복잡한 작업을 해결합니다.

대규모 언어 모델링 시스템 기반. 빅 언어 모델 시스템의 목표는 복잡한 작업을 빅 언어 모델이나 다른 모듈로 더 쉽게 해결할 수 있는 작은 부분으로 분해하는 것입니다. 이 목표를 달성하기 위해 사용할 수 있는 두 가지 주요 전략이 있습니다(위 그림 참조):

작업 분석작업 자체를 개별적으로 해결할 수 있는 작은 하위 작업으로 나누고 나중에 합쳐서14 최종 답을 만들 수 있습니다.
링크(웹사이트)한 번의 호출이 아닌 대규모 언어 모델을 여러 번 순차적으로 호출하여 작업 또는 하위 작업을 해결합니다.

이러한 전략은 개별적으로 또는 함께 사용할 수 있습니다. 예를 들어 책을 요약하는 시스템을 구축하고자 한다고 가정해 보겠습니다. 이를 위해 먼저 책의 각 장을 요약하는 것으로 작업을 세분화할 수 있습니다. 여기서부터 할 수 있습니다:

작업을 더 작은 텍스트 덩어리로 더 세분화하여 요약합니다(예: 재귀적/계층적 분해와 유사).
예를 들어, 한 LM이 챕터의 모든 중요한 사실이나 정보를 추출하고 다른 LM이 이러한 주요 사실을 기반으로 챕터 요약을 생성하도록 하는 등 여러 LM 호출을 서로 연결합니다.

그런 다음 빅 언어 모델이 연결된 챕터 요약을 요약하여 전체 소설의 요약을 형성하도록 함으로써 이러한 결과를 집계할 수 있습니다. 대부분의 복잡한 작업을 해결하기 쉬운 간단한 부분으로 분해할 수 있다는 사실은 이러한 빅 언어 모델링 시스템을 매우 강력하게 만듭니다. 더 광범위한 분해와 연결을 수행하면 이러한 시스템은 매우 복잡해질 수 있으므로 응용 AI 연구의 흥미로운(그리고 영향력 있는) 영역이 될 수 있습니다.

빅 언어 모델을 기반으로 제품을 구축하세요.빅 언어 모델의 성공과 인기에도 불구하고 빅 언어 모델의 실제(그리고 널리 채택된) 사용 사례의 수는 아직 매우 적습니다. 오늘날 빅 언어 모델의 가장 큰 사용 사례는 코드 생성과 채팅이며, 두 가지 모두 빅 언어 모델을 비교적 명확하게 적용하는 분야입니다15(아래 참조).

(출처)

대규모 언어 모델링의 적용 분야는 매우 다양합니다.대규모 언어 모델을 기반으로 보다 진정으로 유용한 제품을 구축하는 것은 응용 AI 연구의 중요한 영역입니다.. 이미 매우 강력한 모델을 사용할 수 있지만, 이를 사용하여 가치 있는 제품을 구축하는 것은 완전히 다른 문제입니다. 이 문제를 해결하려면 안정적이고 강력한 대규모 언어 모델링 시스템을 구축하는 방법을 배워야 합니다.

(출처 [19])

에이전트. AI 커뮤니티에서 '에이전트'라는 용어가 과도하게 사용되면서 빅 언어 모델링 시스템과 에이전트 사이의 경계가 모호해졌습니다. 하지만 우리가 이해해야 할 핵심 개념은 다음과 같습니다.빅 언어 모델 시스템은 흥미롭고 의미 있는 다양한 방식으로 확장할 수 있습니다.예를 들어, 문제를 풀 때 도구(예: 계산기, 검색 엔진 등)를 사용하는 방법을 가르침으로써 빅 언어 모델을 향상시킬 수 있습니다(위 참조). 예를 들어, 문제를 해결할 때 도구(예: 계산기, 검색 엔진 등)를 사용하는 방법을 가르침으로써 빅 언어 모델을 향상시킬 수 있습니다(위 참조). 또한 LM이 자체 프로그램을 실행하거나 호텔 예약이나 이메일 전송과 같은 작업을 대신 수행할 수 있도록 할 수도 있습니다. 빅 모델과 통합할 수 있는 많은 모듈과 도구는 더욱 강력하고 유용한 빅 모델 시스템을 구축할 수 있는 무한한 가능성을 제공합니다.

견고성는 더 강력한 빅 언어 모델/에이전트 시스템을 구축하는 데 가장 큰 장애물 중 하나입니다. 빅 언어 모델에 대해 10개의 서로 다른 호출을 하는 빅 언어 모델 시스템이 있다고 가정해 봅시다. 또한 빅 언어 모델에 대한 각 호출의 성공 확률이 95%이고 올바른 최종 출력을 생성하기 위해 모든 호출이 성공해야 한다고 가정해 봅시다. 시스템의 개별 구성 요소는 상당히 정확하지만그러나 전체 시스템의 성공률은 60%에 불과합니다.!

(출처 [20])

이 문제는 구성 요소를 더 추가할수록 기하급수적으로 악화되어 구축할 수 있는 대규모 언어 모델/에이전트 시스템의 복잡성이 제한됩니다. 더 복잡한 시스템을 구축하려면 각 개별 시스템 구성 요소의 견고성을 획기적으로 개선해야 합니다. 최근 연구에 따르면 견고성은 확장을 통해 개선될 수 있습니다. 그러나 더 나은 메타 생성 알고리즘을 통해 견고성을 개선할 수도 있습니다(위 참조). 이러한 알고리즘은 대규모 언어 모델에서 개별 출력을 생성하는 대신 병렬 디코딩, (단계 수준) 유효성 검사, 주석 달기 등의 아이디어를 사용하여 대규모 언어 모델에서 보다 세분화되고 정확한 출력을 얻습니다.

(출처 [20])

이 연구 분야는 빠르게 성장하고 있으며 AI 연구 발전의 핵심 동력이 될 가능성이 높습니다. 이 주제에 대한 심층적인 조사는 [20]을 참조하세요. 메타 생성 알고리즘이 개선됨에 따라 대규모 언어 모델이 더욱 견고해지고 점점 더 복잡한 대규모 언어 모델/에이전트 시스템을 구축할 수 있게 될 것입니다.

추론 모델과 새로운 확장 패러다임

초기의 빅 언어 모델에 대한 일반적인 비판은 단순히 데이터를 암기하고 추론하는 능력이 거의 없다는 것이었습니다. 그러나 빅 언어 모델이 추론 능력이 없다는 주장은 지난 몇 년 동안 크게 반박되었습니다. 최근의 연구를 통해 이러한 모델에는 항상 추론 능력이 내재되어 있을 수 있지만, 이러한 능력을 이끌어내기 위해서는 적절한 단서나 훈련 방법을 사용해야 한다는 사실이 밝혀졌습니다.

생각의 사슬(CoT) 팁 [22]는 대규모 언어 모델의 추론 기능을 입증한 최초의 기술 중 하나였습니다. 이 방법은 간단하고 단서 기반입니다. 실제 응답을 생성하기 전에 빅 언어 모델에 응답에 대한 설명을 제공하도록 요청하기만 하면 됩니다(자세한 내용은 여기를 참조하세요). 빅 언어 모델의 추론 능력은 응답에 도달하는 데 사용된 단계별 프로세스를 설명하는 근거를 생성할 때 크게 향상됩니다. 또한 이러한 설명은 사람이 읽을 수 있으며 모델의 출력을 더 해석하기 쉽게 만들 수 있습니다!

(출처 [22])

사고 사슬의 개념은 다재다능하고 강력합니다. 실제로 사고 사슬은 대규모 언어 모델의 추론 능력을 향상시키는 핵심 개념이 되었으며, 이 기술은 여러 가지 방식으로 용도가 변경되는 것을 보았습니다:

대규모 언어 모델 - 심사 평가 모델은 일반적으로 최종 평가 결과를 생성하기 전에 채점의 기초를 제공합니다[23, 24].
더 나은 사고 사슬을 작성하기 위해 소규모/개방형 언어 모델을 가르치기 위한 감독된 미세 조정 및 교육 조정 전략이 제안되었습니다[25, 26].
대규모 언어 모델은 종종 자신의 산출물을 반영하고 의견을 제시하거나 검증한 다음 이 정보를 기반으로 산출물을 수정하도록 요청받습니다[12, 27].

복잡한 추론은 활발한 연구 주제이며 빠르게 발전하고 있습니다. 대규모 언어 모델에 (단계별) 검증[28, 29]을 추론 과정에 통합하도록 가르치는 새로운 학습 알고리즘은 유망한 결과를 보여주었으며, 새롭고 더 나은 학습 전략이 제공됨에 따라 계속해서 개선될 것으로 보입니다.

OpenAI의 o1 추론 모델 [21]은 빅 언어 모델의 추론 능력에서 중요한 도약을 의미합니다. o1은 사고의 연쇄를 기반으로 하는 추론 전략을 사용합니다. 인간이 질문에 대답하기 전에 생각하는 방식과 유사하게, o1은 응답을 제공하기 전에 '생각'하는 데 시간이 걸립니다. 사실, o1이 생성하는 '사고'는 모델이 문제에 대해 생각하고, 문제를 더 간단한 단계로 나누고, 문제 해결을 위한 다양한 접근 방식을 시도하고, 심지어 자신의 실수를 수정하는 데 사용하는 긴 생각의 사슬입니다.16 o1은 또한 모델이 문제에 대해 생각할 때 사용하는 '생각의 사슬'입니다.

"OpenAI o1은 강화 학습을 사용하여 복잡한 추론을 수행하도록 훈련된 새로운 대규모 언어 모델입니다. o1은 대답하기 전에 먼저 생각하며, 사용자에게 응답하기 전에 긴 내부 생각의 사슬을 생성할 수 있습니다." - 출처 [21]

o1의 정확한 학습 전략에 대한 자세한 내용은 공개적으로 공유되지 않았습니다. 그러나 o1은 "데이터를 매우 효율적으로 사용하는" "대규모 강화 학습" 알고리즘을 사용하여 추론을 학습하고 유용한 사고의 사슬을 생성하는 모델의 능력을 향상시키는 데 중점을 둔다는 것은 알고 있습니다. OpenAI 연구원들의 공개적인 의견과 o1에 대한 최근 성명서에 따르면 이 모델은 순수 강화 학습을 사용하여 훈련된 것으로 보이며, 이는 추론에 어떤 형태의 트리 검색을 사용했을 수 있다는 이전의 제안과 모순됩니다.

추론이 많은 작업에서 GPT-4o와 o1의 비교(출처 [21])

앞서 언급했듯이 o1은 복잡한 추론 작업에서 인상적인 성능을 발휘합니다. o1은 거의 모든 추론이 많은 작업에서 GPT-4o보다 성능이 뛰어납니다(위 참조). o1의 추론 능력을 보여주는 예로, 모델:

코드포스의 경쟁 프로그래밍 문제에서 상위 89%.
미국 수학 올림피아드(AIME) 예선전에서 미국 내 상위 500명 안에 드는 학생.
대학원 수준의 물리학, 생물학 및 화학 문제(GPQA)에서 인간 박사 과정 학생의 정확도를 능가합니다.

(출처 [22])

o1에서 o3까지. o1 가장 흥미로운 측면 중 하나는 추론할 때 더 많은 계산을 사용함으로써 모델의 추론 능력을 향상시킬 수 있다는 것입니다. 점점 더 복잡해지는 문제를 해결하기 위해 모델은 단순히 더 긴 생각의 사슬을 생성할 수 있습니다(예는 여기를 참조하세요). 추론할 때 더 많은 계산을 사용하여 이러한 긴 생각의 사슬을 생성하면 모델의 추론 성능을 원활하게 향상시킬 수 있습니다(아래 참조).

"더 많은 강화 학습(훈련 중 계산)과 더 많은 사고 시간(테스트 중 계산)을 통해 o1의 성능이 계속 향상되고 있음을 발견했습니다." - 출처 [22]

마찬가지로 위의 그래프에서 강화 학습을 통해 학습에 더 많은 연산량을 투자할수록 o1의 성능이 원활하게 향상되는 것을 볼 수 있습니다. 이것이 바로 o3 추론 모델을 만드는 데 사용된 접근 방식입니다. 이 모델은 2024년 말 OpenAI의 평가를 마쳤으며, 아직 o3에 대한 세부 정보는 거의 공개되지 않았습니다. 그러나 o1 이후 3개월 만에 모델이 출시되었다는 점을 고려할 때, o3는 강화 학습에 더 많은 연산이 투자된 o1의 "확장된" 버전일 가능성이 높습니다.

(출처)

글을 쓰는 시점에서 o3 모델은 아직 출시되지 않았지만, o1을 확장하여 달성한 결과는 인상적입니다(경우에 따라서는 충격적일 수도 있습니다). o3의 가장 주목할 만한 성과는 다음과 같습니다:

는 ARC-AGI 벤치마크에서 87.5%를 기록했는데, GPT-4o의 정확도는 5%였습니다. o3는 ARC-AGI에서 인간 수준의 성능인 85%를 넘어선 최초의 모델입니다. 이 벤치마크는 AGI의 '북극성'으로 불리며 5년 넘게 무패 행진을 이어오고 있습니다17 .
SWE-Bench Verified에서 71.7%의 정확도와 Codeforces에서 2727점의 Elo 점수를 기록한 o3는 전 세계 상위 200명의 인간 경쟁 프로그래머 중 한 명으로 꼽힙니다.
에포크AI의 프론티어매쓰 벤치마크에서 25.2%의 정확도를 기록했습니다.이전 2.0%보다 향상된 최신 정확도테렌스 타오는 이 벤치마크를 "매우 어렵고" "적어도 몇 년 동안은" AI 시스템으로 풀 수 없을 것이라고 설명했습니다. 테렌스 타오는 이 벤치마크를 "매우 어렵고" "적어도 몇 년 동안은" AI 시스템으로 풀 수 없을 것이라고 설명했습니다.

o3-mini라는 라이트 버전도 미리 공개되었는데, 이 버전은 성능이 매우 우수하고 계산 효율성이 크게 향상되었습니다.

(출처 [21] 및 다음은 다음과 같습니다.)

새로운 확장 패러다임.이 개요를 읽고 나면 o1과 o3에서 제공하는 많은 다이어그램(위 참조)이 익숙하게 보일 것입니다.이는 로그 스케일 플롯으로, 계산량이 증가함에 따라 성능이 부드럽고 선형적으로 증가하는 것을 볼 수 있습니다.! 다시 말해, 이러한 추론 모델의 성능과 두 가지 다른 수량 간에 명확한 거듭제곱 법칙 관계가 있음을 알 수 있습니다:

교육 시간(집중 학습) 계산.
추론할 때 계산합니다.

O1 스타일 모델의 확장은 기존의 크기 법칙과는 다릅니다. 사전 학습 프로세스를 확장하는 대신 사후 학습 및 추론에 투입되는 연산량을 확장합니다.완전히 새로운 확장 패러다임입니다.지금까지 추론 모델을 확장하여 얻은 결과는 매우 좋았습니다. 이러한 결과는 사전 학습을 넘어서는 다른 확장 방법이 분명히 존재한다는 것을 시사합니다. 추론 모델의 등장으로 우리는 다음 단계로 넘어야 할 산을 발견했습니다. 다양한 형태로 나타날 수 있지만Scale은 AI 연구의 발전을 계속 주도할 것입니다..

결론

이제 규모의 법칙과 대규모 언어 모델에 미치는 영향, 그리고 앞으로의 AI 연구 방향에 대해 더 명확하게 파악할 수 있게 되었습니다. 지금까지 살펴본 바와 같이 최근 규모의 법칙에 대한 비판에는 여러 가지 원인이 있습니다:

규모의 법칙의 자연스러운 붕괴.
대규모 언어 모델링 역량에 대한 기대치는 상당히 다양했습니다.
대규모의 학제 간 엔지니어링 작업의 지연.

이러한 질문은 다음과 같은 정당한 질문입니다.그러나 이들 중 어느 것도 스케일링이 여전히 예상대로 작동하지 않는다는 것을 나타내지 않습니다.. 대규모 사전 교육에 대한 투자는 계속될 것이며, 또 그래야 하지만 시간이 지날수록 개선은 점점 더 어려워질 것입니다. 따라서 다른 개발 방향(예: 에이전트 및 추론)이 더욱 중요해질 것입니다. 그러나 이러한 새로운 연구 분야에 투자하는 과정에서 확장이라는 기본 개념은 계속해서 큰 역할을 할 것입니다. 계속 확장할지 여부는 문제가 되지 않습니다.진짜 문제는 다음에 무엇을 확장할 것인가입니다..

참고 문헌

[1] 카플란, 자레드 외. "신경 언어 모델의 스케일링 법칙." arXiv 프리프린트 arXiv:2001.08361 (2020).

[2] 래드포드, 알렉. "생성적 사전 교육을 통한 언어 이해도 향상." (2018).

[3] Radford, Alec 외. "언어 모델은 감독되지 않은 멀티태스크 학습자입니다." OpenAI 블로그 1.8 (2019): 9.

[4] 브라운, 톰 외. "언어 모델은 소수의 학습자." 신경 정보 처리 시스템의 발전 33 (2020): 1877-1901.

[5] Achiam, Josh 외. "Gpt-4 기술 보고서." arXiv 프리프린트 arXiv:2303.08774 (2023).

[6] 호프만, 조던 외. "컴퓨팅 최적 대규모 언어 모델 훈련." arXiv 사전 인쇄물 arXiv:2203.15556 (2022).

[7] 가드레, 사미르 이츠하크 외. "언어 모델은 과도한 학습과 다운스트림 작업에서 안정적으로 확장됩니다." arXiv 프리프린트 arXiv:2403.08540 (2024).

[8] 오우양, 롱 외. "사람의 피드백을 통해 지침을 따르도록 언어 모델 훈련하기." 신경 정보 처리 시스템의 발전 35 (2022): 27730-27744.

[9] 스미스, 샤든 외. "딥스피드와 메가트론을 사용하여 대규모 생성 언어 모델인 메가트론 튜링 nlg 530b를 훈련하기." arXiv 프리프린트 arXiv:2201.11990 (2022).

[10] Rae, Jack W. 외. "언어 모델 확장: 고퍼 훈련의 방법, 분석 및 인사이트." arXiv 프리프린트 arXiv:2112.11446 (2021).

[11] 바기아, 악시타 외. "컴퓨팅 효율적인 모델 사다리를 통한 작업 확장 법칙 수립." arXiv 사전 인쇄물 arXiv:2412.04403 (2024).

[12] 바이, 윤타오 외. "헌법적 인공지능: 인공지능 피드백의 무해성." arXiv 사전 인쇄물 arXiv:2212.08073 (2022).

[13] 블레이니. Cody."데이터로 기쁨을 느끼시나요? 학습 종료 시 도메인 업샘플링을 통한 성능 향상." arXiv 사전 인쇄물 arXiv:2406.03476 (2024).

[14] Chen, Hao 외. "합성 데이터의 다양성과 대규모 언어 모델 훈련에 미치는 영향." arXiv 사전 인쇄물 arXiv:2410.15226 (2024).

[15] 구오, 지산 외. "대규모 언어 모델 평가: 종합적인 설문조사." arXiv 프리프린트 arXiv:2310.19736 (2023).

[16] 쉬, 지페이 외. "학습 후 정량화된 대규모 언어 모델을 위한 스케일링 법칙." arXiv 사전 인쇄물 arXiv:2410.12119 (2024).

[17] 시옹, 이저 외. "대규모 언어 모델을 위한 시간적 스케일링 법칙." arXiv 프리프린트 arXiv:2404.17785 (2024).

[18] DeepSeek-AI 외. "DeepSeek-v3 기술 보고서." https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf (2024).

[19] Schick, Timo 외. "Toolformer: 언어 모델은 스스로 도구 사용법을 배울 수 있습니다." arXiv 사전 인쇄본 arXiv:2302.04761 (2023).

[20] 웰렉, 숀 외. "디코딩에서 메타 생성까지: 대규모 언어 모델을 위한 참조 시간 알고리즘." arXiv 프리프린트 arXiv:2406.16838 (2024).

[21] OpenAI 외. "LLM으로 추론하는 법 배우기." https://openai.com/index/learning-to-reason-with-llms/ (2024).

[22] 웨이, 제이슨 외. "대규모 언어 모델에서 추론을 유도하는 연쇄적 사고 프롬프트." 신경 정보 처리 시스템의 발전 35 (2022): 24824-24837.

[23] Liu, Yang 외. "G-eval: 더 나은 인간 정렬을 갖춘 gpt-4를 사용한 Nlg 평가." arXiv 프리프린트 arXiv:2303.16634 (2023).

[24] 김승원 외, "Prometheus: 언어 모델에서 세분화된 평가 기능 유도." 제12회 학습 표현에 관한 국제 컨퍼런스 . 2023.

[25] 호남규, 로라 슈미드, 윤세영. "대규모 언어 모델은 추론하는 교사다." arXiv 사전 인쇄물 arXiv:2212.10071 (2022).

[26] 김승원 외. "코트 컬렉션: 생각의 사슬 미세 조정을 통한 언어 모델의 제로 샷 및 소수 샷 학습 개선." arXiv 사전 인쇄물 arXiv:2305.14045 (2023).

[27] "대규모 언어 모델은 자기 검증을 통해 더 나은 추론자가 됩니다." arXiv 프리프린트 arXiv:2212.09561 (2022).

[28] Lightman, Hunter 외. "단계별로 검증해 봅시다." arXiv 프리프린트 arXiv:2305.20050 (2023).

[29] "생성 검증자: 다음 토큰 예측을 통한 보상 모델링." arXiv 프리프린트 arXiv:2408.15240 (2024).

1 두 가지 주요 보고서는 더 인포메이션과 로이터 통신의 기사입니다.

2 다음 설정을 사용하여 도면을 생성했습니다:a = 1(수학.) 속p = 0.5평화 0 < x < 1.

3 계산은 [1]에서 다음과 같이 정의됩니다. 6NBS어느 N 는 모델 파라미터의 수입니다.B 는 교육 중에 사용되는 배치 크기입니다.S 는 총 훈련 단계 수입니다.

4 이 추가 곱셈 상수는 거듭제곱 법칙의 동작을 변경하지 않습니다. 그 이유를 이해하려면 스케일 불변성의 정의를 이해해야 합니다. 거듭제곱 법칙은 척도 불변이기 때문에, 척도를 몇 배로 늘리거나 줄이더라도 거듭제곱 법칙의 기본 특성은 동일합니다. 관찰되는 동작은 어떤 규모에서도 동일합니다!

5 이 설명은 일리야가 NeurIPS'24에서 이 논문으로 받은 테스트 오브 타임 어워드에서 발췌한 것입니다.

6 지금은 당연해 보일 수도 있지만, 당시에는 대부분의 NLP 작업(예: 요약 및 Q&A)에는 해당 작업 전용 연구 도메인이 있었다는 점을 기억해야 합니다! 이러한 각 작업에는 해당 작업을 수행하기 위해 특화된 작업별 아키텍처가 연관되어 있었고, GPT는 여러 다른 작업에서 이러한 아키텍처의 대부분을 능가하는 단일 일반 모델이었죠.

7 즉, 빅 언어 모델의 프롬프트에서 각 작업을 간단히 설명하고 동일한 모델을 사용하여 다른 작업을 해결합니다.작업 간 변경 메시지만 표시.

8 이러한 모델은 제로 샘플 추론을 사용하며 다운스트림 작업에서 전혀 미세 조정되지 않으므로 이는 예상되는 현상입니다.

9 '긴급' 기능이란 특정 규모(예: 충분히 큰 모델)에 도달한 대형 언어 모델에서만 사용할 수 있는 기술을 의미합니다.

10 여기서 '계산상 최적'이란 고정된 훈련 계산 비용으로 최고의 성능(테스트 손실 측면에서)을 내는 훈련 설정으로 정의합니다.

11 예를 들어 Anthropic은 계속 출시가 지연되고 있습니다. Claude 3.5 Opus에서 구글은 Gemini-2의 플래시 버전만 출시했고, OpenAI는 2024년(12월에 o1과 o3가 출시될 때까지)에야 GPT-4보다 훨씬 더 성능이 떨어지는 GPT-4o를 출시했습니다.

12 단일 토큰을 추론하는 동안 370억 개의 매개변수만 활성화됩니다.

13 예를 들어, xAI는 최근 멤피스에 100,000개의 엔비디아 GPU를 갖춘 새로운 데이터센터를 구축했으며, 앤트로픽의 리더십은 향후 몇 년 동안 컴퓨팅 지출을 100배로 늘릴 계획입니다.

14 집계 단계는 여러 가지 방법으로 구현할 수 있습니다. 예를 들어 연결을 통해 수동으로 응답을 집계하거나, 대규모 언어 모델을 사용하거나, 그 사이의 모든 방법으로 응답을 집계할 수 있습니다!

15 이러한 작업이 간단해서가 아닙니다. 코드 생성과 채팅은 모두 해결하기 어렵지만, 빅 언어 모델의 (거의 틀림없이) 상당히 명백한 응용 분야입니다.

16OpenAI는 이러한 긴 사고의 사슬을 o1 사용자에게 숨기기로 결정했습니다. 이러한 선택의 배경에는 이러한 기본 사항이 모델을 디버그하거나 모니터링하는 데 사용할 수 있는 모델의 사고 과정에 대한 통찰력을 제공한다는 논거가 있습니다. 그러나 모델은 사용자 대면 모델 출력에 필요한 보안 필터 없이 순수한 생각을 표현할 수 있어야 합니다.

17 현재 ARC-AGI는 벤치마킹을 위한 계산 요구 사항을 초과하는 o3로 인해 기술적으로 무적 상태입니다. 그러나 이 모델은 더 낮은 계산 설정을 사용하여도 75.7%의 정확도를 달성합니다.