OpenAI의 차세대 모델이 큰 병목현상에 부딪히자, 전 수석 과학자가 새로운 경로를 공개합니다.

30.4K 00

OpenAI의 차세대 대규모 언어 모델인 Orion이 전례 없는 병목 현상에 부딪히고 있는 것으로 보입니다. The Information에 따르면 OpenAI 직원들은 Orion 모델의 성능 향상이 기대에 미치지 못했으며, 품질 향상이 GPT-3에서 GPT-4로의 업그레이드에 비해 "훨씬 적다"고 말합니다.

또한 Orion은 특정 작업에서 이전 버전인 GPT-4만큼 안정적이지 않습니다. Orion의 언어 기능은 더 뛰어나지만 프로그래밍 성능은 GPT-4를 능가하지 못할 수 있습니다. 고품질 텍스트 및 기타 데이터를 학습하기 위한 리소스가 줄어들면서 고품질 학습 데이터를 찾기가 더 어려워져 대규모 언어 모델(LLM)의 개발 속도가 느려졌습니다.

뿐만 아니라 향후 학습은 비용과 전력 측면에서 훨씬 더 계산 집약적일 것이며, 이는 오리온 및 후속 빅 언어 모델 개발 비용이 크게 증가한다는 것을 의미합니다. 오픈AI의 연구원 노암 브라운은 최근 TED AI 컨퍼런스에서 더 진보된 모델은 '경제적으로 실현 불가능할 수 있다'고 말했습니다:

정말 수천억, 수조 원을 들여 모델을 트레이닝해야 할까요? 언젠가는 스케일링의 법칙이 무너질 것입니다.

OpenAI는 학습 데이터의 희소성 증가에 대처하는 방법과 빅 모델의 확장 법칙이 얼마나 오래 지속될지 살펴보기 위해 Nick Ryder가 이끄는 파운데이션 팀을 구성했습니다.

노암 브라운

스케일링 법칙은 AI의 핵심 가정 중 하나로, 학습 가능한 데이터와 학습 프로세스를 구동할 수 있는 연산 능력이 더 많으면 대규모 언어 모델의 성능은 동일한 속도로 계속 향상될 수 있다는 것입니다. 간단히 말해, 스케일링 법칙은 리소스 입력(데이터 양, 연산 능력, 모델 크기)과 모델 성능 출력 간의 관계를 설명합니다. 즉, 대규모 언어 모델에 더 많은 리소스를 투자할 때 성능이 향상되는 정도를 나타냅니다.

예를 들어 대규모 언어 모델 학습은 자동차 생산에 비유할 수 있는데, 처음에는 기계 몇 대와 작업자 몇 명만 있는 소규모 공장에서는 기계나 작업자가 추가될 때마다 추가 자원이 생산성으로 직결되기 때문에 생산량이 크게 증가합니다. 그러나 공장의 규모가 커지면 관리 복잡성이 증가하거나 작업자의 협업 효율이 떨어지기 때문에 추가 기계 또는 작업자당 생산량 증가가 감소합니다.

공장이 일정 규모에 도달하면 기계나 작업자를 더 추가해도 생산량 증가에 한계가 있을 수 있으며, 이 시점에서 공장은 토지 공급 및 물류와 같은 자원의 한계에 가까워질 수 있습니다. 이 시점에서 공장은 토지, 전력 공급, 물류 등 자원의 한계에 다다를 수 있으며, 더 이상의 투자는 더 이상 생산 능력의 증가를 가져올 수 없습니다. 이것이 바로 오리온의 모델이 직면한 딜레마입니다. 모델의 규모가 커질수록(기계와 작업자를 더 추가하는 것과 유사) 초기 및 중기 단계에서는 모델의 성능 개선이 매우 크지만 후기 단계에서는 모델 크기나 학습 데이터의 양을 늘려도 성능 개선이 작아지는 것입니다. 이를 '벽에 부딪히기'라고 합니다.

arXiv의 한 논문에 따르면, 공공 인간 텍스트 데이터에 대한 수요 증가와 제한된 가용성으로 인해 2026년부터 2032년 사이에 빅 언어 모델 개발로 인해 공공 인간 텍스트 자원이 고갈될 수 있다고 예측했습니다. 향후 모델 훈련에 '경제적 문제'가 있다는 지적에도 불구하고, 노먼 브라운은 'AI의 발전이 조만간 둔화되지는 않을 것'이라고 주장하며 이에 반박하고 있습니다.

OpenAI의 연구원들은 일반적으로 이러한 견해를 공유하며, 스케일링 법칙의 속도가 느려질 수는 있지만 추론 시간을 최적화하고 학습 후 개선을 통해 전반적인 AI 개발에는 큰 영향을 미치지 않을 것입니다.Meta CEO Mark Zuckerberg, OpenAI CEO Sam Altman 및 기타 AI 개발자 CEO들도 스케일링 법칙의 전통적인 한계에 아직 도달하지 않았으며 사전 학습된 모델의 성능을 개선하기 위해 여전히 고가의 데이터 센터를 개발하고 있다고 공개적으로 밝혔습니다.

OpenAI의 제품 담당 부사장 피터 웰린더는 소셜 미디어를 통해 '사람들은 테스트 시간 계산의 힘을 과소평가한다'고 말했습니다. 테스트 시간 계산(TTC)은 머신 러닝 개념으로, 훈련 중에 발생하는 계산과는 별도로 새로운 입력 데이터에 대한 추론이나 예측을 위해 모델을 배포할 때 발생하는 계산을 말합니다. 학습 단계는 모델이 데이터의 패턴을 학습하는 과정이고, 테스트 단계는 모델이 실제 작업에 적용되는 과정입니다.

기존의 머신러닝 모델은 일반적으로 학습을 마치고 배포된 후에는 추가 계산 없이 새로운 데이터 인스턴스를 예측합니다. 그러나 특정 유형의 딥러닝 모델과 같이 일부 더 복잡한 모델은 테스트 시간(추론 시간)에 추가 계산이 필요할 수 있습니다. OpenAI에서 개발한 'o1' 모델은 이러한 유형의 추론 패턴을 사용합니다. AI 업계 전반적으로 초기 학습이 완료되면 모델의 최적화 단계로 초점을 옮기고 있습니다.

피터 웰린더

OpenAI의 공동 창립자 중 한 명인 일리아 수츠케버는 최근 로이터와의 인터뷰에서 언어 패턴과 구조를 이해하기 위해 라벨링되지 않은 대량의 데이터를 사용하여 AI 모델을 훈련시키는 사전 훈련 단계의 효과 개선이 정체기에 접어들었음을 인정했습니다. "2010년대는 확장의 시대였다면, 이제 우리는 다시 탐색과 발견의 시대로 돌아가고 있습니다."라고 그는 말했습니다. 또한 그는 "정확도를 향상시키는 것이 그 어느 때보다 중요하다"고 언급했습니다.

오리온은 2025년에 출시될 예정이며, OpenAI는 'GPT-5'가 아닌 '오리온'이라는 이름을 붙여 완전히 새로운 혁명을 암시하고 있습니다. 이론적 한계로 인해 현재는 '생산이 어려운' 상태이지만, 이 새로운 이름의 '신생아'가 AI 매크로 모델링에 혁신적인 기회를 가져올 것으로 기대됩니다.