일리야 수츠케버가 NeurIPS에서 폭발하며 선언: 사전 교육이 끝나고 데이터 압박이 끝났다고 선언합니다.

AI 뉴스9개월 전 업데이트 AI 공유 서클
9.4K 00

추론은 예측할 수 없으므로 놀랍고 예측할 수 없는 AI 시스템으로 시작해야 합니다.

일리야가 드디어 모습을 드러냈고, 그는 등장하자마자 놀라운 이야기를 들려주었습니다. 금요일, OpenAI의 전 수석 과학자였던 일리아 수츠케버는 글로벌 AI 서밋에서 "우리가 얻을 수 있는 데이터의 한계에 도달했고, 더 이상은 없을 것"이라고 말했습니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
OpenAI의 공동 창립자이자 전 수석 과학자였던 일리야 수츠케버는 올해 5월 회사를 떠나 자신의 AI 연구소인 세이프 슈퍼인텔리전스를 설립하면서 화제를 모았습니다. 그는 OpenAI를 떠난 후 언론에 모습을 드러내지 않았지만 이번 금요일 밴쿠버에서 열린 신경 정보 처리 시스템 컨퍼런스인 NeurIPS 2024에서 드물게 공개 석상에 모습을 드러냈습니다.

 

"우리가 알고 있는 사전 교육은 의심할 여지없이 끝날 것입니다."라고 Sutskever는 단상에서 말했습니다.

인공 지능 분야에서는 최근 몇 년 동안 BERT, GPT와 같은 대규모 사전 학습 모델이 큰 성공을 거두며 기술 발전의 이정표가 되었습니다.

복잡한 사전 학습 목표와 방대한 모델 파라미터로 인해 대규모 사전 학습을 통해 라벨링된 데이터와 라벨링되지 않은 대량의 데이터에서 지식을 효율적으로 캡처할 수 있습니다. 지식을 거대한 매개변수에 저장하고 특정 작업에 맞게 미세 조정하면 거대한 매개변수에 암시적으로 인코딩된 풍부한 지식이 다양한 다운스트림 작업에 도움이 될 수 있습니다. 이제 AI 커뮤니티의 합의는 모델을 처음부터 학습하는 대신 사전 학습을 다운스트림 작업의 중추로 채택하는 것입니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
그러나 일리야 수츠케버는 NeurIPS 강연에서 기존 데이터가 여전히 AI를 구동할 수 있지만, 업계에서 사용 가능하다고 할 만한 새로운 데이터가 거의 고갈되고 있다고 말했습니다. 그는 이러한 추세는 결국 업계가 현재 모델을 학습시키는 방식을 바꾸지 않을 수 없게 만들 것이라고 언급했습니다.

수츠케버는 이러한 상황을 화석 연료의 고갈에 비유합니다. 석유가 유한한 자원인 것처럼 인터넷에서 인간이 만든 콘텐츠도 마찬가지입니다.

"우리는 데이터의 정점에 도달했고 더 이상 데이터는 없습니다."라고 서츠케버는 말합니다. "인터넷이 하나밖에 없기 때문에 현재 사용 가능한 데이터를 활용해야 합니다."

수츠케버는 차세대 모델이 '진정한 의미의 자율성을 발휘할 것'이라고 예측합니다. 한편 에이전트는 AI 업계에서 유행어가 되었습니다.

그는 미래의 시스템은 '자율적'일 뿐만 아니라 추론할 수 있는 능력도 갖추게 될 것이라고 언급했습니다. 패턴 매칭(모델이 이전에 본 것을 기반으로)에 크게 의존하는 오늘날의 AI와 달리 미래의 AI 시스템은 '사고'와 유사한 방식으로 문제를 단계적으로 해결할 수 있게 될 것입니다.

수츠케버는 시스템이 더 많은 추론을 할 수 있을수록 그 행동은 더 '예측 불가능'해진다고 말합니다. 그는 '실제 추론 능력을 갖춘 시스템'의 예측 불가능성을 체스에서 '최고의 인간 플레이어조차도 자신의 수를 예측할 수 없는' 고급 AI의 성능과 비교합니다.

이러한 시스템은 제한된 데이터에서 사물을 이해하고 혼동하지 않을 수 있습니다."라고 그는 말했습니다.

그는 강연에서 AI 시스템의 스케일링을 진화 생물학과 비교하며 다양한 종의 뇌와 몸무게 비율의 관계를 연구 사례로 들었습니다. 그는 대부분의 포유류는 특정 스케일링 패턴을 따르는 반면, 인간 계열(인간의 조상)은 대수적 스케일에서 뇌 대 신체 비율이 매우 다른 성장 추세를 보인다고 지적했습니다.

수츠케버는 진화가 인간의 두뇌를 위한 새로운 스케일링 패러다임을 발견한 것처럼, AI도 기존의 사전 학습 방법을 넘어 완전히 새로운 스케일링 경로를 발견할 수 있다고 제안합니다. 아래는 일리야 수츠케버의 강연 전문입니다: Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
이 상에 논문을 선정해 주신 학회 주최 측에 감사의 말씀을 드립니다(일리야 수츠케버 외의 Seq2Seq 논문이 NeurIPS 2024 타임 체크 상에 선정되었습니다). 정말 대단한 일이죠. 또한 바로 앞에 서 있는 저의 훌륭한 공동 저자인 오리올 빈얄스와 쿠옥 르에게도 감사의 말씀을 전하고 싶습니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
10년 전 몬트리올에서 열린 NIPS 2014에서도 비슷한 이야기가 나왔습니다. 훨씬 더 순수했던 때였죠. 여기에 우리가 사진에 나타납니다. 그건 그렇고, 저번이 마지막이고 아래는 이번입니다.

이제 우리는 더 많은 경험을 쌓았고 조금 더 현명해졌을 것입니다. 하지만 여기서는 운동 자체에 대해 이야기하고 10년을 회고하고 싶습니다. 운동의 많은 부분이 옳았지만 일부는 옳지 않았기 때문입니다. 우리는 그 당시를 되돌아보며 어떤 일이 일어났고 그것이 어떻게 우리를 지금의 위치로 이끌었는지 살펴볼 수 있습니다.
Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了 이제 우리가 한 일에 대해 이야기해 보겠습니다. 먼저 10년 전 같은 프레젠테이션의 슬라이드를 보여드리겠습니다. 세 가지 주요 요점으로 요약되어 있습니다. 텍스트로 학습된 자동 회귀 모델, 대규모 신경망, 대규모 데이터 세트, 그리고 그게 전부입니다.

이제 좀 더 자세히 살펴보겠습니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
다음은 10년 전의 슬라이드인 '딥러닝 가설'입니다. 여기서 말하는 것은 10개의 레이어로 구성된 대규모 신경망이 있다면 인간이 할 수 있는 모든 일을 순식간에 해낼 수 있다는 것입니다.
Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了 '인간이 순식간에 할 수 있는 일'을 강조하는 이유는 무엇일까요? 왜 이런 걸까요?

인공 뉴런이 생물학적 뉴런과 비슷하거나 적어도 크게 다르지 않다는 딥러닝 도그마를 믿고 실제 뉴런 세 개가 느리다고 믿는다면, 인간은 무엇이든 빠르게 처리할 수 있습니다. 심지어 세상에 단 한 사람만 존재한다면 말이죠. 세상에 단 한 사람이 순식간에 무언가를 할 수 있다면 10층으로 구성된 신경망도 할 수 있겠죠?

그런 다음, 이들의 연결을 인공 신경망에 삽입하기만 하면 됩니다.

모든 것은 동기에 관한 것입니다. 인간이 순식간에 할 수 있는 일은 10층으로 구성된 신경망도 할 수 있습니다.

10층 신경망에 집중한 이유는 그 당시에는 10층 신경망으로 훈련할 수 있었고, 그 수를 넘어설 수 있다면 더 많은 일을 할 수 있었기 때문입니다. 하지만 당시에는 10계층밖에 할 수 없었기 때문에 인간이 순식간에 할 수 있는 모든 것을 강조했습니다.

그 해의 다른 슬라이드는 두 가지를 식별할 수 있거나 적어도 한 가지를 식별할 수 있다는 우리의 주요 아이디어를 보여줍니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
도대체 무슨 내용인가요? 이 슬라이드는 실제로 무엇을 말하나요? 이 슬라이드에 따르면 자동 회귀 모델이 있고 이 모델이 다음 토큰 가 충분히 좋으면 실제로 다음에 나타나는 시퀀스의 정확한 분포를 파악하고 캡처하여 유지합니다.

비교적 새로운 기술이고 최초의 자동 회귀 신경망은 아니지만, 최초의 자동 회귀 신경망이라고 생각합니다. 잘만 훈련시키면 원하는 결과를 얻을 수 있다고 믿었습니다. 저희의 경우 지금은 보수적으로 보이는 기계 번역 작업이었지만 당시에는 매우 대담해 보였습니다. 이제 여러분 중 많은 분들이 한 번도 본 적이 없는 오래된 역사를 보여드리려고 하는데, 바로 LSTM입니다.

생소한 분들을 위해 설명하자면, LSTM은 딥러닝 연구 분야에서 트랜스포머 이전에는 어떻게 했나요?

기본적으로 ResNet이지만 90도 회전했기 때문에 LSTM입니다. LSTM은 약간 더 복잡한 ResNet과 같습니다. 적분기를 볼 수 있는데, 이제 잔류 스트림이라고 합니다. 하지만 곱셈이 진행 중입니다. 조금 복잡하지만 이것이 바로 우리가 하는 일입니다. 이것은 90도 회전한 ResNet입니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
이전 강연에서 제가 강조하고 싶었던 또 다른 핵심은 병렬화를 사용했지만 단순한 병렬화가 아니라는 점입니다.

파이프라이닝을 사용하여 신경망 레이어당 하나의 GPU를 할당했는데, 지금은 알다시피 현명한 전략은 아니지만 당시에는 그다지 현명하지 않았습니다. 그래서 파이프라이닝을 사용했고 8개의 GPU로 3.5배 더 빨라졌습니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
마지막 결론은 가장 중요한 슬라이드입니다. 스케일링 법칙의 시작이 무엇인지 설명합니다. 매우 큰 데이터 세트가 있고 매우 큰 신경망을 훈련한다면 성공은 보장됩니다. 관대하다면 실제로 그런 일이 일어나고 있다고 주장할 수도 있습니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
이제 제가 생각하는 또 다른 아이디어에 대해 말씀드리고자 합니다. 바로 딥러닝 자체의 핵심 아이디어입니다. 바로 연결주의라는 개념입니다. 이 아이디어는 인공 뉴런이 생물학적 뉴런과 비슷하다고 믿는다는 것입니다. 서로 조금씩 닮았다고 믿는다면 하이퍼스케일 신경망을 믿을 수 있다는 확신을 갖게 됩니다. 하이퍼스케일 신경망은 인간 두뇌의 크기보다 조금 더 작을 수는 있지만, 우리가 하는 거의 모든 일을 하도록 구성할 수 있습니다.

하지만 인간의 두뇌는 스스로 재구성하는 방법을 알아내고, 우리는 매개변수만큼 많은 데이터 포인트가 필요한 최고의 학습 알고리즘을 사용하고 있기 때문에 여전히 인간과는 차이가 있습니다. 인간은 이 작업을 훨씬 더 잘 수행합니다.
Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了  이 모든 것은 제가 '사전 교육 시대'라고 부르는 시대에 맞춰져 있습니다.

그리고 GPT-2 모델, GPT-3 모델, 스케일링 법칙, 그리고 이 모든 작업을 가능하게 해준 전 공동 작업자 Alec Radford와 Jared Kaplan, Dario Amodei의 노고를 특별히 언급하고 싶습니다.  Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了  이것이 바로 사전 학습의 시대이며, 오늘날 우리가 보고 있는 모든 발전, 즉 메가 뉴럴 네트워크, 방대한 데이터 세트로 학습된 메가 뉴럴 네트워크의 원동력이 되고 있습니다.

그러나 우리가 알고 있는 사전 교육 과정은 의심할 여지 없이 종료될 것입니다. 왜 끝날까요? 컴퓨터는 더 나은 하드웨어, 더 나은 알고리즘 및 로직 클러스터를 통해 계속 성장하고 있으며, 이러한 모든 것들이 컴퓨팅 성능을 계속 추가하고 있지만, 우리가 가진 것은 인터넷뿐이기 때문에 데이터가 증가하지 않고 있기 때문입니다.  Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
데이터는 AI의 화석 연료라고 말할 수도 있습니다. 특정 방식으로 생성된 데이터를 우리가 사용하고 있는 지금, 우리는 데이터의 활용을 극대화했으며 이보다 더 좋을 수는 없습니다. 우리는 지금 가지고 있는 데이터로 무엇을 해야 하는지 알아내야 합니다. 저는 여전히 그 작업을 계속하고 있고, 지금도 꽤 멀리 와 있지만 문제는 인터넷이 하나뿐이라는 것입니다.

그래서 저는 여기서 앞으로 일어날 일에 대해 추측을 해보려고 합니다. 사실 다른 많은 분들도 추측을 하고 계시니 제가 굳이 추측할 필요도 없고, 그분들의 추측을 언급하겠습니다.

  • '지능형 신체 에이전트'라는 말을 들어보셨을 텐데요, 꽤 흔한 말이며 언젠가는 사람들이 지능형 신체가 미래라고 느끼는 일이 일어날 것이라고 확신합니다.
  • 좀 더 구체적으로 말하면 합성 데이터라고도 할 수 있습니다. 그렇다면 합성 데이터란 무엇을 의미할까요? 이를 파악하는 것은 매우 어려운 일이며, 여러 사람들이 다양한 방식으로 흥미로운 진전을 이루고 있다고 확신합니다.
  • 추론 시간 계산도 있으며, 최근에는 사전 학습 후 사람들이 무엇을 해야 할지를 가장 생생하게 보여주는 (OpenAI의) o1 모델도 있습니다.

 

이 모든 것이 매우 좋은 일입니다. Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了
제가 정말 멋지다고 생각하는 생물학의 또 다른 예를 말씀드리고 싶어요. 수년 전 이 컨퍼런스에서 포유류의 몸 크기와 뇌 크기 사이의 관계를 보여주는 그래프를 보여주는 프레젠테이션을 본 적이 있습니다. 이 경우에는 엄청나게 컸습니다. 생물학에서는 모든 것이 혼란스럽지만 여기에는 동물의 몸 크기와 뇌 사이의 매우 강력한 관계에 대한 드문 예가 있습니다.

우연한 기회에 이 사진에 호기심이 생겼습니다.  Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了 그래서 Google에 가서 이미지로 검색했습니다.

이 그림에는 다양한 포유류와 영장류는 아니지만 대체로 같은 포유류와 원시인이 나열되어 있습니다. 제가 알기로 원시인은 네안데르탈인처럼 진화 과정에서 인간과 가까운 친척이었습니다. 예를 들어 '에너자이즈드 맨'이 있습니다. 흥미롭게도 그들은 뇌 대 신체 비율 지수의 경사가 다릅니다. 매우 흥미롭군요.

이것은 생물학이 어떤 종류의 다른 규모를 알아내는 경우가 있다는 것을 의미합니다. 분명히 뭔가 다른 것이 있습니다. 그건 그렇고,이 x 축은 로그 스케일이라는 점을 강조하고 싶습니다. 100, 1,000, 10,000, 100,000, 다시 그램, 1그램, 10그램, 100그램, 1킬로그램입니다. 따라서 상황이 달라질 수 있습니다.

우리가 지금 하고 있는 일, 지금까지 확장 측면에서 해온 일들을 보면 실제로 어떻게 확장할지가 최우선 과제라는 것을 알 수 있습니다. 이 공간에서 일하는 모든 사람이 무엇을 해야 할지 알아낼 것이라는 데는 의심의 여지가 없습니다. 하지만 저는 여기서 이에 대해 이야기하고 싶습니다. 잠시 시간을 내어 우리 모두가 직면하고 있는 장기적인 전망에 대해 말씀드리고자 합니다.  Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了 우리가 이루고 있는 모든 진전은 놀라운 진전입니다. 10년 전에 이 분야에서 일하셨던 분들은 모든 것이 얼마나 무력했는지 기억하실 겁니다. 지난 2년 동안 딥 러닝 분야에 종사해 본 사람이라면 아마 공감할 수 없을 것입니다.

'초지능'에 대해 조금 이야기하고 싶은 이유는 이 분야가 나아가고 있는 방향과 구축하고자 하는 것이 분명하기 때문입니다.

언어 모델은 현재 놀라운 기능을 가지고 있지만 다소 불안정한 측면도 있습니다. 이를 어떻게 조정할지는 아직 명확하지 않지만, 조만간 이러한 시스템이 진정한 의미의 지능이 될 것이라는 목표가 실현될 것입니다. 현재 이러한 시스템은 강력하고 의미 있는 지각 지능이 아니라 이제 막 추론하기 시작한 단계에 불과합니다. 그런데 시스템이 더 많이 추론할수록 예측할 수 없게 됩니다.

우리는 모든 딥러닝이 매우 예측 가능하다는 것에 익숙해져 있습니다. 0.1초의 반응 시간으로 돌아가 인간의 직관을 모방하는 작업을 해왔다면, 우리 뇌는 어떤 종류의 처리를 할까요? 바로 직관인데, 저희는 AIS에 이러한 직관의 일부를 부여했습니다.

하지만 추론은 예측이 불가능하다는 초기 징후를 볼 수 있습니다. 예를 들어 체스는 최고의 인간 플레이어도 예측할 수 없습니다. 따라서 우리는 예측할 수 없는 인공지능 시스템을 상대해야 합니다. 인공지능은 제한된 데이터로 사물을 이해하고 혼동하지 않을 것입니다.

이 모든 것이 매우 제한적입니다. 그런데 '자기 인식'이 왜 유용하지 않아야 할까요? 왜냐하면 '자기 인식'으로 이러한 모든 일이 언제 어떻게 일어날지 말하지 않았기 때문입니다. 우리 자신은 우리 세계의 모델의 일부입니다.

이 모든 것이 합쳐지면 현재 존재하는 시스템과는 완전히 다른 특성과 속성을 가진 시스템을 갖게 될 것입니다. 물론 놀랍고 놀라운 기능을 갖추게 될 것입니다. 하지만 이와 같은 시스템의 문제는 매우 다를 것이라고 생각합니다.

미래를 예측하는 것도 확실히 불가능하다고 말하고 싶습니다. 정말 모든 것이 가능합니다. 모두 감사합니다.

Neurlps 컨퍼런스에서 박수갈채를 받은 일리야는 몇 명의 질문자가 던진 짧은 질문에 답했습니다.

질문: 2024년에 비슷한 방식으로 탐구할 가치가 있는 인간 인지와 관련된 다른 생물학적 구조가 있다고 생각하시나요, 아니면 관심 있는 다른 분야가 있나요?
Ilya:"뇌가 무언가를 하고 있는데 우리가 이를 무시하고 있다"와 같이 특정 문제에 대한 인사이트가 있고, 이를 달성할 수 있다면 그 방향으로 더 깊이 들어가야 한다는 것이 제 대답입니다. 개인적으로 저는 그런 통찰력이 없습니다. 물론 이는 집중하고 있는 연구의 추상화 수준에 따라 달라지기도 합니다. 많은 사람들이 생물학적으로 영감을 받은 AI를 개발하고자 합니다. 어떻게 보면 생물학에서 영감을 받은 AI는 큰 성공을 거두었다고 주장할 수도 있습니다. 결국 딥러닝의 모든 기반이 생물학에서 영감을 받은 AI이기 때문입니다. 하지만 다른 한편으로는 생물학에서 영감을 받은 AI는 실제로 매우 제한적입니다. 기본적으로 "뉴런을 사용하자"는 것이 생물학적 영감의 전부입니다. 더 세밀하고 깊은 수준의 생물학적 영감은 달성하기 어렵지만, 그 가능성을 배제하지는 않겠습니다. 특별한 통찰력을 가진 사람이 새로운 관점을 발견할 수 있다면 매우 가치 있는 일이 될 수 있다고 생각합니다. Q: 자동 고침에 대해 질문하고 싶습니다.
추론이 향후 모델의 핵심 개발 방향 중 하나이며 차별화 기능이 될 수 있다고 언급하셨습니다. 포스터 발표 세션 중 일부에서 현재 모델에 '착시 현상'이 있다는 것을 보았습니다. 현재 모델의 착시 여부를 분석하는 방식은 (이 분야의 전문가이시니 제가 잘못 이해했다면 바로잡아 주세요) 주로 통계 분석, 즉 표준편차에서 몇 %의 편차가 있는지 평균에서 벗어났는지 여부를 판단하는 방식이 주를 이루고 있습니다. 앞으로 모델에 추론 능력이 생기면 자동 수정처럼 스스로 수정할 수 있게 되어 미래 모델의 핵심 기능이 될 것이라고 생각하시나요? 그렇게 되면 모델이 스스로 환각적인 내용을 생성하는 상황을 인식할 수 있기 때문에 환각이 많이 발생하지 않을 것입니다. 좀 더 복잡한 질문일 수 있지만, 미래의 모델이 추론을 통해 환각의 발생을 이해하고 감지할 수 있을 것이라고 생각하시나요?
Ilya:답변: 예.
설명하신 상황은 가능성이 매우 높다고 생각합니다. 확실하지는 않지만, 이 시나리오는 초기 추론 모델에서 이미 발생했을 수도 있습니다. 하지만 장기적으로 볼 때 가능하지 않을 이유가 있을까요?
Q: Microsoft Word의 자동 고침 기능과 같은 핵심 기능이라고 할 수 있습니다.
Ilya:네, '자동 수정'이라고 부르는 것은 사실 조금 과소평가한 것 같습니다. '자동 수정'이라고 하면 비교적 단순한 기능의 이미지를 떠올리기 쉽지만 그 개념은 자동 수정 그 이상입니다. 하지만 전반적으로 볼 때 대답은 '예'입니다.
질문자: 감사합니다. 다음은 두 번째 질문자입니다.
Q: 안녕하세요, 일리야. 미스터리한 정전으로 끝나는 결말이 정말 마음에 들었어요. 인공지능이 우리를 대체할까요, 아니면 우리보다 우월한 존재일까요? 그들에게도 권리가 필요할까요? 완전히 새로운 종입니다. 호모 사피엔스(호모 사피엔스)는 이러한 지능을 탄생시켰고, 강화 학습을 연구하는 사람들은 이러한 존재에 대한 권리가 필요하다고 생각할 수 있습니다.
호모 사피엔스가 누리는 것과 같은 자유를 누릴 수 있는 방식으로 인간에게 적합한 인센티브를 만들려면 어떻게 해야 할까라는 질문과 무관하지 않은 질문이 있습니다.
Ilya:사람들이 더 많이 고민하고 성찰해야 할 질문이라고 생각합니다. 하지만 어떤 인센티브를 만들어야 하는지에 대한 질문에는 제가 자신 있게 대답할 수 있는 질문은 아닌 것 같습니다. 일종의 하향식 구조나 거버넌스 모델을 만드는 것에 대해 이야기하는 것처럼 들리지만 저는 그것에 대해 잘 모르겠습니다.
다음은 마지막 질문자입니다.
Q: 안녕하세요 일리야, 훌륭한 프레젠테이션을 해주셔서 감사합니다. 저는 토론토 대학교에서 왔습니다. 그동안의 모든 노력에 감사드립니다. LLM이 배포 외부에서 멀티홉 추론을 일반화할 수 있다고 생각하시는지 여쭤보고 싶습니다.
Ilya:이 질문은 "예" 또는 "아니오"라는 대답을 가정하고 있지만, 실제로는 그렇게 대답해서는 안 됩니다. 배포 외 일반화가 실제로 무엇을 의미하는지 먼저 파악해야 하기 때문입니다. 인트라-디스트리뷰션이란 무엇인가요? 배포 외 일반화란 무엇인가요? 이것은 "시간 테스트"에 대한 이야기이기 때문입니다. 아주 오래전, 딥러닝이 등장하기 전에는 사람들이 문자열 매칭과 n-그램을 사용해 기계 번역을 수행했습니다. 당시 사람들은 통계적 구문 표에 의존했습니다. 상상이 되시나요? 이 방법들은 수만 줄의 코드 복잡성으로 정말 상상할 수 없을 정도로 복잡했습니다. 그리고 당시 일반화란 번역 결과가 데이터 세트의 구문 표현과 문자 그대로 동일하지 않은지 여부로 정의되었습니다. 지금 우리는 "내 모델이 수학 경시대회에서 높은 점수를 받았지만, 이 수학 문제에 대한 아이디어 중 일부는 인터넷의 어떤 포럼에서 논의된 적이 있어서 모델이 이를 기억했을 수도 있습니다."라고 말할 수 있습니다. 분포에 포함될 수도 있고 암기의 결과일 수도 있다고 주장할 수도 있습니다. 하지만 일반화에 대한 우리의 기준이 엄청나게, 심지어 상상할 수 없을 정도로 높아졌다는 것은 사실이라고 생각합니다.
그래서 제 대답은 어느 정도까지는 모델이 인간만큼 일반화에 능숙하지 않다는 것입니다. 저는 인간이 일반화에 훨씬 더 뛰어나다고 생각합니다. 하지만 동시에 인공지능 모델도 어느 정도 분산 일반화를 할 수 있는 것도 사실입니다. 다소 중복적으로 들리더라도 이 답변이 도움이 되셨기를 바랍니다.
Q: 감사합니다.

 

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...