인공 지능 분야는 최근 몇 년 동안 특히 대규모 언어 모델링(LLM) 분야에서 인상적인 발전을 이루었습니다. Qwen과 같은 많은 모델이 스스로 답을 확인하고 오류를 수정하는 놀라운 능력을 보여주었습니다. 하지만 모든 모델이 똑같이 자기 개선 능력이 있는 것은 아닙니다. 동일한 추가 계산 자원과 '사고' 시간이 주어졌을 때 일부 모델은 이러한 자원을 최대한 활용하여 성능을 크게 향상시킬 수 있는 반면, 다른 모델은 거의 성공하지 못합니다. 이러한 현상은 이러한 차이를 일으키는 요인이 무엇인지에 대한 의문을 제기합니다.
인간이 어려운 문제에 직면했을 때 더 많은 시간을 들여 깊이 생각하는 것처럼, 일부 고급 언어 모델도 강화 학습을 통해 자기 개선을 위한 훈련을 받으면 비슷한 추론 행동을 보이기 시작합니다. 그러나 동일한 강화 학습으로 훈련된 모델 간에는 자기 개선에 상당한 차이가 있습니다. 예를 들어, 카운트다운 게임에서 Qwen-2.5-3B는 Llama-3.2-3B보다 성능이 훨씬 뛰어납니다. 두 모델 모두 초기 단계에서는 상대적으로 약하지만 강화 학습 훈련이 끝날 때 Qwen은 약 60%의 정확도를 달성하는 반면, Llama는 약 30%에 불과합니다. 이 큰 격차 뒤에 숨겨진 메커니즘은 무엇일까요?
최근 스탠퍼드의 한 연구에서는 대규모 모델의 자기 개선 기능 이면에 있는 메커니즘을 깊이 파헤쳐, 기본 언어 모델의 주요 언어 모델이 인지 행동 AI의 중요성. 이 연구는 AI 시스템의 자기 개선 능력을 이해하고 향상시키는 데 새로운 관점을 제공합니다.
이 연구는 발표되자마자 널리 논의되었습니다. Synth Labs의 CEO는 이 발견이 모든 모델에 통합되어 성능을 향상시킬 수 있다는 점에서 매우 흥미롭다고 말합니다.

네 가지 주요 인지 행동
연구진은 자기 개선 능력의 차이에 대한 원인을 조사하기 위해 두 가지 기본 모델인 Qwen-2.5-3B와 Llama-3.2-3B에 초점을 맞췄습니다. 카운트다운 게임에서 강화 학습을 통해 이 두 모델을 훈련시킨 결과, Qwen의 문제 해결 능력이 크게 향상된 반면, Llama-3은 동일한 훈련 과정에서 상대적으로 개선이 제한적인 것으로 나타났습니다. 그렇다면 이러한 차이의 원인은 어떤 모델 속성에 있을까요?

이 문제를 체계적으로 조사하기 위해 연구팀은 문제 해결에 중요한 인지 행동을 분석하기 위한 프레임워크를 개발했습니다. 이 프레임워크는 네 가지 주요 인지 행동을 설명합니다:
- 인증:: 체계적인 오류 검사.
- 역추적:: 실패한 접근 방식을 버리고 새로운 경로를 시도하세요.
- 하위 목표 설정:: 복잡한 문제를 관리 가능한 단계로 세분화하세요.
- 역발상원하는 결과에서 초기 입력으로 역추론합니다.
이러한 행동 패턴은 전문가들이 복잡한 문제에 접근하는 방식과 매우 유사합니다. 예를 들어, 수학자들은 각 도출 단계를 주의 깊게 검증하고, 모순이 발견되면 이전 단계를 역추적하여 확인하고, 복잡한 정리를 더 간단한 정리로 분해하여 단계별로 증명하는 방식으로 증명을 수행합니다.

예비 분석에 따르면 Qwen 모델은 특히 검증과 역추적 영역에서 이러한 추론 행동을 자연스럽게 보이는 반면, Llama-3 모델은 이러한 행동이 눈에 띄게 부족한 것으로 나타났습니다. 이러한 관찰을 바탕으로 연구진은 핵심 가설을 세웠습니다: 모델이 늘어난 테스트 시간을 효과적으로 활용하려면 초기 전략의 특정 추론 동작이 중요합니다. 즉, AI 모델이 '생각할' 시간이 더 많아졌을 때 '더 똑똑해지려면' 먼저 오류를 확인하고 결과를 검증하는 습관과 같은 기본적인 사고 능력을 갖춰야 합니다. 처음부터 이러한 기본적인 사고 능력이 부족한 모델은 더 많은 사고 시간과 계산 리소스가 주어지더라도 효과적으로 성능을 향상시킬 수 없습니다. 이는 인간의 학습 과정과 매우 유사합니다. 학생이 기본적인 자기 점검 및 오류 수정 능력이 부족하다면 단순히 시험을 더 오래 치른다고 해서 성적이 크게 향상되지는 않을 것입니다.
실험적 검증: 인지적 행동의 중요성
위의 가설을 테스트하기 위해 연구진은 일련의 영리한 개입 실험을 수행했습니다.
먼저, 연구진은 특정 인지 행동(특히 회상)을 포함하는 합성 추론 궤적을 사용하여 Llama-3 모델을 부트스트랩하려고 시도했습니다. 그 결과, 이렇게 유도된 Llama-3 모델은 강화 학습에서 상당한 개선을 보였으며, 심지어 Qwen-2.5-3B와 비슷한 수준의 성능 향상을 보였습니다.
둘째, 부트스트래핑에 사용된 추론 궤적에 오답이 포함되어 있더라도 이러한 궤적이 올바른 추론 패턴을 보이는 한 Llama-3 모델은 여전히 발전할 수 있었습니다. 이 결과는 실제로 모델의 자기 개선을 이끄는 핵심 요소는 답 자체의 정확성이 아니라 추론 행동의 존재 여부입니다.
마지막으로 연구진은 이러한 추론 행동을 강조하기 위해 OpenWebMath 데이터 세트를 필터링하고 이 데이터를 사용해 라마-3 모델을 사전 훈련했습니다. 실험 결과는 이러한 사전 학습 데이터의 목표 조정이 모델이 계산 리소스를 효율적으로 사용하는 데 필요한 추론 동작을 유도하는 데 효과적이라는 것을 보여줍니다. 튜닝된 사전 훈련된 Llama-3 모델의 성능 개선 궤적은 놀랍게도 Qwen-2.5-3B 모델의 성능 개선 궤적과 일치합니다.
이 실험의 결과는 모델의 초기 추론 행동과 스스로를 개선하는 능력 사이에 강력한 연관성이 있음을 강력하게 보여줍니다. 이 연관성은 일부 언어 모델이 추가 컴퓨팅 리소스를 효율적으로 활용할 수 있는 반면 다른 언어 모델은 정체되는 이유를 설명하는 데 도움이 됩니다. 이러한 역학 관계에 대한 심층적인 이해는 문제 해결 능력을 크게 향상시킬 수 있는 AI 시스템을 개발하는 데 필수적입니다.
모델 선택이 가능한 카운트다운 게임
이 연구는 서로 다른 모델 군에서 비슷한 크기의 언어 모델을 강화 학습으로 훈련했을 때 매우 다른 성능 향상을 보인다는 놀라운 관찰로 시작됩니다. 연구진은 이 현상을 심층적으로 탐구하기 위해 카운트다운 게임을 주요 테스트베드로 선택했습니다.
카운트다운은 더하기, 빼기, 곱하기, 나누기의 네 가지 기본 연산을 사용하여 주어진 숫자 집합을 결합하여 목표 숫자에 도달해야 하는 수학 퍼즐입니다. 예를 들어 숫자 25, 30, 3, 4와 목표 숫자 32가 주어지면 플레이어는 (30 - 25 + 3) × 4 = 32와 같은 일련의 연산을 통해 정확한 숫자 32를 얻어야 합니다.
카운트다운 게임은 모델의 수학적 추론, 계획 및 검색 전략 능력을 시험하는 동시에 상대적으로 제한된 검색 공간을 제공하여 연구자가 심층적인 분석을 수행할 수 있기 때문에 이 연구를 위해 선택되었습니다. 더 복잡한 영역에 비해 카운트다운 게임은 분석의 난이도를 낮추면서도 복잡한 추론을 효과적으로 검토할 수 있습니다. 또한 카운트다운의 성공 여부는 순수한 수학적 지식보다는 다른 수학적 과제보다 문제 해결 능력에 더 많이 의존합니다.
연구진은 서로 다른 모델군 간의 학습 차이를 비교하기 위해 두 가지 기본 모델인 Qwen-2.5-3B와 Llama-3.2-3B를 선택했습니다. 강화 학습 실험은 VERL 라이브러리를 기반으로 하며 TinyZero를 사용하여 구현되었습니다. PPO(근거리 정책 최적화) 알고리즘을 사용하여 250단계에 걸쳐 모델을 훈련하고 큐당 4개의 궤적을 샘플링했습니다. PPO 알고리즘을 선택한 이유는 다른 알고리즘에 비해 GRPO 와 같은 다른 강화 학습 알고리즘에 비해 PPO는 다양한 하이퍼파라미터 설정에서 더 나은 안정성을 보이지만, 알고리즘 간의 전반적인 성능 차이는 크지 않습니다. (편집자 주: 원래 'GRPO'는 사무적인 오류로 추정되며 PPO로 읽어야 합니다.)
실험 결과는 두 모델의 학습 궤적이 매우 다르다는 것을 보여줍니다. 두 모델 모두 작업 초기에는 비슷한 성능을 보이지만 점수가 낮지만, Qwen-2.5-3B는 훈련의 30번째 단계 즈음에 '질적 도약'을 보이며, 이는 모델에서 생성되는 응답이 훨씬 길어지고 정확도가 크게 증가하는 것으로 입증됩니다. 훈련이 끝날 무렵, Qwen-2.5-3B는 약 601 TP3T의 정확도를 달성하여 Llama-3.2-3B의 301 TP3T보다 훨씬 높습니다.

훈련의 후반 단계에서 연구원들은 Qwen-2.5-3B의 행동에서 흥미로운 변화를 관찰했습니다. 즉, 모델이 명시적 검증 문(예: "8*35는 280, 너무 높음")을 사용하는 것에서 암시적 솔루션 검사로 점차 전환했습니다. 이 모델은 단어를 사용하여 자신의 작업을 평가하는 대신 올바른 솔루션을 찾을 때까지 다양한 솔루션을 시도합니다(러시아어로 "последовательно" 또는 "순차적으로"로 번역됨). 대조가 눈에 띕니다. 이러한 대조는 중심 질문으로 이어집니다. 모델이 추론을 기반으로 자기 개선을 성공적으로 달성할 수 있는 기본 역량은 무엇일까요? 이 질문에 답하려면 인지 행동을 분석하기 위한 체계적인 프레임워크가 필요합니다.
인지 행동 분석 프레임워크
두 모델의 매우 다른 학습 궤적을 더 깊이 이해하기 위해 연구진은 모델 결과물에서 주요 인지 행동을 식별하고 분석하는 프레임워크를 개발했습니다. 이 프레임워크는 네 가지 기본 행동에 초점을 맞춥니다:
- 역추적오류가 감지되면 메서드를 명시적으로 수정합니다(예: "이 메서드가 작동하지 않는 이유는 ..."). .").
- 인증: 중간 결과를 체계적으로 확인합니다(예: "이 결과를 검증하기 위해 ...로 ..."). 로 이 결과를 확인하자").
- 하위 목표 설정복잡한 문제를 관리 가능한 단계로 세분화합니다(예: "이 문제를 해결하려면 먼저 ..."). .
- 역발상목표 지향 추론 문제에서는 원하는 결과에서 시작하여 거꾸로 해결의 경로를 찾습니다(예: "75라는 목표에 도달하려면 ...로 나눌 수 있는 ...의 숫자가 필요합니다."). 75라는 목표에 도달하려면 ...로 나눌 수 있는 숫자가 필요합니다.").
이러한 행동은 언어 모델에서 흔히 볼 수 있는 선형적이고 단조로운 추론 패턴과는 매우 다른 문제 해결 전략을 나타내기 때문에 선택되었습니다. 이러한 인지적 행동은 비선형적인 방식으로 솔루션을 발전시킬 수 있는 보다 역동적이고 검색과 같은 추론 궤적을 가능하게 합니다. 이 일련의 행동이 완전한 것은 아니지만, 카운트다운 게임이나 수학적 증명 구성과 같은 광범위한 수학적 추론 작업에서 인간의 문제 해결 전략을 쉽게 파악하고 자연스럽게 적용할 수 있기 때문에 연구진은 이러한 행동을 선택했습니다.
각 인지 행동은 추론에서의 역할을 통해 이해할 수 있습니다. 토큰 예를 들어, 백트래킹은 이전 단계의 토큰 시퀀스를 명시적으로 무효화하고 대체하는 것으로 표현됩니다. 예를 들어, 백트래킹은 이전 단계를 명시적으로 무효화하고 대체하는 토큰 시퀀스로, 검증은 결과를 솔루션 기준과 비교하는 토큰 생성으로, 역추적은 목표에서 초기 상태까지 솔루션 경로를 점진적으로 구축하는 토큰으로, 하위 목표 설정은 최종 목표에 도달하는 경로를 따라 도달할 중간 단계를 명시적으로 제안하는 토큰으로 표현됩니다. 연구진은 모델 출력에서 이러한 패턴을 안정적으로 식별하는 GPT-4o-mini 모델을 사용하여 분류 파이프라인을 개발했습니다.
초기 행동이 자기 계발에 미치는 영향
위의 분석 프레임워크를 초기 실험에 적용하면 중요한 인사이트를 얻을 수 있습니다: Qwen-2.5-3B 모델의 성능이 크게 개선된 것은 인지 행동, 특히 확인 및 역추적 행동의 출현과 동시에 이루어졌습니다. 반면, Llama-3.2-3B 모델은 훈련 내내 이러한 행동의 징후가 거의 나타나지 않았습니다.

이러한 차이를 더 깊이 이해하기 위해 연구진은 Qwen-2.5-3B, Llama-3.2-3B, Llama-3.1-70B의 세 가지 모델의 기본 추론 패턴을 추가로 분석했습니다. 분석 결과, Qwen-2.5-3B 모델이 두 가지 라마 모델 변형인 Llama-3.2-3B와 Llama-3.1-70B보다 모든 인지 행동의 비율이 더 높은 것으로 나타났습니다. 2.5-3B 모델은 모든 인지 행동의 더 높은 비율을 생성했습니다. 크기가 더 큰 라마 3.1-70B 모델이 일반적으로 라마 3.2-3B 모델보다 이러한 행동을 더 자주 활성화했지만, 특히 회고 행동의 경우 이러한 증가가 고르지 않았으며, 이는 큰 모델에서도 여전히 제한적이었습니다.

이러한 관찰을 통해 두 가지 중요한 인사이트를 발견할 수 있습니다:
- 초기 전략에서 특정 인지 행동의 존재는 모델이 추론 순서를 확장하여 늘어난 테스트 시간 계산을 효과적으로 활용하기 위해 필요한 전제 조건일 수 있습니다.
- 모델 크기를 늘리면 이러한 인지 행동의 맥락적 활성화 빈도를 어느 정도 개선할 수 있습니다.
강화 학습은 이미 성공적인 궤적에 있는 행동만 증폭시킬 수 있기 때문에 이 모델은 매우 중요합니다. 즉, 이러한 인지 행동의 초기 가용성은 모델에서 효과적인 학습을 위한 전제 조건입니다.
초기 행동에 개입하기: 모델 학습 안내
기본 모델에서 인지 행동의 중요성을 확인했다면, 다음 질문은 표적 개입을 통해 이러한 행동을 모델에서 인위적으로 유도할 수 있는가 하는 것입니다. 연구진은 강화 학습 훈련 전에 특정 인지 행동을 선택적으로 표시하는 기본 모델의 변형을 만들면 효과적인 학습에 필수적인 행동 패턴을 더 깊이 이해할 수 있다는 가설을 세웠습니다.
이 가설을 테스트하기 위해 먼저 카운트다운 게임을 사용하여 7개의 서로 다른 스타터 데이터 세트를 설계했습니다. 이 중 5개의 데이터 세트는 모든 전략 조합, 역추적만, 역추적과 검증, 역추적과 하위 목표 설정, 역추적과 거꾸로 생각 등 다양한 행동 조합을 강조했습니다. 이러한 데이터 세트를 생성하는 데 Claude-3.5-Sonnet 모델을 사용한 이유는 정확히 지정된 행동 특성을 가진 추론 궤적을 생성하는 Claude-3.5-Sonnet의 기능 때문이었습니다.
연구진은 성능 향상이 단순히 계산 시간의 증가가 아닌 특정 인지 행동에 의한 것인지 확인하기 위해 두 가지 통제 조건, 즉 빈 생각의 사슬과 자리 표시자 토큰 체인을 채우고 데이터 포인트의 길이를 '모든 전략 조합' 데이터 세트에 맞추는 통제 조건을 도입했습니다. " 데이터 세트. 이러한 대조 데이터 세트를 통해 연구자들은 관찰된 성능 향상이 단순한 계산 시간 증가가 아닌 특정 인지 행동으로 인한 것임을 검증할 수 있었습니다.
또한 연구진은 잘못된 해답만 포함하지만 필요한 추론 패턴은 유지하는 "전체 전략 조합" 데이터 세트의 변형을 만들었습니다. 이 변형의 목적은 인지 행동의 중요성과 솔루션의 정확성 사이의 차이를 구분하기 위한 것입니다.
실험 결과, 회고적 행동이 포함된 데이터 세트로 초기화했을 때 강화 학습 훈련을 통해 Llama-3 및 Qwen-2.5-3B 모델 모두 상당한 성능 향상을 보인 것으로 나타났습니다. 행동 분석은 또한 다음과 같은 결과를 보여줍니다. 강화 학습은 경험적으로 유용한 것으로 입증된 행동을 선택적으로 증폭하는 반면, 그렇지 않은 행동은 억제합니다. 예를 들어, 전체 전략 조합 조건에서 모델은 회고 및 검증 행동을 유지하고 강화하는 반면, 역추적 및 하위 목표 설정 행동의 빈도는 줄입니다. 그러나 회고 행동과만 짝을 이루는 경우, 억제된 행동(예: 역추적 및 하위 목표 설정)은 훈련 내내 지속됩니다.



빈 사고 사슬을 대조 조건으로 사용하여 시작했을 때, 두 모델 모두 기본 라마-3 모델과 비슷한 성능을 보였습니다(정확도 약 30%-35%). 이는 인지 행동을 포함하지 않고 단순히 추가 토큰을 할당하는 것이 테스트 시간 계산을 효율적으로 사용하지 못한다는 것을 시사합니다. 더욱 놀라운 사실은 빈 사고 사슬을 사용한 훈련이 오히려 해로운 영향을 미쳤다는 것인데, Qwen-2.5-3B 모델은 새로운 행동 패턴을 탐색하는 것을 멈췄기 때문입니다. 이는 다음과 같은 추가적인 증거입니다. 이러한 인지적 행동은 모델이 더 긴 추론 시퀀스를 통해 확장된 계산 리소스를 효율적으로 사용하는 데 매우 중요합니다.

더욱 놀라운 것은 잘못된 솔루션으로 초기화되었지만 올바른 인지 행동으로 초기화된 모델이 올바른 솔루션이 포함된 데이터 세트로 학습된 모델과 거의 동일한 수준의 성능을 달성했다는 점입니다. 이 결과는 다음과 같은 사실을 강력하게 시사합니다. 강화 학습을 통한 성공적인 자기 계발의 핵심 요소는 정답의 습득이 아닌 인지적 행동의 존재입니다. 따라서 상대적으로 약한 모델의 추론 패턴은 학습 과정을 효과적으로 안내하여 더 강력한 모델을 구축할 수 있습니다. 이는 다시 한 번 다음과 같은 사실을 증명합니다. 결과의 정확성보다 인지적 행동의 존재 여부가 더 중요합니다.

사전 학습 데이터의 행동 선택
이 실험의 결과는 특정 인지 행동이 모델의 자기 개선에 필수적이라는 것을 시사합니다. 그러나 이전 연구에서 초기 모델에서 특정 행동을 유도하는 데 사용된 방법은 도메인에 따라 다르며 카운트다운 게임에 의존했습니다. 이는 최종 추론의 일반화 능력에 부정적인 영향을 미칠 수 있습니다. 그렇다면 모델의 사전 학습 데이터 분포를 수정하여 보다 일반화된 자기 개선 능력을 달성함으로써 유익한 추론 행동의 빈도를 늘릴 수 있을까요?
사전 훈련 데이터에서 인지 행동의 빈도를 조사하기 위해 연구진은 먼저 사전 훈련 데이터에서 인지 행동의 자연 빈도를 분석했습니다. 연구진은 수학적 추론을 위해 특별히 구축된 OpenWebMath와 FineMath 데이터 세트에 집중했습니다. 연구진은 Qwen-2.5-32B 모델을 분류기로 사용하여 이 두 데이터 세트에서 무작위로 선택한 20만 개의 문서를 분석하여 목표 인지 행동의 존재 여부를 확인했습니다. 그 결과, 수학에 초점을 맞춘 말뭉치에서도 역추적 및 검증과 같은 인지 행동의 빈도가 낮게 유지되는 것으로 나타났습니다. 이는 표준 사전 훈련 과정에서는 이러한 주요 행동 패턴에 대한 노출이 제한적이라는 것을 시사합니다.

인지 행동에 대한 노출을 인위적으로 늘리면 모델의 자기 개선 잠재력이 향상되는지 테스트하기 위해 연구진은 OpenWebMath 데이터 세트에서 타겟팅된 연속 사전 훈련 데이터 세트를 개발했습니다. 연구진은 먼저 사전 훈련 코퍼스의 수학 문서를 분석하여 목표 추론 행동의 존재 여부를 파악하기 위해 Qwen-2.5-32B 모델을 분류기로 사용했습니다. 이를 바탕으로 인지적 행동이 풍부한 데이터 세트와 인지적 내용이 거의 없는 대조 데이터 세트, 두 개의 비교 데이터 세트를 만들었습니다. 그런 다음 Qwen-2.5-32B 모델을 사용하여 두 데이터 세트의 각 문서를 구조화된 질문과 답변 형식으로 다시 작성하면서 원본 문서에 인지 행동이 자연스럽게 포함되거나 포함되지 않은 상태를 유지했습니다. 그 결과 사전 학습 데이터 세트에는 각각 총 830만 개의 토큰이 포함되었습니다. 이 접근 방식을 통해 연구자들은 사전 학습 중에 수학적 콘텐츠의 형식과 양을 제어하면서 추론 행동의 효과를 효과적으로 분리할 수 있었습니다.
연구진은 이러한 데이터 세트에 대해 Llama-3.2-3B 모델을 사전 학습하고 강화 학습을 적용한 후 관찰했습니다:
- 행동이 풍부한 사전 학습 모델은 궁극적으로 Qwen-2.5-3B 모델과 비슷한 수준의 성능을 달성하며, 제어 모델의 성능은 상대적으로 제한적으로 향상됩니다.
- 훈련 후 모델의 행동 분석 결과, 사전 훈련된 모델의 행동이 강화된 변종은 훈련 과정 내내 추론 행동의 높은 활성화를 유지한 반면, 대조 모델은 기본 라마-3 모델과 유사한 행동 패턴을 보였습니다.

이 실험의 결과는 다음과 같은 사실을 강력하게 시사합니다. 사전 학습 데이터의 목표 수정을 통해 강화 학습을 통해 효과적인 자기 개선에 필요한 핵심 인지 행동을 성공적으로 생성할 수 있습니다. 이 연구는 대규모 언어 모델의 자기 개선 능력을 이해하고 개선하기 위한 새로운 아이디어와 방법을 제공합니다. 자세한 내용은 원본 논문을 참조하세요.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...