OpenAI-o1의 대규모 모델을 사용한 복잡한 추론

2022년 OpenAI는 세계에서 가장 빠르게 수억 명의 사용자를 돌파한 앱이 된 ChatGPT를 출시했고, 당시 사람들은 우리가 실제 AI에 더 가까워졌다고 생각했습니다. 그러나 사람들은 곧 ChatGPT가 대화를 나눌 수 있고 심지어 시와 기사를 쓸 수도 있다는 사실을 알게 되었지만, 'r'이 여러 개 들어간 유명한 '딸기'와 같은 단순한 논리에서는 여전히 불만족스러웠습니다.

2년이 지난 지금, OpenAI는 강력한 논리적 추론 능력과 OpenAI의 강력한 기술 은닉 능력으로 그 방법론에 대한 열띤 토론을 불러일으킨 o1 모델을 출시했습니다. 이 글에서는 o1 모델의 기술에 대한 추측을 지침으로 삼아 대규모 모델의 복잡한 추론 능력의 발전을 살펴보기 위해 몇 가지 관련 기사를 정리해 보았습니다.

01 배경

사고의 사슬(줄여서 CoT)은 사람들이 문제를 해결하거나 결정을 내릴 때 사고의 단계별 과정을 설명하는 인지심리학 및 교육 분야의 개념입니다. 이 과정에는 단순히 질문에서 답으로 바로 넘어가는 것이 아니라 여러 단계가 포함되며, 각 단계에는 이전의 결론을 수집, 분석, 평가, 수정하는 과정이 포함될 수 있습니다. 이러한 방식으로 개인은 복잡한 문제를 보다 체계적으로 처리하고 합리적인 해결책을 구축할 수 있습니다.

지도 미세 조정지도 학습 또는 지도 학습은 머신 러닝 분야에서 가장 일반적인 형태의 모델 학습으로, 데이터를 정확하게 분류하거나 결과를 예측하기 위해 모델이 학습할 레이블이 지정된 데이터 세트를 사용합니다. 지도 학습은 모델에 입력 데이터가 들어올 때 모델이 적절한 적합도를 보일 때까지 모델의 가중치를 조정합니다.
감독형 미세 조정(줄여서 SFT)은 기존 기본 모델 위에 특정 작업에 초점을 맞춘 데이터 세트로 모델을 학습시켜 특정 작업을 해결할 수 있도록 하는 감독형 학습을 말합니다.

강화 학습강화 학습 또는 줄여서 RL은 지도 학습 및 비지도 학습과 함께 세 가지 기본 머신 러닝 패러다임 중 하나입니다. 강화 학습은 탐색(미지의 영역)과 활용(알려진 영역) 사이의 균형을 찾는 데 중점을 두며, 장기적인 수익 극대화를 목표로 모델이 올바른 행동을 학습할 수 있도록 합니다.
从 OpenAI-o1 看大模型的复杂推理能力

그림에서 보는 것처럼 강화학습에서 에이전트는 우리가 훈련해야 하는 최종 목표이며, 설정된 환경(Environment)과 상호작용하며 보상과 상태이동을 발생시키고, 에이전트는 보상을 기반으로 학습하여 다음 액션을 더 잘 선택하는 사이클이 훈련 과정입니다. 이 사이클이 강화 학습의 훈련 과정입니다.

LLM의 학습 과정에서 RL은 중요한 역할을 하며, 사전 학습 단계는 RLHF의 도움을 받는 것이 업계의 합의가 되었습니다. LLM의 강화 학습에서는 일반적으로 LLM의 출력에 보상을 주기 위해 환경을 시뮬레이션하는 또 다른 모델이 필요한데, 이를 보상 모델 또는 줄여서 RM이라고 합니다.

여기에는 액터 모델, 비평가 모델, 보상 모델 등 여러 모델이 있습니다. 위의 표준 RL 트레이닝 프레임워크에 따라 액터와 크리틱은 에이전트를 구성하고 보상은 RL 트레이닝 프로세스에서 환경으로 트레이닝됩니다.
从 OpenAI-o1 看大模型的复杂推理能力

하지만 학습 후에는 액터 모델과 보상 모델을 따로 배포할 수 있는데, 여기서 액터 모델은 생성기이고 보상 모델은 생성기의 생성 품질을 측정하는 데 사용하는 검증기이며, 이것이 바로 OpenAI가 단계별로 검증해보자 논문에서 언급하는 생성기-검증기 구조입니다. OpenAI의 단계별로 검증해 봅시다 논문에서 언급된 Generator-Verifier 구조입니다.

그리고 보상 모델은 피드백의 세부적인 정도에 따라 분류할 수 있습니다:

-프로세스 기반 보상 모델 PRM: PRM은 LLM의 중간 결과를 기반으로 피드백을 제공합니다.
-결과 기반 보상 모델 ORM: ORM은 최종 결과가 나온 후에만 피드백을 제공합니다.
아래에서 이 두 가지 개념을 구체적인 시나리오에 대해 설명합니다.

몬테카를로 트리 검색 몬테카를로 트리 검색 또는 MCTS는 각 단계에서 여러 행동을 시도하고 그 행동의 가능한 미래 보상을 예측하여 더 보람 있는 행동을 선택적으로 탐색하는 것이 핵심 아이디어인 트리 검색 알고리즘입니다.
从 OpenAI-o1 看大模型的复杂推理能力
위키백과 이미지. 각 퀘스트는 네 단계로 나뉘어져 있다고 합니다:

-선택: 노드 선택
-확장: 이 노드에서 탐색할 새 노드를 생성합니다.
-롤아웃: 이 새 노드를 따라 시뮬레이션을 수행하여 결과를 생성합니다.
-역전파: 시뮬레이션 결과가 역전파되어 경로의 노드를 업데이트합니다.
계속 탐색하면 트리가 생성되고 각 노드에는 탐색의 가능한 결과가 있으며 이 트리에서 검색하여 최적의 경로 또는 결과를 얻을 수 있습니다.

RL용 MCTS는 훈련 가능한 모델을 사용하여 선택 및 롤아웃 단계를 수행하여 MCTS의 대규모 검색 공간과 시뮬레이션 비용을 줄여 최적의 솔루션을 효율적으로 얻는 AlphaZero와 같은 잘 알려진 모델을 생성했습니다. AlphaZero의 접근 방식은 훈련 가능한 모델을 사용하여 선택 및 롤아웃 단계를 수행함으로써, 정책 네트워크를 사용하여 다음 가능한 단계를 효율적으로 검색하고 롤아웃 시뮬레이션 대신 가치 네트워크를 사용하여 각 단계의 값을 결정하는 등 MCTS의 큰 검색 공간과 시뮬레이션 비용을 줄여 최적의 솔루션을 효율적으로 얻는 것입니다.

o1의 다단계 추론 능력 o1 모델에 관해서는 놀라운 다단계 추론 능력에 대해 이야기하지 않을 수 없으며, OpenAI 웹 사이트에서는 암호, 코드, 수학, 십자말풀이 등에서 다단계 추론 능력을 보여주는 몇 가지 예를 제공합니다. "암호"와 관련된 예는 "딸기에 세 개의 R이 있습니다"로, 이 또한 이전에 어떻게 해독되었는지 보여주는 좋은 예입니다. "비밀번호"와 관련된 예제에서 디코딩 결과는 "딸기에 R이 3개 있습니다"이며, 이 역시 기존에 존재했던 "비밀번호"의 결과입니다. ChatGPT 대응할 수 있는 추론 능력.

따라서 저희는 주로 이와 관련된 여러 논문을 조사하여 아래에 설명된 대로 정리 및 요약했습니다.

02 큐 워드 엔지니어링

모델 추론을 개선하기 위한 큐 워드 엔지니어링을 소개하기 전에 먼저 퓨어 샷 학습이란 무엇인지 이해할 필요가 있습니다. 현재 인공지능 학습에는 일반적으로 많은 양의 예제 데이터가 필요한 반면, 예제가 전혀 주어지지 않는 경우 예제 데이터가 매우 적은 학습을 퓨어 샷, 즉 제로 샷이라고 부릅니다.
"대규모 언어 모델에서 추론을 유도하는 생각의 사슬" 논문에서는 모델의 수학적 추론을 향상시키기 위한 몇 가지 접근 방식을 제안합니다:

그림에서 보듯이 왼쪽은 입력 LLM의 프롬프트에서 LLM이 학습할 수 있는 샘플을 제공하는데, 이것이 Few-Shot 학습이지만 그 효과는 여전히 만족스럽지 못합니다. 이 논문에서는 오른쪽에 CoT와 함께 이 Few-Shot 패러다임을 제안합니다. 따라서 오른쪽의 Few-Shot에서는 예제의 질문과 답변뿐만 아니라 중간 과정과 결과도 제공됩니다. 저자들은 CoT를 사용하여 이러한 방식으로 구성된 Few-Shot 프롬프트가 모델의 추론 능력을 향상시킨다는 사실을 발견했습니다.

모델 자체가 개선되고 더 많은 연구가 수행됨에 따라 "대규모 언어 모델은 제로샷 추론기"라는 글에서는 제로샷이 CoT를 사용하여 모델의 기능을 향상시킬 수 있다는 사실을 추가로 밝혔습니다:

CoT 중간 프로세스를 구축하거나 Few-Shot에 대한 예제를 구축하는 수고를 하는 대신 "단계별로 생각해보자"는 간단한 생각만으로도 LLM을 향상시킬 수 있습니다. 당연한 말처럼 들립니다. 이 프롬프트는 나중에 OpenAI에 의해 "단계별로 검증해 봅시다"로 바뀌었고, 이제 이 논문은 o1을 이해하고자 하는 사람이라면 누구나 반복해서 읽어야 하는 핵심이 되었습니다.

물론 큐 워드 엔지니어링만으로 CoT를 구축하는 것이 o1이 강력한 이유는 아니지만, 논리를 발전시키는 단계별 접근 방식인 CoT는 대규모 모델에서 추론을 보강하는 데 있어 지배적인 방향이 되었습니다.

03 CoT + 감독형 미세 조정

물론 SFT를 사용하여 CoT의 다단계 추론 기능을 LLM에게 가르치려는 시도가 있었습니다. "STaR: 추론을 이용한 부트스트랩 추론"이 그 초기 시도입니다. 아래 이미지는 해당 논문에서 가져온 것입니다:
从 OpenAI-o1 看大模型的复杂推理能力

이 논문의 아이디어는 이렇습니다. 먼저 위에서 설명한 큐 워드 엔지니어링 접근 방식을 사용하여 모델이 데이터 집합을 추론하기 위해 CoT를 시도하도록 하면 자연스럽게 정답과 오답이 모두 포함된 답변 묶음을 얻을 수 있습니다:

정답을 얻으면 모델에서 생성된 해당 CoT를 고품질 CoT로 간주하고 이러한 고품질 "질문-CoT-답변" 샘플을 수집하여 새로운 데이터 세트를 얻고 이 데이터 세트를 사용하여 LLM을 SFT하고 계속 반복하면 더 나은 추론 능력을 갖춘 LLM을 얻을 수 있습니다. LLM;

LLM이 항상 틀리게 대답하는 질문이 있다면 "질문+답변"을 직접 LLM에게 보여주고 질문에서 답변까지 CoT를 생성하게 하고, 답을 알면 LLM이 생성한 CoT가 맞다고 생각할 수 있으며, 이 부분의 "질문-CoT-Answer" 샘플도 학습에 사용할 수 있습니다. '질문-코트-답변' 샘플도 학습에 사용할 수 있습니다.

이 연구는 꽤 오래되었기 때문에 지금은 그 허점을 쉽게 찾을 수 있습니다. 예를 들어, LLM은 실제로 "잘못된 과정이지만 올바른 결과"또는 "올바른 과정이지만 잘못된 결과"가 종종 있으며, 이는 위의 훈련에 사용한 샘플이 실제로 그렇게 높은 품질이 아니라는 것을 의미합니다. 즉, 위에서 학습에 사용한 샘플의 품질이 실제로 그렇게 높지 않다는 뜻입니다. 그렇다면 어떻게 하면 더 정확한 추론 프로세스를 얻을 수 있을까요?

04 몬테카를로 트리 검색

위에서 CoT는 질문에서 답변까지의 논리를 중간 사고 과정과 중간 사고 과정으로 나눈다는 것을 배웠는데, 그렇다면 MCTS를 사용하여 다음 단계의 추론에 가장 적합한 사고 단계, 즉 최고의 추론 사고 연쇄를 찾을 수 있을까요? 당연히 그렇습니다.

상호 추론으로 더 작은 LLM을 더 강하게 문제 해결사들은 이러한 MCTS 알고리즘을 고안했고, rStar라는 프로젝트를 깃허브에 오픈소스화했습니다.아래 이미지는 논문에서 가져온 것인데, 위의 MCTS 이미지와 비슷하지 않나요?

위 그림과 같이 연구진은 CoT의 중간 단계를 5가지 유형의 노드로 나누었습니다:

1. 추론의 다음 단계 생성
2. 모든 후속 추론을 생성합니다.
3. 하위 질문 및 답변 생성하기
4. 하위 질문에 다시 답하기
5. 재구성 문제
그런 다음 MCTS를 사용하여 다음 생각 단계 노드를 결정합니다. 생각의 노드에서 노드로 연결되는 경로가 바로 CoT입니다. 최종 결과를 모두 취해 투표하면 됩니다.

물론 저자들은 위에서 언급했듯이 각 단계에서 노드의 정확성과 추론의 정확성을 측정 할 수 있어야하므로 그 이상을 연구했으며 연구자들은 다음과 같은 방법을 고안했습니다:

-판별 필터링: 원래 추론 경로를 얻은 후 그 일부를 무작위로 마스킹한 다음 다른 모델을 출력에 사용하여 원래 생성기와 동일한 결과를 얻으면 원래 추론 경로가 신뢰할 수 있는 것입니다.

-정답률: 모든 최종 답안을 수집하고 전체 답안에서 특정 답안이 차지하는 비율을 정답 점수로 환산합니다.

-프로세스 정확도: 경로의 각 추론 노드에 대해 다수의 유형 2 노드가 병렬로 생성되어 다수의 1단계 최종 결과를 생성하고, 이 결과 중 현재 경로의 최종 결과인 비율을 해당 추론 노드의 프로세스 점수로 간주합니다. 세 부분으로 구성된 측정은 최적의 경로로 이어지고, 최적의 경로의 최종 결과가 MCTS의 결과로 간주됩니다.

05 생성기 + 검증기

사고 과정을 트리로 구성하고 탐색할 수 있는 위의 MCTS 외에도 다른 방법도 있습니다. 예를 들어 강화 학습을 들 수 있는데, 강화 학습에 대한 소개를 다시 한 번 살펴보겠습니다:
从 OpenAI-o1 看大模型的复杂推理能力

LLM을 액터로, 문제에 대해 훈련된 또 다른 RM을 환경으로, 암시적 비판자를 에이전트로 삼는다면, 강화 학습 루프는 액터가 문제에 대한 결과를 생성하고, RM이 결과의 정확성을 검증하여 에이전트에 제공하며, 액터와 비판자가 보상에 따라 훈련하는 것입니다. 액터와 크리틱은 보상에 따라 훈련됩니다. 에이전트는 결과를 생성하는 역할을 하므로 생성자라고 하고, RM은 결과를 검증하는 역할을 하므로 검증자라고 합니다.

생각해 보면 에이전트 내에서 액터와 크리틱의 관계는 알파제로에서 사용하는 정책 및 가치 네트워크와 매우 유사하지 않나요? 정책 및 가치 네트워크가 액터와 크리틱 프레임워크에 맞는 것도 사실입니다.

이제 강화 학습 프로세스에는 액터, 크리틱, RM의 세 가지 네트워크가 포함된다는 것을 요약했습니다. 보드 게임의 경우 승자는 게임이 끝나야 알 수 있고 RM이 제공하는 보상이 너무 적기 때문에 배포에 액터-크리틱 프레임워크를 유지한 다음 더 나은 솔루션을 위해 MCTS를 수행하고, LLM 배포에서는 훈련된 RM이 적시에 피드백을 제공할 수 있으므로 배포에서 액터와 RM을 자연스럽게 생성자-검증자 프레임워크로 결합할 수 있습니다. LLM 배포에서는 훈련된 RM이 적시에 피드백을 제공할 수 있으므로 배포 시점에 액터와 RM을 생성기-검증기 프레임워크에 자연스럽게 결합할 수 있습니다.

OpenAI는 GPT3 시절부터 이 방향을 연구해왔습니다(ChatGPT는 GPT-3.5 모델을 기반으로 합니다). 그들이 제시한 솔루션은 수학 단어 문제 해결을 위한 검증자 훈련이라는 논문이었습니다. 아래 이미지는 해당 논문에서 가져온 것입니다:

위의 그래프는 "생성기를 미세 조정하여 얻은 결과의 정확성"과 "검증기를 미세 조정하고 생성기가 생성한 여러 결과를 평가한 후 더 높은 평가를 받은 결과를 선택하여 얻은 결과의 정확성"을 비교한 것입니다. 이는 검증자의 효율성을 보여줍니다.

왜냐하면 여기서 하는 일은 문제를 추론하여 결과를 얻는 것이기 때문입니다. 따라서 사용된 생성기는 중간 추론 과정을 거치지 않고 바로 결과를 생성하며, 검증기는 강화 학습 섹션에서 언급한 ORM(결과 기반 보상 모델)으로, 생성기의 결과를 기반으로 점수를 생성하는 역할을 합니다. 따라서 여기서 살펴보고자 하는 다단계 추론 프로세스는 없으며, 단지 ORM 검증이 단순한 미세 조정보다 더 나은 최종 결과를 산출한다는 사실을 발견할 수 있습니다.

그래서 OpenAI 팀은 한 걸음 더 나아가 생성기가 결과를 직접 출력하는 것이 아니라 단계별 추론을 생성하도록 하고, 다른 한편으로는 생성기의 추론 과정의 각 단계마다 점수를 생성하는 역할을 하는 검증자 역할을 하는 PRM(프로세스 기반 보상 모델)을 훈련시켰습니다. 이러한 방식으로 생성자의 추론 과정에서 정확성을 위해 노력하여 생성된 결과가 가장 정확할 가능성이 높다고 생각합니다.

이것이 바로 위에서 언급한 단계별 검증입니다. 이 작업에서 연구팀은 동일한 생성기를 검증자로 PRM과 ORM으로 검색하여 생성된 추론 결과를 비교하여(이때 생성기는 이미 GPT-4였습니다), 검증자로서의 PRM이 더 정확한 결과를 검색한다는 것을 증명했습니다. 아래 그림은 논문에서 발췌한 것입니다:

위의 그림은 동일한 단계적 추론 생성기가 결과에 대한 최상의 답을 선택하기 위해 ORM을 검증자로 사용하는 것이 유효한 결과를 생성하지만, 프로세스에 대한 최상의 답을 선택하기 위해 PRM을 검증자로 사용하는 것이 더 정확할 가능성이 높다는 것을 보여줍니다!

이것이 우리가 찾고 있는 O1의 기술인가요? 현재로서는 이것이 핵심 기술 중 하나라고 추측할 수 있을 뿐입니다. 그 이유는 다음과 같습니다:

1, 이 논문은 o1의 출시와 비교적 거리가 멀고 1년이라는 시간은 OpenAI 연구자들이 이 방향을 더 깊이 파고들기에 충분한 시간입니다. PRM의 유효성 때문에 1년이라는 시간도 다른 방향에 적응하기에 충분한 시간이지만, 우리는 여전히 그들이 돌아서기보다는 더 깊게 나아가고 있다고 생각합니다.

2. 이 논문은 검증자로서의 PRM의 효과를 보여 주며, 다음 단계는 강력한 검증자로 생성기를 개선하여 더 나은 결과를 생성하는 것임이 분명합니다. 그러나 이 논문은 거기까지 나아가지 않았기 때문에 OpenAI가 시도했을 것이라고 믿을 만한 근거가 있으며, 그 결과가 o1이었는지는 확실하지 않습니다.

이제 추측을 끝내고 검색에 Verifier를 사용하는 다른 방법을 살펴보겠습니다. 지난 8월 구글 딥마인드에서 발표한 "LLM 테스트 시간 계산을 최적으로 확장하는 것이 모델 파라미터를 확장하는 것보다 더 효과적일 수 있다"라는 문서에서 더 많은 연구가 이루어졌습니다. 이 논문은 많은 사람들이 o1의 원리와 유사한 기술 라인을 보여주는 것으로 간주합니다. 아래 그림은 해당 논문에서 가져온 것입니다:

이제 생성자와 검증자가 생겼으니 어떻게 서로 협력하여 최상의 결과를 얻도록 할 수 있을까요? 한 가지 방법은 위에서 언급했듯이 생성기가 여러 결과를 얻기 위해 병렬로 샘플링하고 검증자가 이를 평가하여 가장 높은 점수를 선택하는 것입니다. 이것이 위 그림의 왼쪽에 있는 병렬 샘플링 + Best-of-N 접근 방식입니다. 하지만 다른 접근 방식도 분명히 있습니다:

-복수의 결과를 생성할 때 여러 결과를 병렬로 샘플링하는 것 외에도 생성기가 결과를 생성한 다음 결과 자체를 확인하고 수정하여 더 이상 서로 병렬이 아닌 일련의 답변을 얻을 수도 있습니다.

-검증자가 선택할 때 Best-of-N 대신 다른 대안이 있을 수 있습니다. 논문에서 다음 그림과 같이:

이 논문은 간단한 문제의 경우, 무작정 병렬로 검색하기보다는 검증기를 사용하여 생성기가 스스로 확인하고 수정하도록 유도해야 한다는 것을 발견했습니다. 복잡한 문제의 경우 Generator가 여러 솔루션을 병렬로 시도하는 것이 좋습니다.

유사한 연구로는 OpenAI의 o1 모델 추론 패턴에 대한 비교 연구가 있습니다. 이 논문 팀은 o1의 복제본인 Open-o1을 GitHub에 오픈소스화했으며, 이 글은 o1 출시 이후 연구한 결과물 중 일부입니다. 아래 이미지는 논문에서 가져온 것입니다:

연구팀은 GPT-4o를 골격 모델로 사용한 다음, LLM이 추론하기 전에 생각하도록 하는 네 가지 일반적인 접근 방식을 사용하여 결과를 비교했습니다. 연구팀은 HotpotQA 과제에서 Best-of-N 및 단계별 BoN 접근 방식이 모두 LLM의 추론 능력을 크게 향상시킬 수 있었으며, 심지어 BoN은 GPT-4o가 o1 모델보다 더 나은 성능을 발휘한다는 사실을 발견했습니다.

06 OpenR

현재 o1을 복제하려는 오픈 소스 프로젝트 중 OpenR은 비교적 잘 수행된 프로젝트 중 하나입니다.
从 OpenAI-o1 看大模型的复杂推理能力

이 이미지는 공식 문서에서 가져온 것으로, 생성기-검증기 프레임워크에 따라 데이터 수집은 물론 교육 및 배포를 구현합니다.

데이터 수집 공식 소개에 따르면 데이터 수집 방법은 '자동화된 프로세스 감독을 통한 언어 모델의 수학적 추론 향상'이라는 논문에서 가져온 것입니다. 간단히 말해, MCTS를 사용하여 원래 문제-최종_답변 데이터 세트를 확장하여 CoT 추론 단계를 생성하는 것입니다. 마지막으로 MATH-APS 데이터셋을 얻습니다.

관련 데이터 세트는 ModelScope에서 호스팅되었습니다:

PRM800K-단계별 데이터 세트:
https://modelscope.cn/datasets/AI-ModelScope/openai-prm800k-stepwise-critic/

MATH-APS 데이터 세트:
https://modelscope.cn/datasets/AI-ModelScope/MATH-APS/

수학-셰퍼드 데이터 세트:
https://modelscope.cn/datasets/AI-ModelScope/Math-Shepherd

제너레이터 훈련 팀은 강화 학습의 변형된 PPO 알고리즘을 사용하여 제너레이터를 훈련합니다. 즉, PPO 알고리즘은 보상 모델에서 제공하는 보상 정보를 사용하여 제너레이터를 훈련하는 동시에 기존 지식을 잃지 않도록 학습 과정에서 원래 액터에서 너무 많이 벗어나지 않도록 액터를 제한하는 것입니다. 현재 OpenR은 APPO, GRPO, TPPO의 세 가지 변형을 지원합니다.

Virifier 트레이닝 팀은 SFT 지도 학습을 사용하여 위의 MATH-APS 데이터 세트와 두 개의 오픈 소스 데이터 세트인 PRM800K 및 Math-Shepherd를 사용하여 PRM을 트레이닝했습니다. 특히 이 세 가지 단계별 데이터 세트에서 각 단계에 "+" 또는 "-" 레이블을 붙인 다음 PRM이 각 단계의 레이블을 예측하고 정답인지 오답인지 판단하도록 학습하게 했습니다.

이 모델은 PPO 학습을 위해 '단계별' 데이터를 사용하며, 그 결과 모델 가중치는 현재 SFT, PRM, RL 모델과 일부 GGUF 형식에 대한 체크포인트를 제공하는 ModelScope에서 호스팅되고 있습니다:

미스트랄-7b-sft 모델:
https://modelscope.cn/models/AI-ModelScope/mistral-7b-sft

RL 모델(GGUF 버전):
https://modelscope.cn/models/QuantFactory/math-shepherd-mistral-7b-rl-GGUF

PRM 모델링:
-GGUF 버전: https://modelscope.cn/models/QuantFactory/math-shepherd-mistral-7b-prm-GGUF
-PRM 모델: https://modelscope.cn/models/AI-ModelScope/math-shepherd-mistral-7b-prm

추론 배포 배포 시 OpenR은 지정된 생성기 및 검증기를 통해 검색 알고리즘을 사용하여 추론 과정과 최종 답변을 얻습니다. 현재 MCTS, 빔 검색, best_of_n이 지원됩니다.
从 OpenAI-o1 看大模型的复杂推理能力

이미지는 "OpenR: 대규모 언어 모델을 사용한 고급 추론을 위한 오픈 소스 프레임워크" 논문에서 가져온 것입니다. OpenR의 구조는 그림에 나와 있으며, 지금까지 OpenR은 훈련 데이터 수집부터 PRM 훈련, PRM을 사용한 학습 강화, 최종 모델 배포에 이르기까지 O1의 체인을 복제하여 구현하고 있습니다. OpenR은 현재 훈련 데이터 수집, PRM 훈련, 학습 강화를 위한 PRM 사용, 검색용 모델 배포에 이르기까지 O1을 복제하는 체인을 구현하고 있으며, 이 모든 작업을 커뮤니티가 학습하고 사용해 볼 수 있도록 오픈 소스로 공개하여 우리가 엿볼 수 있도록 하고 있습니다.

크리에이티브 스페이스 체험매직히치 커뮤니티 크리에이티브 스페이스에 OpenR의 추론 서비스를 배포했으며, 개발자는 다음 링크를 방문하여 온라인으로 OpenR의 효과를 체험할 수 있습니다: https://www.modelscope.cn/studios/modelscope/OpenR_Inference.

07 결론

위에서 살펴본 다단계 추론에 관한 논문들은 LLM이 중간 과정을 건너뛰는 대신 단계별로 추론하도록 하면 논리 관련 문제에 대한 정확도를 크게 높일 수 있음을 보여줍니다. LLM이 단계별로 추론하도록 하기 위해 간단한 단서 단어 엔지니어링으로 안내하는 것 외에도 중간 프로세스가 있는 일부 데이터 세트를 사용하여 미세 조정할 수 있습니다. 보다 효율적으로, 생성기가 생성한 결과를 검색하기 위해 생성기의 정확도를 단계별로 검증할 수 있는 검증자를 훈련시킬 수 있습니다.

지금까지의 추측과 논문으로 볼 때, o1을 향한 유력한 기술은 강력한 LLM 생성기와 LLM 검증기의 협력에 기반한 것으로 보입니다. 이런 종류의 왼발과 오른발이 스스로 반복하는 방식은 딥러닝에서 처음이 아니지만, 생성기를 훈련시키는 데만 비용이 매우 많이 드는 LLM 분야에 이러한 모델을 도입한 것은 OpenAI가 처음입니다.

따라서 o1을 복제하려면 먼저 생성기에 지원과 지침을 제공할 수 있는 검증자가 필요하며, 검증자 훈련에 필요한 데이터를 생성하기 위해 위의 CoT + 감독 미세 조정 및 몬테카를로 트리 검색 챕터를 참조하여 더 높은 품질의 데이터를 더 저렴한 비용으로 얻을 수 있습니다. 검증자를 훈련하는 데 필요한 데이터를 생성하기 위해 위의 CoT + 감독 미세 조정 및 몬테카를로 트리 검색 챕터를 참조하여 더 높은 품질의 데이터를 저렴한 비용으로 얻을 수 있습니다. 이러한 작업도 제시된 이유입니다.

마침내 완성도 높은 오픈소스 프로젝트를 발표했고, 그들의 작업을 바탕으로 우리의 생각과 아이디어를 정리할 수 있었습니다.

08 참조

대규모 언어 모델에서 추론을 유도하는 사고의 사슬
대규모 언어 모델은 제로 샷 추론기입니다.
STaR: 추론으로 부트스트랩 추론하기
상호 추론으로 소규모 LLM을 더 강력한 문제 해결사로 만드는 방법
수학 단어 문제를 푸는 검증자 훈련하기
단계별로 확인해 보겠습니다.
LLM 테스트 시간 계산을 최적으로 확장하는 것이 모델 파라미터를 확장하는 것보다 더 효과적일 수 있습니다.
OpenAI의 o1 모델 추론 패턴 비교 연구
OpenR: 대규모 언어 모델을 사용한 고급 추론을 위한 오픈 소스 프레임워크