Marco-o1: 복잡한 문제 해결을 위한 개방형 추론 모델을 탐색하기 위해 미세 조정을 지시하는 Qwen2-7B 기반 OpenAI o1 모델의 오픈 소스 버전입니다.

38.3K 00

일반 소개

Marco-o1은 복잡한 현실 세계의 문제를 해결하기 위해 알리바바 국제 디지털 커머스 그룹(AIDC-AI)에서 개발한 개방형 추론 모델입니다. 이 모델은 복잡한 문제 해결 작업을 최적화하기 위해 생각의 사슬(CoT) 미세 조정, 몬테카를로 트리 검색(MCTS) 및 혁신적인 추론 전략을 결합하며, 수학, 물리학, 프로그래밍과 같이 표준적인 답이 있는 분야에 집중할 뿐만 아니라 명확한 기준이 없고 보상을 정량화하기 어려운 영역으로 일반화하기 위해 노력합니다. 이 프로젝트의 목표는 다국어 애플리케이션을 위한 대규모 추론 모델의 잠재력을 탐구하고, 지속적인 최적화와 개선을 통해 모델의 추론 능력과 적용 범위를 향상시키는 것입니다.

Marco-o1：基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型，探索开放式推理模型，解决复杂问题

기능 목록

생각의 사슬 미세 조정(CoT)전체 파라미터로 기본 모델을 미세 조정하고 오픈 소스 CoT 데이터 세트와 자체 연구 합성 데이터를 결합하여 모델의 추론 기능을 향상합니다.
몬테카를로 트리 검색(MCTS)모델 결과의 신뢰도를 사용하여 검색을 안내하고, 솔루션 공간을 확장하고 추론 경로를 최적화합니다.
추론 실행 전략혁신적인 추론 작업 전략과 반성적 메커니즘을 구현하여 다양한 수준의 세분화된 작업을 탐색하고 모델의 복잡한 문제 해결 능력을 향상시킵니다.
다국어 번역 과제대규모 추론 모델을 기계 번역 작업에 처음으로 적용하여 다국어 및 번역 영역에서 추론 시간 확장 법칙을 탐구합니다.
보상 모델 교육보다 정확한 보상 신호를 제공하고 트리 검색 결과의 무작위성을 줄이기 위해 결과 보상 모델링(ORM)과 프로세스 보상 모델링(PRM)을 개발합니다.
집중 학습 교육강화 학습 기법을 통해 모델의 의사 결정 과정을 최적화하여 문제 해결 능력을 더욱 향상시킵니다.

도움말 사용

설치 프로세스

GitHub 페이지 방문바로가기Marco-o1 GitHub 페이지.
클론 창고명령을 사용합니다.git clone https://github.com/AIDC-AI/Marco-o1.git리포지토리를 로컬에 복제합니다.
종속성 설치프로젝트 디렉토리로 이동하여pip install -r requirements.txt필요한 종속성을 설치합니다.

사용 가이드라인

모델 로드파이썬 환경에서는 다음 코드를 사용하여 모델을 로드합니다:

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "AIDC-AI/Marco-o1"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

추론의 예모델을 사용한 추론, 다음은 간단한 예입니다: python input_text = "How many 'r' are in strawberry?" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
다국어 번역Marco-o1은 다국어 번역 작업을 잘 수행하며, 다음은 번역의 예입니다: python input_text = "这个鞋拥有踩屎感" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

세부 기능 작동 흐름

생각의 사슬 미세 조정(CoT)::
- 데이터 준비오픈 소스 CoT 데이터 세트와 자체 연구 합성 데이터를 수집하고 대조합니다.
- 모델링 미세 조정위의 데이터를 사용하여 전체 매개 변수로 기본 모델을 미세 조정하여 추론을 개선합니다.
몬테카를로 트리 검색(MCTS)::
- 노드 표현MCTS 프레임워크에서 각 노드는 문제 해결 과정의 추론 상태를 나타냅니다.
- 모션 출력노드의 가능한 작업은 LLM에 의해 생성되며 추론 체인의 잠재적 단계를 나타냅니다.
- 롤백 및 보너스 계산롤백 단계 동안 LLM은 종료 상태까지 추론 프로세스를 계속 진행합니다.
- 부트스트랩 검색보상 점수를 사용하여 유망한 경로를 평가하고 선택하여 보다 신뢰할 수 있는 추론 체인으로 검색을 유도합니다.
추론 실행 전략::
- 액션 세분성검색 효율성과 정확성을 높이기 위해 MCTS 프레임워크 내에서 다양한 세부 단위로 작업을 탐색합니다.
- 반사 메커니즘모델에게 자기 성찰을 유도하면 복잡한 문제를 해결하는 능력이 크게 향상됩니다.
다국어 번역 과제::
- 미션 애플리케이션대규모 추론 모델을 기계 번역 작업에 적용하여 다국어 및 번역 영역에서 추론 시간 확장 법칙을 탐색합니다.
- 번역 예시속어 표현을 번역할 때 모델의 우수한 성능을 보여줍니다.
보상 모델 교육::
- 성과 보상 모델링(ORM)더 정확한 보상 신호를 제공하고 트리 검색 결과의 무작위성을 줄이도록 모델을 훈련합니다.
- 프로세스 보상 모델링(PRM)프로세스 보상 모델링을 통해 모델의 추론 경로를 더욱 최적화합니다.
집중 학습 교육::
- 의사 결정 최적화강화 학습 기법을 통해 모델의 의사 결정 과정을 최적화하고 문제 해결 능력을 향상시킵니다.