일반 소개
OpenManus-RL은 UIUC-Ulab과 다음과 같이 협력하고 있습니다. MetaGPT 커뮤니티의 OpenManus 팀이 공동으로 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트인 이 프로젝트는 강화 학습(RL) 기술을 통해 대규모 언어 모델(LLM) 지능의 추론 및 의사 결정 능력을 향상시키고, Deepseek-R1 및 QwQ-32B 등의 모델 경험을 바탕으로 새로운 튜닝 방법을 모색합니다. 이 팀은 코드, 데이터 세트 및 테스트 결과를 완전히 투명하게 공개하여 정기적으로 진행 상황을 공개하고 GAIA, AgentBench, WebShop, OSWorld 등과 같은 벤치마크에서 결과의 검증을 지원합니다. 이 프로젝트는 전 세계 개발자가 코드, 데이터 세트 또는 컴퓨팅 리소스를 제공하여 스마트 바디 개발을 위한 효율적인 생태계를 공동으로 구축할 수 있도록 장려합니다.
지금까지 오픈 소스 구축 Manus 퍼즐의 마지막 조각이 제자리에 놓이면서 MetaGPT는 정말 잘 진행되고 있습니다... 하지만... MGX 내추럴 커버 가능 Manus 모든 기능을 갖춘 오픈 소스 재생산은 실제로 피기백을 하고 있습니다.

기능 목록
- 지능형 신체 환경 구축스마트바디 환경 구성 도구의 온라인 RL 튜닝을 제공합니다.
- 궤적 데이터 수집복잡한 작업에 대한 행동 데이터를 수집하기 위해 Deepseek-R1 및 QwQ-32B와 같은 모델을 연결합니다.
- RL 튜닝 지원맞춤형 지능형 신체 동작을 지원하는 강화 학습 방법.
- 벤치마킹 통합기본 제공 WebShop, GAIA, OSWorld, AgentBench 및 기타 테스트 환경.
- 다각화 전략생각의 나무, 몬테카를로 트리 검색과 같은 RL 전략의 통합.
- 커뮤니티 협업코드, 데이터 세트 등의 제출이 허용되며, 중요한 기여자는 논문의 공동 저자가 될 수 있습니다.
- 실시간 진행 상황 공유동적 업데이트를 통해 RL 튜닝 과정과 결과를 시연합니다.
도움말 사용
설치 프로세스
OpenManus-RL은 설치가 쉬우며 기본적인 파이썬 지식이 있는 사용자에게 적합합니다. 자세한 단계는 다음과 같습니다:
1. 콘다 환경 생성
종속성 충돌을 피하려면 Conda를 사용하는 것이 좋습니다:
conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
- 사전 요구 사항: Conda를 설치해야 하며 다음에서 다운로드할 수 있습니다.아나콘다 공식 웹사이트다운로드.
- 활성화 후 단말기에 다음과 같이 표시됩니다.
(openmanus-rl)
.
2. 프로젝트 복제
Git이 설치되어 있는지 확인합니다(확인:git --version
소프트웨어를 설치하지 않은 경우 다음 링크에서 다운로드할 수 있습니다.git-scm.(다운로드):
git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
- 코드를 다운로드하고 프로젝트 디렉토리로 이동합니다.
3. 종속성 설치
프로젝트 루트 디렉터리에서 실행합니다:
pip install -r requirements.txt
- 다운로드 속도가 느리면 국내 미러를 사용하세요:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- 시각화 도구는 추가 설치가 필요합니다:
pip install matplotlib numpy
4. 구성 모델 및 데이터 세트
- 감독형 미세 조정(SFT)모델 및 데이터 집합을 지정합니다:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
- 강화 학습 튜닝(GRPO): 보상 기능을 구성합니다:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count
- 데이터 세트는 다음에서 사용할 수 있습니다.허깅페이스Get.
5. 프로젝트 실행
- SFT를 실행하는 단일 GPU:
python -m openmanus_rl.sft --output_dir data/sft-output
- GRPO를 실행하는 멀티 GPU(구성 필요)
zero3.yaml
):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output
주요 기능
지능형 신체 환경 구축
- 절차::
- 움직여야 합니다.
python -m openmanus_rl.sft
기본 환경을 생성합니다. - 구성 파일(예: 미션 목표 또는 보상 기능)을 수정합니다.
- 수행
python -m openmanus_rl.grpo
튜닝을 시작하세요.
- 움직여야 합니다.
- 사용 시나리오특정 작업(예: 쇼핑 결정)에 맞게 지능형 신체 환경을 사용자 지정합니다.
데이터 수집 및 테스트
- 절차::
- 구성 모델(예: Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
- 테스트를 실행합니다:
--benchmark GAIA
결과는 다음 위치에 저장됩니다.data/
카탈로그.
- 사용 시나리오복잡한 작업에서 인텔리전스의 성능을 분석합니다.
RL 튜닝 작업
- 절차::
- GRPO 모드를 실행합니다:
python -m openmanus_rl.grpo --reward_funcs accuracy
- 교육 로그, 다음에 저장된 모델 보기
data/grpo-output
.
- 사용 시나리오지능형 신체 행동 최적화(예: 웹샵 구매 성공률 향상).
커뮤니티 기여
- 절차::
- 프로젝트를 개인 GitHub 계정으로 포크합니다.
- 로컬 수정 및 제출:
git add .
git commit -m "优化RL策略"
git push origin main
- 풀 리퀘스트를 제출하거나 이메일로 문의
kunlunz2@illinois.edu
.
- 사용 시나리오새로운 알고리즘이나 데이터세트를 기여하고 핵심 개발에 참여하세요.
주요 기능
RL 튜닝 지원
- 작동 방식: 보상 기능을 지정하여 GRPO를 실행합니다(예
accuracy
), 트레이닝 프로세스는 실시간 로그를 표시하고 완료되면 모델이 지정된 디렉터리에 저장됩니다. - 효과지능형 바디는 OSWorld에서 멀티모달 작업 성능을 최적화하는 등 작업에 맞게 동작을 조정할 수 있습니다.
벤치마킹 통합
- 작동 방식: 실행
python -m openmanus_rl.grpo --benchmark AgentBench
를 클릭하면 시스템이 성공률, 응답 시간 등에 대한 보고서를 자동으로 생성합니다. - 효과개발자가 모델 성능을 비교하는 데 도움이 되는 정량적 지표를 제공합니다.
다각화 전략
- 작동 방식: 구성 파일에서 정책을 선택합니다(예
Tree-of-Thoughts
), 튜닝 명령을 실행하여 효과를 테스트합니다. - 효과장기 계획 작업에서 인텔리전스의 추론 능력 향상.
OpenManus-RL은 이러한 기능을 사용하여 사용자가 빠르게 시작할 수 있도록 도와줍니다. 이 프로젝트는 또한 커뮤니티 그룹(GitHub "커뮤니티 그룹" 참조)을 제공하며, 여기에 가입하여 개발자와 소통하고 최신 정보를 얻을 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...