OpenManus-RL: 지능형 신체 추론 및 의사 결정 향상을 위한 대규모 모델 미세 조정

45.8K 00

일반 소개

OpenManus-RL은 UIUC-Ulab과 다음과 같이 협력하고 있습니다. MetaGPT 커뮤니티의 OpenManus 팀이 공동으로 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트인 이 프로젝트는 강화 학습(RL) 기술을 통해 대규모 언어 모델(LLM) 지능의 추론 및 의사 결정 능력을 향상시키고, Deepseek-R1 및 QwQ-32B 등의 모델 경험을 바탕으로 새로운 튜닝 방법을 모색합니다. 이 팀은 코드, 데이터 세트 및 테스트 결과를 완전히 투명하게 공개하여 정기적으로 진행 상황을 공개하고 GAIA, AgentBench, WebShop, OSWorld 등과 같은 벤치마크에서 결과의 검증을 지원합니다. 이 프로젝트는 전 세계 개발자가 코드, 데이터 세트 또는 컴퓨팅 리소스를 제공하여 스마트 바디 개발을 위한 효율적인 생태계를 공동으로 구축할 수 있도록 장려합니다.

지금까지 오픈 소스 구축 Manus 퍼즐의 마지막 조각이 제자리에 놓이면서 MetaGPT는 정말 잘 진행되고 있습니다... 하지만... MGX 내추럴 커버 가능 Manus 모든 기능을 갖춘 오픈 소스 재생산은 실제로 피기백을 하고 있습니다.

기능 목록

지능형 신체 환경 구축스마트바디 환경 구성 도구의 온라인 RL 튜닝을 제공합니다.
궤적 데이터 수집복잡한 작업에 대한 행동 데이터를 수집하기 위해 Deepseek-R1 및 QwQ-32B와 같은 모델을 연결합니다.
RL 튜닝 지원맞춤형 지능형 신체 동작을 지원하는 강화 학습 방법.
벤치마킹 통합기본 제공 WebShop, GAIA, OSWorld, AgentBench 및 기타 테스트 환경.
다각화 전략생각의 나무, 몬테카를로 트리 검색과 같은 RL 전략의 통합.
커뮤니티 협업코드, 데이터 세트 등의 제출이 허용되며, 중요한 기여자는 논문의 공동 저자가 될 수 있습니다.
실시간 진행 상황 공유동적 업데이트를 통해 RL 튜닝 과정과 결과를 시연합니다.

도움말 사용

설치 프로세스

OpenManus-RL은 설치가 쉬우며 기본적인 파이썬 지식이 있는 사용자에게 적합합니다. 자세한 단계는 다음과 같습니다:

1. 콘다 환경 생성

종속성 충돌을 피하려면 Conda를 사용하는 것이 좋습니다:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl

사전 요구 사항: Conda를 설치해야 하며 다음에서 다운로드할 수 있습니다.아나콘다 공식 웹사이트다운로드.
활성화 후 단말기에 다음과 같이 표시됩니다.(openmanus-rl).

2. 프로젝트 복제

Git이 설치되어 있는지 확인합니다(확인:git --version소프트웨어를 설치하지 않은 경우 다음 링크에서 다운로드할 수 있습니다.git-scm.(다운로드):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL

코드를 다운로드하고 프로젝트 디렉토리로 이동합니다.

3. 종속성 설치

프로젝트 루트 디렉터리에서 실행합니다:

pip install -r requirements.txt

다운로드 속도가 느리면 국내 미러를 사용하세요:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

시각화 도구는 추가 설치가 필요합니다:

pip install matplotlib numpy

4. 구성 모델 및 데이터 세트

감독형 미세 조정(SFT)모델 및 데이터 집합을 지정합니다:

python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL

강화 학습 튜닝(GRPO): 보상 기능을 구성합니다:

python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

데이터 세트는 다음에서 사용할 수 있습니다.허깅페이스Get.

5. 프로젝트 실행

SFT를 실행하는 단일 GPU:

python -m openmanus_rl.sft --output_dir data/sft-output

GRPO를 실행하는 멀티 GPU(구성 필요)zero3.yaml):

accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

주요 기능

지능형 신체 환경 구축

절차::
1. 움직여야 합니다.python -m openmanus_rl.sft기본 환경을 생성합니다.
2. 구성 파일(예: 미션 목표 또는 보상 기능)을 수정합니다.
3. 수행python -m openmanus_rl.grpo튜닝을 시작하세요.
사용 시나리오특정 작업(예: 쇼핑 결정)에 맞게 지능형 신체 환경을 사용자 지정합니다.

데이터 수집 및 테스트

절차::
1. 구성 모델(예: Deepseek-R1):

python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1

테스트를 실행합니다:--benchmark GAIA결과는 다음 위치에 저장됩니다.data/카탈로그.

사용 시나리오복잡한 작업에서 인텔리전스의 성능을 분석합니다.

RL 튜닝 작업

절차::
1. GRPO 모드를 실행합니다:

python -m openmanus_rl.grpo --reward_funcs accuracy

교육 로그, 다음에 저장된 모델 보기data/grpo-output.

사용 시나리오지능형 신체 행동 최적화(예: 웹샵 구매 성공률 향상).

커뮤니티 기여

절차::
1. 프로젝트를 개인 GitHub 계정으로 포크합니다.
2. 로컬 수정 및 제출:

git add .  
git commit -m "优化RL策略"  
git push origin main

풀 리퀘스트를 제출하거나 이메일로 문의kunlunz2@illinois.edu.

사용 시나리오새로운 알고리즘이나 데이터세트를 기여하고 핵심 개발에 참여하세요.

주요 기능

RL 튜닝 지원

작동 방식: 보상 기능을 지정하여 GRPO를 실행합니다(예accuracy), 트레이닝 프로세스는 실시간 로그를 표시하고 완료되면 모델이 지정된 디렉터리에 저장됩니다.
효과지능형 바디는 OSWorld에서 멀티모달 작업 성능을 최적화하는 등 작업에 맞게 동작을 조정할 수 있습니다.

벤치마킹 통합

작동 방식: 실행python -m openmanus_rl.grpo --benchmark AgentBench를 클릭하면 시스템이 성공률, 응답 시간 등에 대한 보고서를 자동으로 생성합니다.
효과개발자가 모델 성능을 비교하는 데 도움이 되는 정량적 지표를 제공합니다.

다각화 전략

작동 방식: 구성 파일에서 정책을 선택합니다(예Tree-of-Thoughts), 튜닝 명령을 실행하여 효과를 테스트합니다.
효과장기 계획 작업에서 인텔리전스의 추론 능력 향상.

OpenManus-RL은 이러한 기능을 사용하여 사용자가 빠르게 시작할 수 있도록 도와줍니다. 이 프로젝트는 또한 커뮤니티 그룹(GitHub "커뮤니티 그룹" 참조)을 제공하며, 여기에 가입하여 개발자와 소통하고 최신 정보를 얻을 수 있습니다.

API 확인: OpenAI 호환 API 모델의 가용성을 확인합니다.

최신 AI 리소스

9개월 전

037K

Wan2.1: 소비자 GPU에서 고품질 비디오 생성하기

10개월 전

059.5K

Browser Use Web UI：运行AI智能体浏览网页，让AI能够自动操作网页的开源框架

브라우저 사용 웹 UI: 웹 탐색을 위해 AI 인텔리전스를 실행하기 위한 오픈 소스 프레임워크로, AI가 웹 페이지를 자동으로 조작할 수 있습니다.

7개월 전

061.4K

혼합 모션 1.0 - 텐센트 혼합 모션 팀 오픈 소스 텍스트 생성 3D 모션 모델

최신 AI 리소스

1주일 전

017.1K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

OpenManus-RL: 지능형 신체 추론 및 의사 결정 향상을 위한 대규모 모델 미세 조정

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 콘다 환경 생성

2. 프로젝트 복제

3. 종속성 설치

4. 구성 모델 및 데이터 세트

5. 프로젝트 실행

주요 기능

지능형 신체 환경 구축

데이터 수집 및 테스트

RL 튜닝 작업

커뮤니티 기여

주요 기능

RL 튜닝 지원

벤치마킹 통합

다각화 전략

ANUS: 작업 자동화 및 멀티 에이전트 협업을 위한 오픈 소스 AI 프레임워크

Eino: 바이트댄스의 오픈 소스 골랑 빅 모델 애플리케이션 개발 프레임워크

관련 문서

API 확인: OpenAI 호환 API 모델의 가용성을 확인합니다.

Wan2.1: 소비자 GPU에서 고품질 비디오 생성하기

브라우저 사용 웹 UI: 웹 탐색을 위해 AI 인텔리전스를 실행하기 위한 오픈 소스 프레임워크로, AI가 웹 페이지를 자동으로 조작할 수 있습니다.

혼합 모션 1.0 - 텐센트 혼합 모션 팀 오픈 소스 텍스트 생성 3D 모션 모델

댓글 없음

최신 컬렉션

최신 기사

OpenManus-RL: 지능형 신체 추론 및 의사 결정 향상을 위한 대규모 모델 미세 조정

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 콘다 환경 생성

2. 프로젝트 복제

3. 종속성 설치

4. 구성 모델 및 데이터 세트

5. 프로젝트 실행

주요 기능

지능형 신체 환경 구축

데이터 수집 및 테스트

RL 튜닝 작업

커뮤니티 기여

주요 기능

RL 튜닝 지원

벤치마킹 통합

다각화 전략

ANUS: 작업 자동화 및 멀티 에이전트 협업을 위한 오픈 소스 AI 프레임워크

Eino: 바이트댄스의 오픈 소스 골랑 빅 모델 애플리케이션 개발 프레임워크

관련 문서

API 확인: OpenAI 호환 API 모델의 가용성을 확인합니다.

Wan2.1: 소비자 GPU에서 고품질 비디오 생성하기

브라우저 사용 웹 UI: 웹 탐색을 위해 AI 인텔리전스를 실행하기 위한 오픈 소스 프레임워크로, AI가 웹 페이지를 자동으로 조작할 수 있습니다.

혼합 모션 1.0 - 텐센트 혼합 모션 팀 오픈 소스 텍스트 생성 3D 모션 모델

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사