딥리서처: 복잡한 문제를 연구하는 강화 학습 기반 구동 AI

최신 AI 리소스4 개월 전에 게시 됨 AI 공유 서클
1.8K 00

일반 소개

DeepResearcher는 상하이교통대학교의 GAIR-NLP 팀이 개발한 오픈 소스 프로젝트입니다. 강화 학습(RL)을 통해 실제 네트워크 환경에서 엔드투엔드로 학습된 대규모 언어 모델(LLM)을 기반으로 하는 지능형 연구 도구입니다. 이 프로젝트는 사용자가 복잡한 연구 과제를 효율적으로 완수할 수 있도록 돕는 것을 목표로 합니다. 자동으로 정보를 검색하고 데이터 정확도를 검증하며 상세한 결과를 생성하는 DeepResearcher는 7B 파라메트릭 모델을 지원하며 Hugging Face에서 오픈 소스화되었습니다. 이 코드는 GitHub를 통해 사용할 수 있으며 연구원, 학생, 기술 애호가에게 적합합니다.

DeepResearcher:基于强化学习驱动AI研究复杂问题DeepResearcher:基于强化学习驱动AI研究复杂问题

 

기능 목록

  • 자동화 연구질문이 입력되면 웹을 자동으로 검색하여 관련 정보를 수집합니다.
  • 교차 소스 인증신뢰할 수 있는 결과를 위해 여러 소스(예: Google, Bing)의 데이터를 확인합니다.
  • 자체 반영 조정검색 결과에 기반한 자체 평가 및 정확도 향상을 위한 연구 방향 재설정.
  • 연구 프로그램 개발복잡한 문제를 다룰 때 자동으로 연구 단계를 생성합니다.
  • 솔직함을 유지하세요.명확한 답변을 찾을 수 없는 경우 제한 사항을 직접 명시합니다.
  • 오픈 소스 모델 지원7B 파라메트릭 모델이 제공되며 사용자가 다운로드하여 사용자 지정할 수 있습니다.

 

도움말 사용

DeepResearcher를 설치하고 사용하려면 일정 수준의 기술 지식이 필요하지만 공식 문서에서 명확한 지침을 제공합니다. 다음은 사용자가 빠르게 시작할 수 있도록 도와주는 자세한 단계입니다.

설치 프로세스

  1. 복제 코드 리포지토리
    터미널에서 다음 명령을 실행하여 프로젝트를 로컬로 다운로드합니다:
git clone https://github.com/GAIR-NLP/DeepResearcher.git

프로젝트 카탈로그로 이동합니다:

cd DeepResearcher
  1. 가상 환경 만들기
    conda를 사용하여 별도의 Python 환경을 만들고 종속성 충돌을 피하세요:
conda create -n deepresearcher python=3.10

환경을 활성화합니다:

conda activate deepresearcher
  1. 핵심 종속성 설치
    프로젝트 루트 디렉토리에서 다음 명령을 차례로 실행하여 PyTorch 및 기타 필요한 라이브러리를 설치합니다:
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
cd verl
pip3 install -e .
cd ../
pip3 install -r requirements.txt

이러한 단계를 통해 모델을 실행하는 데 필요한 기본 환경이 갖추어져 있는지 확인합니다.

  1. 설치 확인
    다음 명령을 입력하여 PyTorch가 제대로 설치되었는지 확인합니다:
python -c "import torch; print(torch.__version__)"

버전 번호가 표시되면(예: 2.4.0) 설치가 성공한 것입니다.

구성 및 시작

딥리서처는 학습 및 추론에 Ray 프레임워크를 사용하며, 검색 서비스 구성도 필요합니다. 구성하는 방법은 다음과 같습니다.

레이 서비스 시작하기

  1. 노드 순위 설정
    터미널에 다음 명령을 입력하여 노드 번호를 설정합니다(머신이 하나만 있는 경우에도 필수):
export PET_NODE_RANK=0
ray start --head
  1. 검색 서비스 구성
  • 쇼(티켓) ./scrl/handler/config.yaml검색 API 키를 수정하려면 '검색 API 키' 버튼을 클릭하여 수정할 수 있습니다:
    • Serper API 사용: 다음과 같이 serper_api_key.
    • Azure Bing 사용: 다음을 입력합니다. azure_bing_search_subscription_key 를 설정하고 search_engine 을 클릭합니다.
  • 컴파일러 ./scrl/handler/server_handler.pyQwen-Plus API 키를 추가하려면 Qwen-Plus API 키를 추가합니다:
    client = OpenAI(
    api_key="sk-xxx",
    base_url="xxxx"
    )
    
  1. 서비스 프로세서 시작
    터미널에서 실행됩니다:
python ./scrl/handler/server_handler.py

서비스가 시작되면 서비스 주소를 기록하고 서비스 주소를 업데이트합니다. ./scrl/handler/config.yaml 정곡을 찌르세요 server_url_list.

  1. 메인 프로세서 실행
    교육 호스트에서 실행됩니다:
python ./scrl/handler/handler.py

교육 모델

  1. 교육 스크립트 실행
    프로젝트 루트 디렉토리에서 실행합니다:
bash train_grpo.sh

학습 과정은 강화 학습을 기반으로 모델을 최적화하며 인내심을 필요로 합니다.

사용 및 추론

  1. 연구 결과 생성
    평가 스크립트를 실행합니다:
bash evaluate.sh

출력 파일은 ./outputs/{project_name}/{experiment_name}/rollout/rollout_step_0.json.

  1. 결과 보기
    출력 파일의 이름을 다음과 같이 변경합니다. {experiment_name}_result.json로 이동 ./evaluate/ 폴더를 열고 실행합니다:
python ./evaluate/cacluate_metrics.py {experiment_name}

점수는 ./evaluate/{experiment_name}_score.json.

주요 기능 작동

  • 자동화된 리서치 및 교차 소스 검증
    사용자가 질문을 입력하면 DeepResearcher는 구성된 검색 엔진(예: Google, Bing)에서 데이터를 수집하고 결과를 교차 검증합니다. 로그 파일 ./outputs/research_log.txt 유효성 검사 프로세스는 문서화됩니다.
  • 자체 반영 조정
    초기 결과가 만족스럽지 않으면 시스템이 자동으로 키워드 또는 검색 전략을 조정합니다. 예를 들어, '의료 분야의 인공지능'을 입력하면 '인공지능 의료 최신 기술'로 변경되어 결과가 더 정확해질 수 있습니다.
  • 솔직함을 유지하세요.
    질문에 대한 명확한 답변이 없는 경우 추측 대신 "명확한 결론을 내릴 수 있는 정보가 충분하지 않습니다"와 같은 답변을 반환합니다.

주의

  • 인터넷 연결이 안정적인지, 검색 기능이 실시간 데이터에 의존하는지 확인하세요.
  • 훈련 및 추론에는 높은 연산 리소스가 필요하므로 GPU를 권장합니다.
  • 이 프로젝트는 아직 개발 중이므로 GitHub의 업데이트를 따라가는 것이 좋습니다.

이 단계를 통해 사용자는 쉽게 DeepResearcher를 설치하고 사용하여 지능형 리서치 기능을 경험할 수 있습니다.

 

애플리케이션 시나리오

  1. 학술 연구
    연구자는 이를 사용하여 논문 자료를 검색하고, 출처를 확인하고, 연구 보고서의 초안을 작성할 수 있습니다.
  2. 학생 학습
    학생들은 이를 사용하여 코스 관련 지식을 정리하고 과제 또는 프로젝트 연구를 빠르게 완료할 수 있습니다.
  3. 기술 개발
    개발자는 이를 통해 기술 트렌드를 탐색하고 업계 업데이트와 솔루션을 얻을 수 있습니다.

 

QA

  1. DeepResearcher는 중국어를 지원하나요?
    지원. 사용자는 중국어로 질문을 입력하면 중국어 리소스를 우선적으로 검색하고 영어 데이터도 처리할 수 있습니다.
  2. GPU가 필요하신가요?
    필수는 아니지만 GPU는 학습과 추론을 가속화할 수 있습니다. CPU도 실행할 수 있지만 속도가 느릴 뿐입니다.
  3. 최신 버전을 받으려면 어떻게 하나요?
    프로젝트 디렉토리에서 실행 git pull를 클릭한 다음 종속성을 다시 설치하여 업데이트합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...