DeepResearcher：複雑な問題を研究する強化学習ベースのドライビングAI

はじめに

DeepResearcherは、上海交通大学のGAIR-NLPチームによって開発されたオープンソースプロジェクトです。大規模言語モデル（LLM）に基づくインテリジェントな研究ツールで、強化学習（RL）を通じて実際のネットワーク環境でエンドツーエンドで学習される。このプロジェクトは、ユーザーが複雑な研究タスクを効率的に完了できるよう支援することを目的としている。DeepResearcherは7Bのパラメトリック・モデルをサポートし、Hugging Faceでオープンソース化されている。コードはGitHubから入手可能で、研究者、学生、技術愛好家に適している。

機能一覧

オートメーション研究質問が入力されると、ウェブが自動的に検索され、関連情報が照合されます。
クロスソース認証複数のソース（GoogleやBingなど）からデータをチェックし、信頼できる結果を得る。
自己反省的な調整検索結果に基づく自己評価と、調査の精度を高めるための方向転換。
研究プログラムの開発複雑な問題を扱う場合、調査ステップを自動的に生成します。
正直であり続けること。明確な答えが見つからない場合は、制限事項を直接記述する。
オープンソースモデルのサポート7Bパラメトリックモデルが提供され、ユーザーがダウンロードしてカスタマイズすることができます。

ヘルプの使用

DeepResearcherのインストールと使用には、ある程度の専門知識が必要ですが、公式ドキュメントに明確なガイドラインが記載されています。以下は、ユーザがすぐに使い始められるようにするための詳細な手順です。

設置プロセス

クローン・コード・リポジトリ
ターミナルで以下のコマンドを実行し、プロジェクトをローカルにダウンロードする：

git clone https://github.com/GAIR-NLP/DeepResearcher.git

プロジェクト・カタログにアクセスする：

cd DeepResearcher

仮想環境の構築
condaを使用して、独立したPython環境を作成し、依存関係の衝突を避ける：

conda create -n deepresearcher python=3.10

環境を活性化させる：

conda activate deepresearcher

コアの依存関係をインストールする
プロジェクトのルートディレクトリから以下のコマンドを順番に実行して、PyTorchとその他の必要なライブラリをインストールします：

pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
cd verl
pip3 install -e .
cd ../
pip3 install -r requirements.txt

これらのステップにより、モデルの実行に必要な基本環境が整っていることが確認される。

インストールの確認
以下のコマンドを入力して、PyTorchが正しくインストールされているかどうかを確認します：

python -c "import torch; print(torch.__version__)"

バージョン番号が表示されていれば（例：2.4.0）、インストールは成功です。

設定とスタートアップ

DeepResearcherは、学習と推論にRayフレームワークを使用しており、検索サービスの設定も必要です。以下はその方法である。

レイ・サービスの開始

ノードランキングの設定
ターミナルで以下のコマンドを入力し、ノード番号を設定する（これはマシンが1台しかない場合でも必要）：

export PET_NODE_RANK=0
ray start --head

検索サービスの設定

見せる ./scrl/handler/config.yaml検索APIキーを変更したい場合は、"Search API key "ボタンをクリックして変更できます：
- Serper APIを使う serper_api_key.
- Azure Bingを使用する。 azure_bing_search_subscription_key そして search_engine for Bing.
コンパイラ ./scrl/handler/server_handler.pyQwen-PlusのAPIキーを追加したい場合は、Qwen-PlusのAPIキーを追加してください：
```
client = OpenAI(
api_key="sk-xxx",
base_url="xxxx"
)
```

サービスプロセッサの起動
ターミナルで実行：

python ./scrl/handler/server_handler.py

サービス開始後、サービス・アドレスを記録して ./scrl/handler/config.yaml 正鵠を得る server_url_list.

メインプロセッサーを動かす
トレーニングホスト上で実行される：

python ./scrl/handler/handler.py

トレーニングモデル

トレーニングスクリプトの実行
プロジェクトのルート・ディレクトリで実行する：

bash train_grpo.sh

トレーニング・プロセスは、強化学習に基づいてモデルを最適化するもので、忍耐を要する。

用途と理由

研究成果の創出
評価スクリプトを実行する：

bash evaluate.sh

出力ファイルは ./outputs/{project_name}/{experiment_name}/rollout/rollout_step_0.json.

結果を見る
出力ファイルの名前を {experiment_name}_result.jsonに移動する。 ./evaluate/ フォルダで実行する：

python ./evaluate/cacluate_metrics.py {experiment_name}

スコアは ./evaluate/{experiment_name}_score.json.

注目の機能操作

自動化された調査とクロスソース検証
ユーザーが質問を入力すると、DeepResearcherは設定された検索エンジン（Google、Bingなど）からデータを収集し、結果を相互検証します。ログファイル ./outputs/research_log.txt 検証プロセスは文書化される。
自己反省的な調整
最初の検索結果が満足のいくものでなかった場合、システムは自動的にキーワードや検索戦略を調整する。例えば、"AI in healthcare "と入力すると、"AI medical latest technology "となり、より正確な結果が得られる。
正直であり続けること。
質問に対して明確な答えがない場合は、推測ではなく「明確な結論を出すには情報が不足しています」というような内容を返す。

ほら

インターネット接続が安定しており、検索機能がリアルタイムのデータに依存していることを確認してください。
トレーニングと推論には高い計算リソースが必要で、GPUが推奨される。
プロジェクトはまだ開発中なので、GitHubでアップデートを追うことをお勧めする。

以上の手順で、ユーザーはDeepResearcherを簡単にインストールして使用し、そのインテリジェントなリサーチ機能を体験することができる。

アプリケーションシナリオ

学術研究
研究者は、論文資料の検索、出典の確認、研究報告書の初稿作成に利用できる。
学生の学習
学生は、コースに関連した知識を整理し、課題やプロジェクト研究を迅速に完了するために使用することができます。
技術開発
開発者はこれを利用して技術動向を探り、業界の最新情報やソリューションを得ることができる。

品質保証

DeepResearcherは中国語をサポートしていますか？
サポート。ユーザーが中国語で質問を入力すると、中国語のリソースを優先的に検索し、英語のデータも扱うことができる。
GPUが必要ですか？
必須ではないが、GPUはトレーニングと推論を高速化できる。
最新バージョンの入手方法は？
プロジェクト・ディレクトリで実行 git pullその後、依存関係を再インストールして更新する。