AIパーソナル・ラーニング
と実践的なガイダンス

TinyZero:DeepSeeK-R1ゼロのエピファニー効果を低コストで再現

はじめに

TinyZeroはveRLベースの強化学習モデルであり、次のようなことを再現するように設計されている。 DeepSeeK-R1 カウントダウンと乗算タスクにおけるZeroのパフォーマンス。驚くべきことに、このプロジェクトはわずか30ドルのランニングコストでDeepSeeK-R1 Zeroと同じ啓示を達成している(1時間あたり6.4ドルの2xH200を使用して5時間未満)。強化学習(RL)を通じて、3Bベース言語モデル(LM)は自律的に自己検証と検索能力を開発することができます。ユーザーは、簡単なセットアップとトレーニングのプロセスを通じて、TinyZeroのパワーと革新性を体験することができます。

TinyZero:DeepSeeK-R1ゼロのエピファニー効果を低コストで再現-1


 

機能一覧

  • カウントダウンタスクカウントダウンタスクにおけるモデルの学習を支援するため、データ準備とトレーニングプロセスをサポート。
  • 掛け算の課題モデルが乗算タスクで学習できるように、データ準備と学習プロセスをサポートします。
  • シングルGPUサポートモデルパラメータが1.5B以下の場合。
  • マルチGPUサポートより大きなパラメーターに適用できるモデルは、高度な推論能力を開発することができる。
  • アブレーションを指示するQWen-2.5-3Bインストラクターモデルを裏付ける実験結果。
  • 品質向上ツールツールの中には、モデルのトレーニングや使用体験を向上させるために、flash-attn、wandb、IPython、matplotlibが含まれている。

 

ヘルプの使用

設置プロセス

  1. 仮想環境を作る:
    conda create -n zero python=3.9
    
  2. PyTorchをインストールする(オプション):
    pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
    
  3. vllmをインストールする:
    pip3 install vllm==0.6.3
    
  4. レイを設置する:
    pip3 ray をインストール
    
  5. バージョンをインストールする:
    pip install -e .
    
  6. flash-attnをインストールする:
    pip3 install flash-attn --build-isolationなし
    
  7. 品質向上ツールの導入:
    pip install wandb IPython matplotlib
    

機能 操作の流れ

カウントダウンタスク

  1. データの準備:
    conda activate zero
    python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}。
    
  2. トレーニングのプロセス:
    conda activate zero
    export N_GPUS=1
    export BASE_MODEL={path_to_your_model} です。
    export DATA_DIR={path_to_your_dataset}。
    export ROLLOUT_TP_SIZE=1
    export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
    export VLLM_ATTENTION_BACKEND=XFORMERS
    bash ./scripts/train_tiny_zero.sh
    

3B+モデルトレーニング

  1. データの準備:
    conda activate zero
    python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}
    
  2. トレーニングのプロセス:
    conda activate zero
    export N_GPUS=2
    export BASE_MODEL={path_to_your_model} です。
    export DATA_DIR={path_to_your_dataset}を指定します。
    export ROLLOUT_TP_SIZE=2
    export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
    export VLLM_ATTENTION_BACKEND=XFORMERS
    bash ./scripts/train_tiny_zero.sh
    
無断転載を禁じます:チーフAIシェアリングサークル " TinyZero:DeepSeeK-R1ゼロのエピファニー効果を低コストで再現

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語