AIパーソナル・ラーニング
と実践的なガイダンス

GPUStack:GPUクラスターを管理し、大規模な言語モデルを実行し、LLMのための一般的な推論サービスを迅速に統合する。

はじめに

GPUStackは、大規模言語モデル(LLM)を実行するために設計されたオープンソースのGPUクラスタ管理ツールです。GPUStackは、Apple MacBook、Windows PC、Linuxサーバを含む幅広いハードウェアをサポートし、GPUとノードの数を簡単に拡張して、コンピューティング需要の増加に対応します。 GPUStackは、分散推論機能を提供し、シングルノードマルチGPUとマルチノードの推論とサービスをサポートし、OpenAI APIと互換性があり、ユーザとAPIキー管理を簡素化し、GPUのパフォーマンスと利用率をリアルタイムに監視します。OpenAI APIと互換性があり、ユーザーとAPIキーの管理を簡素化し、GPUパフォーマンスと利用率をリアルタイムで監視します。軽量なPythonパッケージ設計により、依存性と運用オーバーヘッドを最小限に抑え、開発者や研究者に最適です。

GPUStack:大規模言語モデルを実行するGPUクラスタを管理し、LLMの共通推論サービスを高速に統合する。-1


 

機能一覧

  • 幅広いハードウェアに対応:Apple Metal、NVIDIA CUDA、Ascend CANN、Moore Threads MUSAなどに対応。
  • 分散推論:シングルノード・マルチGPU、マルチノードの推論とサービスをサポート。
  • 複数の推論バックエンド: llama-box (llama.cpp) と vLLM をサポート。
  • 軽量Pythonパッケージ:依存性と運用オーバーヘッドを最小化。
  • OpenAI互換API:OpenAI標準と互換性のあるAPIサービスを提供します。
  • ユーザーとAPIキーの管理:ユーザーとAPIキーの管理を簡素化します。
  • GPUパフォーマンス監視:GPUのパフォーマンスと利用状況をリアルタイムで監視します。
  • トークン使用量とレートの監視:トークン使用量とレート制限を効率的に管理します。

 

ヘルプの使用

設置プロセス

LinuxまたはMacOS

  1. ターミナルを開く。
  2. 以下のコマンドを実行し、GPUStackをインストールしてください:
   curl -sfL https://get.gpustack.ai | sh -s -s
  1. インストール後、GPUStackはsystemdまたはlaunchdシステム上のサービスとして実行されます。

ウィンドウズ

  1. PowerShellを管理者として実行する(PowerShell ISEの使用は避ける)。
  2. 以下のコマンドを実行し、GPUStackをインストールしてください:
   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

使用ガイドライン

初期設定

  1. GPUStack UIへのアクセス:ブラウザで開く http://myserver.
  2. デフォルトのユーザー名を使う 管理者 と初期パスワードを入力してログインします。初期パスワードの取得方法
    • LinuxまたはMacOS:実行 cat /var/lib/gpustack/initial_admin_password.
    • ウィンドウズ:実行中 Get-Content -Path "$env:APPDATAgpustack↩initial_admin_password" -Raw.

APIキーの作成

  1. GPUStackのUIにログイン後、ナビゲーションメニューの「API Keys」をクリックしてください。
  2. New API Key "ボタンをクリックし、名前を入力して保存します。
  3. 生成されたAPIキーをコピーし、適切に保存します(作成時のみ表示されます)。

APIの使用

  1. 環境変数の設定:
   export GPUSTACK_API_KEY=myapikey
  1. OpenAI互換のAPIにアクセスするにはcurlを使う:
   curl http://myserver/v1-openai/chat/completions
-H "Content-Type: application/json" ୧-͈ᴗ-͈
-H "Authorization: Bearer $GPUSTACK_API_KEY"
-d '{
"model": "llama3.2", \ -d '{".
「メッセージ": [
{ "role": "system", "content": "あなたは親切なアシスタントです。"}, { "role": "user", "content": "あなたは親切なアシスタントです。
{ "role": "user", "content": "こんにちは。}
}, { "role": "user", "content": "こんにちは!
「stream": true
}'

ラン&チャット

  1. ターミナルで以下のコマンドを実行し、llama3.2モデルとチャットする:
   gpustack chat llama3.2 "tell me a joke.".
  1. GPUStack UIの "Playground "をクリックしてください。

モニタリングと管理

  1. GPUのパフォーマンスと使用率をリアルタイムで監視。
  2. ユーザーキーとAPIキーを管理し、トークンの使用状況とレートを追跡します。

対応モデルとプラットフォーム

  • 対応機種:LLaMA、Mistral 7B、Mixtral MoE、Falcon、Baichuan、Yi、Deepseek、Qwen、Phi、Grok-1など。
  • 対応マルチモーダルモデル:Llama3.2-Vision、Pixtral、Qwen2-VL、LLaVA、InternVL2、その他。
  • 対応プラットフォーム:macOS、Linux、Windows。
  • 対応アクセラレータ:Apple Metal、NVIDIA CUDA、Ascend CANN、Moore Threads MUSA、将来的にはAMD ROCm、Intel oneAPI、Qualcomm AI Engineをサポートする予定。

ドキュメンテーションとコミュニティ

無断転載を禁じます:チーフAIシェアリングサークル " GPUStack:GPUクラスターを管理し、大規模な言語モデルを実行し、LLMのための一般的な推論サービスを迅速に統合する。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語