GPUStack : gestion de grappes de GPU pour exécuter de grands modèles de langage et intégrer rapidement des services d'inférence communs pour les LLM.

Introduction générale

GPUStack 是一个开源的 GPU 集群管理工具,专为运行大语言模型(LLMs)而设计。它支持多种硬件,包括 Apple MacBooks、Windows PCs 和 Linux 服务器,能够轻松扩展 GPU 数量和节点,以满足不断增长的计算需求。GPUStack 提供分布式推理功能,支持单节点多 GPU 和多节点推理与服务,兼容 OpenAI API,简化用户和 API 密钥管理,并实时监控 GPU 性能和利用率。其轻量级 Python 包设计,确保最小的依赖和操作开销,是开发者和研究人员的理想选择。

GPUStack:管理GPU集群运行大语言模型,快速集成LLMs常用推理服务。

 

Liste des fonctions

  • 支持多种硬件:兼容 Apple Metal、NVIDIA CUDA、Ascend CANN、Moore Threads MUSA 等。
  • 分布式推理:支持单节点多 GPU 和多节点推理与服务。
  • 多种推理后端:支持 llama-box(llama.cpp)和 vLLM。
  • 轻量级 Python 包:最小依赖和操作开销。
  • OpenAI 兼容 API:提供与 OpenAI 标准兼容的 API 服务。
  • 用户和 API 密钥管理:简化用户和 API 密钥管理。
  • GPU 性能监控:实时监控 GPU 性能和利用率。
  • 令牌使用和速率监控:有效管理令牌使用和速率限制。

 

Utiliser l'aide

Processus d'installation

Linux 或 MacOS

  1. 打开终端。
  2. 运行以下命令安装 GPUStack:
   curl -sfL https://get.gpustack.ai | sh -s -
  1. 安装完成后,GPUStack 将作为服务运行在 systemd 或 launchd 系统上。

Windows (ordinateur)

  1. 以管理员身份运行 PowerShell(避免使用 PowerShell ISE)。
  2. 运行以下命令安装 GPUStack:
   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

Lignes directrices pour l'utilisation

configuration initiale

  1. 访问 GPUStack UI:在浏览器中打开 http://myserver.
  2. 使用默认用户名 admin 和初始密码登录。获取初始密码的方法:
    • Linux 或 MacOS:运行 cat /var/lib/gpustack/initial_admin_password.
    • Windows:运行 Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw.

创建 API 密钥

  1. 登录 GPUStack UI 后,点击导航菜单中的“API Keys”。
  2. 点击“New API Key”按钮,填写名称并保存。
  3. 复制生成的 API 密钥并妥善保存(仅在创建时可见)。

Utiliser l'API

  1. Définition des variables d'environnement :
   export GPUSTACK_API_KEY=myapikey
  1. 使用 curl 访问 OpenAI 兼容 API:
   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"stream": true
}'

运行和聊天

  1. 在终端中运行以下命令与 llama3.2 模型聊天:
   gpustack chat llama3.2 "tell me a joke."
  1. 在 GPUStack UI 中点击“Playground”进行交互。

Suivi et gestion

  1. 实时监控 GPU 性能和利用率。
  2. 管理用户和 API 密钥,跟踪令牌使用和速率。

支持的模型和平台

  • 支持的模型:LLaMA、Mistral 7B、Mixtral MoE、Falcon、Baichuan、Yi、Deepseek、Qwen、Phi、Grok-1 等。
  • 支持的多模态模型:Llama3.2-Vision、Pixtral、Qwen2-VL、LLaVA、InternVL2 等。
  • 支持的平台:MacOS、Linux、Windows。
  • 支持的加速器:Apple Metal、NVIDIA CUDA、Ascend CANN、Moore Threads MUSA,未来计划支持 AMD ROCm、Intel oneAPI、Qualcomm AI Engine。

文档和社区

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...