AI Personal Learning
und praktische Anleitung

GPUStack: Verwaltung von GPU-Clustern zur Ausführung großer Sprachmodelle und zur schnellen Integration allgemeiner Inferenzdienste für LLMs.

Allgemeine Einführung

GPUStack ist ein Open-Source-GPU-Cluster-Management-Tool, das für die Ausführung von Large Language Models (LLMs) entwickelt wurde. Es unterstützt eine breite Palette von Hardware, einschließlich Apple MacBooks, Windows-PCs und Linux-Servern, und erleichtert die Skalierung der Anzahl von GPUs und Knoten, um wachsenden Rechenanforderungen gerecht zu werden. GPUStack bietet verteilte Inferenzfunktionen, unterstützt Single-Node-Multi-GPU- und Multi-Node-Inferenz und Services und ist mit der OpenAI-API kompatibel, was die Benutzer- und API-Schlüsselverwaltung sowie die Echtzeitüberwachung der GPU-Leistung und -Nutzung vereinfacht. Sie ist mit der OpenAI-API kompatibel, vereinfacht die Benutzer- und API-Schlüsselverwaltung und überwacht die GPU-Leistung und -Auslastung in Echtzeit. Sein leichtgewichtiges Python-Paketdesign sorgt für minimale Abhängigkeiten und einen minimalen operativen Overhead, was es ideal für Entwickler und Forscher macht.

GPUStack: Verwaltung von GPU-Clustern, auf denen große Sprachmodelle laufen, für die schnelle Integration von gemeinsamen Inferenzdiensten für LLMs. -1


 

Funktionsliste

  • Unterstützt eine breite Palette von Hardware: Kompatibel mit Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA und mehr.
  • Verteilte Inferenz: unterstützt Single-Node-Multi-GPU- und Multi-Node-Inferenz und -Dienste.
  • Mehrere Inferenz-Backends: Unterstützung für llama-box (llama.cpp) und vLLM.
  • Leichtgewichtige Python-Pakete: minimale Abhängigkeiten und minimaler operativer Overhead.
  • OpenAI-kompatible API: Bietet API-Dienste, die mit dem OpenAI-Standard kompatibel sind.
  • Benutzer- und API-Schlüsselverwaltung: Vereinfacht die Benutzer- und API-Schlüsselverwaltung.
  • GPU-Leistungsüberwachung: Überwachen Sie die GPU-Leistung und -Nutzung in Echtzeit.
  • Token-Nutzungs- und Ratenüberwachung: Effiziente Verwaltung der Token-Nutzung und Ratenbegrenzung.

 

Hilfe verwenden

Ablauf der Installation

Linux oder MacOS

  1. Öffnen Sie das Terminal.
  2. Führen Sie den folgenden Befehl aus, um GPUStack zu installieren:
   curl -sfL https://get.gpustack.ai | sh -s -
  1. Nach der Installation wird GPUStack als Dienst auf dem systemd- oder launchd-System ausgeführt.

Windows (Computer)

  1. Führen Sie PowerShell als Administrator aus (vermeiden Sie die Verwendung von PowerShell ISE).
  2. Führen Sie den folgenden Befehl aus, um GPUStack zu installieren:
   Invoke-Ausdruck (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

Richtlinien für die Verwendung

Ersteinrichtung

  1. Zugang zu GPUStack UI: im Browser öffnen http://myserver.
  2. Verwenden Sie den Standard-Benutzernamen admin und das Anfangspasswort für die Anmeldung. Methode zum Abrufen des Anfangspassworts:
    • Linux oder MacOS: Ausführen cat /var/lib/gpustack/initial_admin_password.
    • Windows: läuft Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw.

API-Schlüssel erstellen

  1. Nach der Anmeldung in der GPUStack UI klicken Sie im Navigationsmenü auf "API Keys".
  2. Klicken Sie auf die Schaltfläche "Neuer API-Schlüssel", geben Sie den Namen ein und speichern Sie ihn.
  3. Kopieren Sie den generierten API-Schlüssel und speichern Sie ihn ordnungsgemäß (nur zum Zeitpunkt der Erstellung sichtbar).

Verwendung der API

  1. Setzen von Umgebungsvariablen:
   export GPUSTACK_API_KEY=myapikey
  1. Verwenden Sie curl, um auf OpenAI-kompatible APIs zuzugreifen:
   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2", \ -d '{
"messages": [
{ "role": "system", "content": "Sie sind ein hilfreicher Assistent."}, { "role": "user", "content": "Sie sind ein hilfreicher Assistent.
{"role": "user", "content": "Hallo!"}
}, {"Rolle": "Benutzer", "Inhalt": "Hallo!
"stream": true
}'

Laufen und Chatten

  1. Führen Sie den folgenden Befehl im Terminal aus, um mit dem Modell llama3.2 zu chatten:
   gpustack chat llama3.2 "erzähl mir einen Witz".
  1. Klicken Sie in der GPUStack-Benutzeroberfläche auf "Spielplatz", um zu interagieren.

Überwachung und Verwaltung

  1. Überwachen Sie die GPU-Leistung und -Nutzung in Echtzeit.
  2. Verwalten Sie Benutzer- und API-Schlüssel, verfolgen Sie die Nutzung von Token und Tarifen.

Unterstützte Modelle und Plattformen

  • Unterstützte Modelle: LLaMA, Mistral 7B, Mixtral MoE, Falcon, Baichuan, Yi, Deepseek, Qwen, Phi, Grok-1, und andere.
  • Unterstützte multimodale Modelle: Llama3.2-Vision, Pixtral, Qwen2-VL, LLaVA, InternVL2, und andere.
  • Unterstützte Plattformen: macOS, Linux, Windows.
  • Unterstützte Beschleuniger: Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA, mit zukünftigen Plänen zur Unterstützung von AMD ROCm, Intel oneAPI, Qualcomm AI Engine.

Dokumentation und Gemeinschaft

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " GPUStack: Verwaltung von GPU-Clustern zur Ausführung großer Sprachmodelle und zur schnellen Integration allgemeiner Inferenzdienste für LLMs.

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)