GPUStack: управление кластерами GPU для запуска больших языковых моделей и быстрой интеграции общих сервисов вывода для LLM.

Общее введение

GPUStack - это инструмент управления кластером GPU с открытым исходным кодом, предназначенный для работы с большими языковыми моделями (LLM). Он поддерживает широкий спектр оборудования, включая Apple MacBooks, Windows PC и Linux-серверы, и позволяет легко масштабировать количество GPU и узлов для удовлетворения растущих вычислительных потребностей. GPUStack предоставляет возможности распределенного анализа, поддерживает одноузловой мульти-GPU и многоузловой анализ и сервисы, а также совместим с OpenAI API, что упрощает управление пользователями и ключами API и мониторинг производительности и использования GPU в режиме реального времени. Он совместим с OpenAI API, упрощает управление пользователями и ключами API, а также отслеживает производительность и использование GPU в режиме реального времени. Легкий дизайн пакета Python обеспечивает минимум зависимостей и операционных накладных расходов, что делает его идеальным для разработчиков и исследователей.

GPUStack:管理GPU集群运行大语言模型,快速集成LLMs常用推理服务。

 

Список функций

  • Поддержка широкого спектра аппаратных средств: совместимость с Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA и др.
  • Распределенные выводы: поддерживаются выводы и сервисы для одного узла с несколькими GPU и нескольких узлов.
  • Несколько бэкендов для вывода: поддержка llama-box (llama.cpp) и vLLM.
  • Легкие пакеты Python: минимум зависимостей и операционных накладных расходов.
  • OpenAI Compatible API: предоставляет API-сервисы, совместимые со стандартом OpenAI.
  • Управление ключами пользователей и API: упрощает управление ключами пользователей и API.
  • Мониторинг производительности GPU: отслеживайте производительность и загрузку GPU в режиме реального времени.
  • Мониторинг использования токенов и скорости: эффективное управление использованием токенов и ограничением скорости.

 

Использование помощи

Процесс установки

Linux или MacOS

  1. Откройте терминал.
  2. Выполните следующую команду, чтобы установить GPUStack:
   curl -sfL https://get.gpustack.ai | sh -s -
  1. После установки GPUStack будет запущен как служба в системе systemd или launchd.

Windows (компьютер)

  1. Запустите PowerShell от имени администратора (избегайте использования PowerShell ISE).
  2. Выполните следующую команду, чтобы установить GPUStack:
   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

Руководство по использованию

первоначальная настройка

  1. Доступ к пользовательскому интерфейсу GPUStack: открыть в браузере http://myserver.
  2. Используйте имя пользователя по умолчанию admin и начальный пароль для входа в систему. Метод получения начального пароля:
    • Linux или MacOS: запустите cat /var/lib/gpustack/initial_admin_password.
    • Windows: работает Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw.

Создание ключей API

  1. После входа в GPUStack UI нажмите на "API Keys" в навигационном меню.
  2. Нажмите кнопку "Новый ключ API", введите имя и сохраните его.
  3. Скопируйте сгенерированный API-ключ и сохраните его должным образом (он виден только в момент создания).

Использование API

  1. Установка переменных окружения:
   export GPUSTACK_API_KEY=myapikey
  1. Используйте curl для доступа к API, совместимым с OpenAI:
   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"stream": true
}'

Беги и общайся

  1. Выполните следующую команду в терминале, чтобы пообщаться с моделью llama3.2:
   gpustack chat llama3.2 "tell me a joke."
  1. Нажмите "Playground" в пользовательском интерфейсе GPUStack, чтобы начать взаимодействие.

Мониторинг и управление

  1. Контролируйте производительность и загрузку GPU в режиме реального времени.
  2. Управляйте ключами пользователей и API, отслеживайте использование токенов и их стоимость.

Поддерживаемые модели и платформы

  • Поддерживаемые модели: LLaMA, Mistral 7B, Mixtral MoE, Falcon, Baichuan, Yi, Deepseek, Qwen, Phi, Grok-1 и другие.
  • Поддерживаемые мультимодальные модели: Llama3.2-Vision, Pixtral, Qwen2-VL, LLaVA, InternVL2 и другие.
  • Поддерживаемые платформы: macOS, Linux, Windows.
  • Поддерживаемые ускорители: Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA, в будущем планируется поддержка AMD ROCm, Intel oneAPI, Qualcomm AI Engine.

Документация и сообщество

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...