Aprendizagem pessoal com IA
e orientação prática

GPUStack: gerenciamento de clusters de GPU para executar modelos de linguagem grandes e integrar rapidamente serviços de inferência comuns para LLMs.

Introdução geral

O GPUStack é uma ferramenta de gerenciamento de clusters de GPU de código aberto projetada para executar modelos de linguagem grandes (LLMs). O GPUStack oferece recursos de inferência distribuída, suporta inferência e serviços de nó único, multi-GPU e multi-nó, e é compatível com a API OpenAI, simplificando o gerenciamento de chaves de usuário e API e o monitoramento em tempo real do desempenho e da utilização da GPU. Ele é compatível com a API OpenAI, simplifica o gerenciamento de chaves de usuário e de API e monitora o desempenho e a utilização da GPU em tempo real. Seu design de pacote Python leve garante o mínimo de dependências e sobrecarga operacional, tornando-o ideal para desenvolvedores e pesquisadores.

GPUStack: gerenciamento de clusters de GPU que executam grandes modelos de linguagem para integração rápida de serviços de inferência comuns para LLMs. -1


 

Lista de funções

  • Suporte a vários hardwares: compatível com Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA e muito mais.
  • Inferência distribuída: suporta inferência e serviços de nó único, multi-GPU e multi-nó.
  • Vários backends de inferência: suporte para llama-box (llama.cpp) e vLLM.
  • Pacotes Python leves: dependências e sobrecarga operacional mínimas.
  • API compatível com OpenAI: fornece serviços de API compatíveis com o padrão OpenAI.
  • Gerenciamento de chaves de usuário e API: simplifica o gerenciamento de chaves de usuário e API.
  • Monitoramento do desempenho da GPU: monitore o desempenho e a utilização da GPU em tempo real.
  • Uso de tokens e monitoramento de taxas: gerencie com eficiência o uso de tokens e a limitação de taxas.

 

Usando a Ajuda

Processo de instalação

Linux ou MacOS

  1. Abra o terminal.
  2. Execute o seguinte comando para instalar o GPUStack:
   curl -sfL https://get.gpustack.ai | sh -s -
  1. Após a instalação, o GPUStack será executado como um serviço no sistema systemd ou launchd.

Windows (computador)

  1. Execute o PowerShell como administrador (evite usar o PowerShell ISE).
  2. Execute o seguinte comando para instalar o GPUStack:
   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

Diretrizes para uso

Configuração inicial

  1. Acesso à interface do usuário do GPUStack: abrir no navegador http://myserver.
  2. Use o nome de usuário padrão administrador e a senha inicial para fazer login. Método para obter a senha inicial:
    • Linux ou MacOS: execute cat /var/lib/gpustack/initial_admin_password.
    • Windows: em execução Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw.

Criação de chaves de API

  1. Depois de fazer login na interface do usuário do GPUStack, clique em "API Keys" (Chaves de API) no menu de navegação.
  2. Clique no botão "New API Key" (Nova chave de API), preencha o nome e salve-o.
  3. Copie a chave de API gerada e salve-a corretamente (visível somente no momento da criação).

Usando a API

  1. Configuração de variáveis de ambiente:
   exportar GPUSTACK_API_KEY=myapikey
  1. Use curl para acessar APIs compatíveis com OpenAI:
   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2", \ -d '{
"messages": [
{ "role": "system", "content": "You are a helpful assistant."}, { "role": "user", "content": "You are a helpful assistant.
{"role": "user", "content": "Hello!"}
}, {"role": "user", "content": "Hello!
"stream": true
}'

Corra e converse

  1. Execute o seguinte comando no terminal para conversar com o modelo llama3.2:
   gpustack chat llama3.2 "conte-me uma piada".
  1. Clique em "Playground" na interface do usuário do GPUStack para interagir.

Monitoramento e gerenciamento

  1. Monitore o desempenho e a utilização da GPU em tempo real.
  2. Gerencie chaves de usuário e de API, rastreie o uso e as taxas de token.

Modelos e plataformas compatíveis

  • Modelos compatíveis: LLaMA, Mistral 7B, Mixtral MoE, Falcon, Baichuan, Yi, Deepseek, Qwen, Phi, Grok-1 e outros.
  • Modelos multimodais compatíveis: Llama3.2-Vision, Pixtral, Qwen2-VL, LLaVA, InternVL2 e outros.
  • Plataformas compatíveis: macOS, Linux, Windows.
  • Aceleradores suportados: Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA, com planos futuros para suportar AMD ROCm, Intel oneAPI, Qualcomm AI Engine.

Documentação e comunidade

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " GPUStack: gerenciamento de clusters de GPU para executar modelos de linguagem grandes e integrar rapidamente serviços de inferência comuns para LLMs.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil