GPUStack: gestión de clusters de GPU para ejecutar grandes modelos lingüísticos e integrar rápidamente servicios comunes de inferencia para LLM.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

55.1K 00

Introducción general

GPUStack es una herramienta de código abierto para la gestión de clusters de GPU diseñada para ejecutar grandes modelos lingüísticos (LLM). GPUStack proporciona funciones de inferencia distribuida, admite servicios e inferencia multi-GPU y multi-nodos y es compatible con la API OpenAI, lo que simplifica la gestión de usuarios y claves API y la monitorización en tiempo real del rendimiento y la utilización de la GPU. Es compatible con la API OpenAI, simplifica la gestión de usuarios y claves API y monitoriza el rendimiento y la utilización de la GPU en tiempo real. Su diseño de paquete Python ligero garantiza un mínimo de dependencias y sobrecarga operativa, por lo que resulta ideal para desarrolladores e investigadores.

Lista de funciones

Compatible con múltiples hardware: Compatible con Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA y más.
Inferencia distribuida: admite inferencia y servicios multi-GPU y multinodo en un único nodo.
Múltiples backends de inferencia: soporte para llama-box (llama.cpp) y vLLM.
Paquetes Python ligeros: dependencias y sobrecarga operativa mínimas.
API compatible con OpenAI: Proporciona servicios de API compatibles con el estándar OpenAI.
Gestión de usuarios y claves API: simplifica la gestión de usuarios y claves API.
Monitorización del rendimiento de la GPU: Supervisa el rendimiento y la utilización de la GPU en tiempo real.
Supervisión del uso de tokens y de la velocidad: Gestione eficazmente el uso de tokens y la limitación de la velocidad.

Utilizar la ayuda

Proceso de instalación

Linux o MacOS

Abre el terminal.
Ejecute el siguiente comando para instalar GPUStack:

   curl -sfL https://get.gpustack.ai | sh -s -

Tras la instalación, GPUStack se ejecutará como un servicio en el sistema systemd o launchd.

Windows (ordenador)

Ejecute PowerShell como administrador (evite utilizar PowerShell ISE).
Ejecute el siguiente comando para instalar GPUStack:

   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

Normas de uso

configuración inicial

Acceso a la interfaz de usuario de GPUStack: Abrir en el navegador http://myserver.
Utilizar el nombre de usuario por defecto admin y la contraseña inicial para iniciar sesión. Método para obtener la contraseña inicial:
- Linux o MacOS: ejecute cat /var/lib/gpustack/initial_admin_password.
- Windows: en funcionamiento Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw.

Creación de claves API

Tras iniciar sesión en la interfaz de usuario de GPUStack, haga clic en "Claves API" en el menú de navegación.
Haga clic en el botón "Nueva clave API", introduzca el nombre y guárdela.
Copie la clave API generada y guárdela correctamente (visible sólo en el momento de la creación).

Uso de la API

Configuración de variables de entorno:

   export GPUSTACK_API_KEY=myapikey

Utilice curl para acceder a las API compatibles con OpenAI:

   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"stream": true
}'

Corre y chatea

Ejecuta el siguiente comando en el terminal para chatear con el modelo llama3.2:

   gpustack chat llama3.2 "tell me a joke."

Haz clic en "Playground" en GPUStack UI para interactuar.

Seguimiento y gestión

Supervisa el rendimiento y la utilización de la GPU en tiempo real.
Gestione las claves de usuario y API, realice un seguimiento del uso de tokens y de las tarifas.

Modelos y plataformas compatibles

Modelos compatibles: LLaMA, Mistral 7B, Mixtral MoE, Falcon, Baichuan, Yi, Deepseek, Qwen, Phi, Grok-1 y otros.
Modelos multimodales compatibles: Llama3.2-Vision, Pixtral, Qwen2-VL, LLaVA, InternVL2 y otros.
Plataformas compatibles: macOS, Linux, Windows.
Aceleradores soportados: Apple Metal, NVIDIA CUDA, Ascend CANN, Moore Threads MUSA, con planes futuros para soportar AMD ROCm, Intel oneAPI, Qualcomm AI Engine.

Documentación y Comunidad

Documentación oficial: visite Documentación de GPUStack Obtenga la guía completa y la documentación de la API.
Guía de contribuciones: Lectura Directrices de contribución Descubra cómo puede contribuir a GPUStack.

Últimos recursos sobre IA # AI Servicios abiertos

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Una-Propuesta-Una-Historia: Las Propuestas de Texto Generan Imágenes Coherentes con la Identidad de los Personajes

Últimos recursos sobre IA # AI Control de estilo de imagen # AI Java Proyecto de código abierto

hace 11 meses

037.7K

olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2

Últimos recursos sobre IA

hace 2 meses

026.2K

Folk: utilizar la IA para optimizar la gestión de las relaciones con los clientes

Últimos recursos sobre IA # AI Marketing

hace 12 meses

044.6K

Skyvern: automatización de flujos de trabajo basados en navegador con LLM y visión por ordenador

Últimos recursos sobre IA # Aplicación de carrocería inteligente # Inteligencia de automatización de escritorio

hace 10 meses

079.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

GPUStack: gestión de clusters de GPU para ejecutar grandes modelos lingüísticos e integrar rápidamente servicios comunes de inferencia para LLM.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Linux o MacOS

Windows (ordenador)

Normas de uso

configuración inicial

Creación de claves API

Uso de la API

Corre y chatea

Seguimiento y gestión

Modelos y plataformas compatibles

Documentación y Comunidad

OpenAlternative: una selección de alternativas de software de código abierto a los productos SaaS más utilizados, para encontrar las mejores alternativas de código abierto.

RMBG-2-Studio: programa de código abierto para la eliminación por lotes de fondos de imágenes y vídeos, optimizado para RMBG 2.0

Artículos relacionados

Una-Propuesta-Una-Historia: Las Propuestas de Texto Generan Imágenes Coherentes con la Identidad de los Personajes

olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2

Folk: utilizar la IA para optimizar la gestión de las relaciones con los clientes

Skyvern: automatización de flujos de trabajo basados en navegador con LLM y visión por ordenador

Sin comentarios

Últimas colecciones

Últimos artículos

GPUStack: gestión de clusters de GPU para ejecutar grandes modelos lingüísticos e integrar rápidamente servicios comunes de inferencia para LLM.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Linux o MacOS

Windows (ordenador)

Normas de uso

configuración inicial

Creación de claves API

Uso de la API

Corre y chatea

Seguimiento y gestión

Modelos y plataformas compatibles

Documentación y Comunidad

OpenAlternative: una selección de alternativas de software de código abierto a los productos SaaS más utilizados, para encontrar las mejores alternativas de código abierto.

RMBG-2-Studio: programa de código abierto para la eliminación por lotes de fondos de imágenes y vídeos, optimizado para RMBG 2.0

Artículos relacionados

Una-Propuesta-Una-Historia: Las Propuestas de Texto Generan Imágenes Coherentes con la Identidad de los Personajes

olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2

Folk: utilizar la IA para optimizar la gestión de las relaciones con los clientes

Skyvern: automatización de flujos de trabajo basados en navegador con LLM y visión por ordenador

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos