Motor Afrodita: un motor de inferencia LLM eficiente que admite múltiples formatos de cuantificación e inferencia distribuida.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

35.5K 00

Introducción general

Aphrodite Engine es el motor backend oficial de PygmalionAI, diseñado para proporcionar un punto final de inferencia para los sitios PygmalionAI y apoyar el rápido despliegue de modelos compatibles con Hugging Face. El motor aprovecha la tecnología Paged Attention de vLLM para permitir la gestión eficiente de K/V y el procesamiento secuencial por lotes, lo que mejora significativamente la velocidad de inferencia y la utilización de la memoria. aphrodite Engine admite una amplia gama de formatos de cuantización e inferencia distribuida, y es adecuado para una amplia gama de dispositivos GPU y TPU modernos.

Lista de funciones

Procesamiento continuo por lotesGestión eficaz de múltiples solicitudes y mejora de la velocidad de inferencia.
Atención: Optimiza la gestión K/V para mejorar la utilización de la memoria.
Núcleo optimizado para CUDAMejora del rendimiento de la inferencia.
Apoyo cuantitativoAdmite múltiples formatos de cuantificación, como AQLM, AWQ, Bitsandbytes, etc.
inferencia distribuidaSoporte de caché KV de 8 bits para requisitos de gran longitud de contexto y alto rendimiento.
Compatibilidad con varios dispositivosCompatible con GPUs NVIDIA, AMD, Intel y TPUs Google.
Despliegue de DockerProporciona imágenes Docker para simplificar el proceso de despliegue.
Compatible con API: Admite API compatibles con OpenAI para facilitar la integración en los sistemas existentes.

Utilizar la ayuda

Proceso de instalación

Instalación de dependencias::
- Asegúrese de que las versiones 3.8 a 3.12 de Python están instaladas en su sistema.
- Para los usuarios de Linux, se recomienda el siguiente comando para instalar las dependencias:
```
 sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
```
- Para los usuarios de Windows, se recomienda una instalación WSL2:
```
 wsl --install
sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
```
Instalación del motor Afrodita::
- Utilice pip para instalar:
```
 pip install -U aphrodite-engine
```
modelo de cebado::
- Ejecute el siguiente comando para iniciar el modelo: bash aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct
- Esto creará un servidor API compatible con OpenAI con un puerto por defecto de 2242.

Despliegue con Docker

Extracción de una imagen Docker::

   docker pull alpindale/aphrodite-openai:latest

Ejecutar un contenedor Docker::

   docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host \
alpindale/aphrodite-openai:latest \
--model NousResearch/Meta-Llama-3.1-8B-Instruct \
--tensor-parallel-size 8 \
--api-keys "sk-empty"

Funciones principales

Procesamiento continuo por lotes::
- Aphrodite Engine puede procesar varias solicitudes al mismo tiempo gracias a la tecnología de procesamiento por lotes continuo, lo que mejora considerablemente la velocidad de inferencia. Los usuarios solo tienen que especificar los parámetros de procesamiento por lotes al arrancar.
Atención::
- Esta tecnología optimiza la gestión de K/V y mejora la utilización de la memoria. El usuario no necesita ninguna configuración adicional y el sistema aplica automáticamente la optimización.
Apoyo cuantitativo::
- Se admiten múltiples formatos de cuantificación, como AQLM, AWQ, Bitsandbytes, etc. El usuario puede especificar el formato de cuantificación deseado al iniciar el modelo:
```
 aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
```
inferencia distribuida::
- Admite caché KV de 8 bits para requisitos de gran longitud de contexto y alto rendimiento. Los usuarios pueden iniciar el razonamiento distribuido con el siguiente comando:
```
 aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
```
Integración API::
- Aphrodite Engine proporciona API compatibles con OpenAI para facilitar la integración en los sistemas existentes. Los usuarios pueden iniciar el servidor API con el siguiente comando: bash aphrodite run --api-keys "your-api-key" meta-llama/Meta-Llama-3.1-8B-Instruct

Últimos recursos sobre IA # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Llasa 1~8B: un modelo de conversión de texto en habla de código abierto para la generación y clonación de habla de alta calidad

hace 10 meses

044.9K

Research Rabbit：使用本地LLM进行网页研究和报告撰写，自动深入用户指定主题并生成总结。

Research Rabbit: investigación web y redacción de informes utilizando LLM nativo, profundizando automáticamente en temas especificados por el usuario y generando resúmenes.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Generar un informe de investigación en profundidad

hace 9 meses

041.9K

MemFree: un motor de búsqueda de inteligencia artificial para mezclar bases de conocimiento local e información de búsqueda

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Herramienta de búsqueda de IA

hace 1 año

036.8K

Runway Aleph - Nuevo modelo de edición de vídeo AI de Runway

Últimos recursos sobre IA

hace 5 meses

033.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Motor Afrodita: un motor de inferencia LLM eficiente que admite múltiples formatos de cuantificación e inferencia distribuida.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Despliegue con Docker

Funciones principales

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Pétalos: ejecución y puesta a punto de grandes modelos lingüísticos en la GPU compartida y distribuida, compartiendo los recursos de la GPU como una red BitTorrent.

Artículos relacionados

Llasa 1~8B: un modelo de conversión de texto en habla de código abierto para la generación y clonación de habla de alta calidad

Research Rabbit: investigación web y redacción de informes utilizando LLM nativo, profundizando automáticamente en temas especificados por el usuario y generando resúmenes.

MemFree: un motor de búsqueda de inteligencia artificial para mezclar bases de conocimiento local e información de búsqueda

Runway Aleph - Nuevo modelo de edición de vídeo AI de Runway

Sin comentarios

Últimas colecciones

Últimos artículos

Motor Afrodita: un motor de inferencia LLM eficiente que admite múltiples formatos de cuantificación e inferencia distribuida.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Despliegue con Docker

Funciones principales

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Pétalos: ejecución y puesta a punto de grandes modelos lingüísticos en la GPU compartida y distribuida, compartiendo los recursos de la GPU como una red BitTorrent.

Artículos relacionados

Llasa 1~8B: un modelo de conversión de texto en habla de código abierto para la generación y clonación de habla de alta calidad

Research Rabbit: investigación web y redacción de informes utilizando LLM nativo, profundizando automáticamente en temas especificados por el usuario y generando resúmenes.

MemFree: un motor de búsqueda de inteligencia artificial para mezclar bases de conocimiento local e información de búsqueda

Runway Aleph - Nuevo modelo de edición de vídeo AI de Runway

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos