Aphrodite Engine: эффективный механизм вывода LLM, поддерживающий несколько форматов квантования и распределенный вывод.

Общее введение

Aphrodite Engine - это официальный бэкэнд-движок для PygmalionAI, предназначенный для обеспечения конечной точки вывода для сайтов PygmalionAI и поддержки быстрого развертывания моделей, совместимых с Hugging Face. Движок использует технологию vLLM Paged Attention для эффективного управления K/V и последовательной пакетной обработки, что значительно повышает скорость вычислений и использование памяти. aphrodite Engine поддерживает широкий спектр форматов квантования и распределенные вычисления, а также подходит для широкого спектра современных GPU и TPU устройств.

 

Список функций

  • Непрерывная пакетная обработка: Эффективная обработка множества запросов и повышение скорости вычислений.
  • Вызываемое внимание: Оптимизация управления K/V для повышения эффективности использования памяти.
  • Ядро, оптимизированное для CUDA: Повышение эффективности выводов.
  • Количественная поддержка: Поддерживает множество форматов квантования, таких как AQLM, AWQ, Bitsandbytes и др.
  • распределённый вывод: поддержка 8-битного KV-кэша для требований к большой длине контекста и высокой пропускной способности.
  • Поддержка нескольких устройствСовместимость с графическими процессорами NVIDIA, AMD, Intel и TPU Google.
  • Развертывание Docker: Предоставьте образы Docker, чтобы упростить процесс развертывания.
  • Совместимость с API: Поддерживает OpenAI-совместимые API для легкой интеграции в существующие системы.

 

Использование помощи

Процесс установки

  1. Установка зависимостей::
    • Убедитесь, что в вашей системе установлен Python версий от 3.8 до 3.12.
    • Для пользователей Linux рекомендуется выполнить следующую команду для установки зависимостей:
     sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
    
    • Для пользователей Windows рекомендуется установка WSL2:
     wsl --install
    sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
    
  2. Установка двигателя Афродиты::
    • Для установки используйте pip:
     pip install -U aphrodite-engine
    
  3. модель грунтования::
    • Выполните следующую команду, чтобы запустить модель: bash
      aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct
    • Это создаст OpenAI-совместимый API-сервер с портом по умолчанию 2242.

Развертывание с помощью Docker

  1. Извлечение образа Docker::
   docker pull alpindale/aphrodite-openai:latest
  1. Запуск контейнера Docker::
   docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host \
alpindale/aphrodite-openai:latest \
--model NousResearch/Meta-Llama-3.1-8B-Instruct \
--tensor-parallel-size 8 \
--api-keys "sk-empty"

Основные функции

  1. Непрерывная пакетная обработка::
    • Aphrodite Engine значительно повышает скорость обработки выводов благодаря технологии непрерывной пакетной обработки, которая позволяет обрабатывать несколько запросов одновременно. Пользователи просто указывают параметры пакетной обработки при запуске.
  2. Вызываемое внимание::
    • Эта технология оптимизирует управление K/V и повышает эффективность использования памяти. Пользователю не требуется дополнительная настройка, оптимизация применяется системой автоматически.
  3. Количественная поддержка::
    • Поддерживаются различные форматы квантования, такие как AQLM, AWQ, Bitsandbytes и т.д. Пользователь может указать желаемый формат квантования при запуске модели:
     aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
    
  4. распределённый вывод::
    • Поддерживается 8-битный KV-кэш для требований к большой длине контекста и высокой пропускной способности. Пользователи могут запустить распределенные рассуждения с помощью следующей команды:
     aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
    
  5. Интеграция API::
    • Aphrodite Engine предоставляет API, совместимые с OpenAI, для легкой интеграции в существующие системы. Пользователи могут запустить сервер API с помощью следующей команды: bash
      aphrodite run --api-keys "your-api-key" meta-llama/Meta-Llama-3.1-8B-Instruct
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...