Aphrodite Engine: эффективный механизм вывода LLM, поддерживающий несколько форматов квантования и распределенный вывод.
Общее введение
Aphrodite Engine - это официальный бэкэнд-движок для PygmalionAI, предназначенный для обеспечения конечной точки вывода для сайтов PygmalionAI и поддержки быстрого развертывания моделей, совместимых с Hugging Face. Движок использует технологию vLLM Paged Attention для эффективного управления K/V и последовательной пакетной обработки, что значительно повышает скорость вычислений и использование памяти. aphrodite Engine поддерживает широкий спектр форматов квантования и распределенные вычисления, а также подходит для широкого спектра современных GPU и TPU устройств.
Список функций
- Непрерывная пакетная обработка: Эффективная обработка множества запросов и повышение скорости вычислений.
- Вызываемое внимание: Оптимизация управления K/V для повышения эффективности использования памяти.
- Ядро, оптимизированное для CUDA: Повышение эффективности выводов.
- Количественная поддержка: Поддерживает множество форматов квантования, таких как AQLM, AWQ, Bitsandbytes и др.
- распределённый вывод: поддержка 8-битного KV-кэша для требований к большой длине контекста и высокой пропускной способности.
- Поддержка нескольких устройствСовместимость с графическими процессорами NVIDIA, AMD, Intel и TPU Google.
- Развертывание Docker: Предоставьте образы Docker, чтобы упростить процесс развертывания.
- Совместимость с API: Поддерживает OpenAI-совместимые API для легкой интеграции в существующие системы.
Использование помощи
Процесс установки
- Установка зависимостей::
- Убедитесь, что в вашей системе установлен Python версий от 3.8 до 3.12.
- Для пользователей Linux рекомендуется выполнить следующую команду для установки зависимостей:
sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
- Для пользователей Windows рекомендуется установка WSL2:
wsl --install sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
- Установка двигателя Афродиты::
- Для установки используйте pip:
pip install -U aphrodite-engine
- модель грунтования::
- Выполните следующую команду, чтобы запустить модель:
bash
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct - Это создаст OpenAI-совместимый API-сервер с портом по умолчанию 2242.
- Выполните следующую команду, чтобы запустить модель:
Развертывание с помощью Docker
- Извлечение образа Docker::
docker pull alpindale/aphrodite-openai:latest
- Запуск контейнера Docker::
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host \
alpindale/aphrodite-openai:latest \
--model NousResearch/Meta-Llama-3.1-8B-Instruct \
--tensor-parallel-size 8 \
--api-keys "sk-empty"
Основные функции
- Непрерывная пакетная обработка::
- Aphrodite Engine значительно повышает скорость обработки выводов благодаря технологии непрерывной пакетной обработки, которая позволяет обрабатывать несколько запросов одновременно. Пользователи просто указывают параметры пакетной обработки при запуске.
- Вызываемое внимание::
- Эта технология оптимизирует управление K/V и повышает эффективность использования памяти. Пользователю не требуется дополнительная настройка, оптимизация применяется системой автоматически.
- Количественная поддержка::
- Поддерживаются различные форматы квантования, такие как AQLM, AWQ, Bitsandbytes и т.д. Пользователь может указать желаемый формат квантования при запуске модели:
aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
- распределённый вывод::
- Поддерживается 8-битный KV-кэш для требований к большой длине контекста и высокой пропускной способности. Пользователи могут запустить распределенные рассуждения с помощью следующей команды:
aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
- Интеграция API::
- Aphrodite Engine предоставляет API, совместимые с OpenAI, для легкой интеграции в существующие системы. Пользователи могут запустить сервер API с помощью следующей команды:
bash
aphrodite run --api-keys "your-api-key" meta-llama/Meta-Llama-3.1-8B-Instruct
- Aphrodite Engine предоставляет API, совместимые с OpenAI, для легкой интеграции в существующие системы. Пользователи могут запустить сервер API с помощью следующей команды:
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...