Aphroditeエンジン：複数の数量化形式と分散推論をサポートする効率的なLLM推論エンジン。

1.8K 00

はじめに

アフロディーテエンジンはPygmalionAIの公式バックエンドエンジンで、PygmalionAIサイトに推論エンドポイントを提供し、Hugging Face互換モデルの迅速な展開をサポートするように設計されています。このエンジンはvLLMのページド・アテンション技術を活用し、効率的なK/V管理と逐次バッチ処理を可能にし、推論速度とメモリ利用を大幅に改善します。

機能一覧

連続バッチ処理複数のリクエストを効率的に処理し、推論速度を向上させます。
ページング・アテンションメモリの使用率を向上させるために、K/V管理を最適化します。
CUDA最適化カーネル推論のパフォーマンスを向上させる
定量的サポートAQLM、AWQ、Bitsandbytesなど複数の定量化フォーマットをサポート。
分散推論高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。
マルチデバイス対応NVIDIA、AMD、Intel GPU、Google TPUと互換性があります。
Dockerのデプロイメントデプロイプロセスを簡素化するためにDockerイメージを提供する。
API互換OpenAI互換のAPIをサポートし、既存システムへの統合を容易にします。

ヘルプの使用

設置プロセス

依存関係のインストール::
- Pythonのバージョン3.8から3.12がシステムにインストールされていることを確認してください。
- Linuxユーザーの場合、依存関係をインストールするには以下のコマンドを推奨する：
```
 sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
```
- Windowsユーザーには、WSL2のインストールをお勧めします：
```
 wsl --install
sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
```
アフロディーテ・エンジンのインストール::
- インストールにはpipを使う：
```
 pip install -U aphrodite-engine
```
プライミングモデル::
- 以下のコマンドを実行してモデルを起動する： bash aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct
- これで OpenAI 互換の API サーバーがデフォルトのポート 2242 で作成されます。

Dockerを使ったデプロイ

Dockerイメージのプル::

   docker pull alpindale/aphrodite-openai:latest

Dockerコンテナの実行::

   docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host \
alpindale/aphrodite-openai:latest \
--model NousResearch/Meta-Llama-3.1-8B-Instruct \
--tensor-parallel-size 8 \
--api-keys "sk-empty"

主な機能

連続バッチ処理::
- Aphrodite Engineは、複数のリクエストを同時に処理できる連続バッチ処理技術により、推論速度を大幅に向上させた。ユーザーは、起動時にバッチ処理パラメータを指定するだけです。
ページング・アテンション::
- このテクノロジーはK/V管理を最適化し、メモリ利用率を向上させる。ユーザーによる追加設定は不要で、最適化はシステムによって自動的に適用される。
定量的サポート::
- AQLM、AWQ、Bitsandbytesなど、複数の定量化形式がサポートされています。ユーザーは、モデルを開始する際に、希望する定量化フォーマットを指定することができます：
```
 aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
```
分散推論::
- 高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。ユーザーは以下のコマンドで分散推論を開始できる：
```
 aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
```
API統合::
- Aphrodite EngineはOpenAI互換のAPIを提供し、既存システムへの統合を容易にします。ユーザーは以下のコマンドでAPIサーバーを起動できます： bash aphrodite run --api-keys "your-api-key" meta-llama/Meta-Llama-3.1-8B-Instruct