はじめに
アフロディーテエンジンはPygmalionAIの公式バックエンドエンジンで、PygmalionAIサイトに推論エンドポイントを提供し、Hugging Face互換モデルの迅速な展開をサポートするように設計されています。このエンジンはvLLMのページド・アテンション技術を活用し、効率的なK/V管理と逐次バッチ処理を可能にし、推論速度とメモリ利用を大幅に改善します。
機能一覧
- 連続バッチ処理複数のリクエストを効率的に処理し、推論速度を向上させます。
- ページング・アテンションメモリの使用率を向上させるために、K/V管理を最適化します。
- CUDA最適化カーネル推論のパフォーマンスを向上させる
- 定量的サポートAQLM、AWQ、Bitsandbytesなど複数の定量化フォーマットをサポート。
- 分散推論高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。
- マルチデバイス対応NVIDIA、AMD、Intel GPU、Google TPUと互換性があります。
- Dockerのデプロイメントデプロイプロセスを簡素化するためにDockerイメージを提供する。
- API互換OpenAI互換のAPIをサポートし、既存システムへの統合を容易にします。
ヘルプの使用
設置プロセス
- 依存関係のインストール::
- Pythonのバージョン3.8から3.12がシステムにインストールされていることを確認してください。
- Linuxユーザーの場合、依存関係をインストールするには以下のコマンドを推奨する:
sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
- Windowsユーザーには、WSL2のインストールをお勧めします:
wsl --install sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
- アフロディーテ・エンジンのインストール::
- インストールにはpipを使う:
pip install -U aphrodite-engine
- プライミングモデル::
- 以下のコマンドを実行してモデルを起動する:
バッシュ
アフロディーテ ラン メタラマ/メタラマ-3.1-8B-インストラクション
- これで OpenAI 互換の API サーバーがデフォルトのポート 2242 で作成されます。
- 以下のコマンドを実行してモデルを起動する:
Dockerを使ったデプロイ
- Dockerイメージのプル::
docker pull alpindale/aphrodite-openai:latest
- Dockerコンテナの実行::
docker run --runtime nvidia --gpus all ୧-͈ᴗ-͈)◞ʱʱ
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host
alpindale/aphrodite-openai:latest ∕ -モデル NousResearch-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct ㊟ --tensorparallel
-テンソル並列サイズ 8
--api-keys "sk-empty"
主な機能
- 連続バッチ処理::
- Aphrodite Engineは、複数のリクエストを同時に処理できる連続バッチ処理技術により、推論速度を大幅に向上させた。ユーザーは、起動時にバッチ処理パラメータを指定するだけです。
- ページング・アテンション::
- このテクノロジーはK/V管理を最適化し、メモリ利用率を向上させる。ユーザーによる追加設定は不要で、最適化はシステムによって自動的に適用される。
- 定量的サポート::
- AQLM、AWQ、Bitsandbytesなど、複数の定量化形式がサポートされています。ユーザーは、モデルを開始する際に、希望する定量化フォーマットを指定することができます:
aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
- 分散推論::
- 高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。ユーザーは以下のコマンドで分散推論を開始できる:
aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
- API統合::
- Aphrodite EngineはOpenAI互換のAPIを提供し、既存システムへの統合を容易にします。ユーザーは以下のコマンドでAPIサーバーを起動できます:
バッシュ
aphrodite run --api-keys "your-api-key" メタラマ/メタラマ-3.1-8B-インストラクト
- Aphrodite EngineはOpenAI互換のAPIを提供し、既存システムへの統合を容易にします。ユーザーは以下のコマンドでAPIサーバーを起動できます: