Aphroditeエンジン:複数の数量化形式と分散推論をサポートする効率的なLLM推論エンジン。
はじめに
アフロディーテエンジンはPygmalionAIの公式バックエンドエンジンで、PygmalionAIサイトに推論エンドポイントを提供し、Hugging Face互換モデルの迅速な展開をサポートするように設計されています。このエンジンはvLLMのページド・アテンション技術を活用し、効率的なK/V管理と逐次バッチ処理を可能にし、推論速度とメモリ利用を大幅に改善します。
機能一覧
- 連続バッチ処理複数のリクエストを効率的に処理し、推論速度を向上させます。
- ページング・アテンションメモリの使用率を向上させるために、K/V管理を最適化します。
- CUDA最適化カーネル推論のパフォーマンスを向上させる
- 定量的サポートAQLM、AWQ、Bitsandbytesなど複数の定量化フォーマットをサポート。
- 分散推論高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。
- マルチデバイス対応NVIDIA、AMD、Intel GPU、Google TPUと互換性があります。
- Dockerのデプロイメントデプロイプロセスを簡素化するためにDockerイメージを提供する。
- API互換OpenAI互換のAPIをサポートし、既存システムへの統合を容易にします。
ヘルプの使用
設置プロセス
- 依存関係のインストール::- Pythonのバージョン3.8から3.12がシステムにインストールされていることを確認してください。
- Linuxユーザーの場合、依存関係をインストールするには以下のコマンドを推奨する:
 sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar- Windowsユーザーには、WSL2のインストールをお勧めします:
 wsl --install sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
- アフロディーテ・エンジンのインストール::- インストールにはpipを使う:
 pip install -U aphrodite-engine
- プライミングモデル::- 以下のコマンドを実行してモデルを起動する: bash
 aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct
- これで OpenAI 互換の API サーバーがデフォルトのポート 2242 で作成されます。
 
- 以下のコマンドを実行してモデルを起動する: 
Dockerを使ったデプロイ
- Dockerイメージのプル::
   docker pull alpindale/aphrodite-openai:latest
- Dockerコンテナの実行::
   docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host \
alpindale/aphrodite-openai:latest \
--model NousResearch/Meta-Llama-3.1-8B-Instruct \
--tensor-parallel-size 8 \
--api-keys "sk-empty"
主な機能
- 連続バッチ処理::- Aphrodite Engineは、複数のリクエストを同時に処理できる連続バッチ処理技術により、推論速度を大幅に向上させた。ユーザーは、起動時にバッチ処理パラメータを指定するだけです。
 
- ページング・アテンション::- このテクノロジーはK/V管理を最適化し、メモリ利用率を向上させる。ユーザーによる追加設定は不要で、最適化はシステムによって自動的に適用される。
 
- 定量的サポート::- AQLM、AWQ、Bitsandbytesなど、複数の定量化形式がサポートされています。ユーザーは、モデルを開始する際に、希望する定量化フォーマットを指定することができます:
 aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
- 分散推論::- 高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。ユーザーは以下のコマンドで分散推論を開始できる:
 aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
- API統合::- Aphrodite EngineはOpenAI互換のAPIを提供し、既存システムへの統合を容易にします。ユーザーは以下のコマンドでAPIサーバーを起動できます: bash
 aphrodite run --api-keys "your-api-key" meta-llama/Meta-Llama-3.1-8B-Instruct
 
- Aphrodite EngineはOpenAI互換のAPIを提供し、既存システムへの統合を容易にします。ユーザーは以下のコマンドでAPIサーバーを起動できます: 
© 著作権表示
記事の著作権 AIシェアリングサークル  無断転載はご遠慮ください。
関連記事
コメントはありません





 日本語
日本語  简体中文
简体中文  English
English  한국어
한국어  Русский
Русский  Español
Español