AIパーソナル・ラーニング
と実践的なガイダンス

Aphroditeエンジン:複数の数量化形式と分散推論をサポートする効率的なLLM推論エンジン。

はじめに

アフロディーテエンジンはPygmalionAIの公式バックエンドエンジンで、PygmalionAIサイトに推論エンドポイントを提供し、Hugging Face互換モデルの迅速な展開をサポートするように設計されています。このエンジンはvLLMのページド・アテンション技術を活用し、効率的なK/V管理と逐次バッチ処理を可能にし、推論速度とメモリ利用を大幅に改善します。

 

機能一覧

  • 連続バッチ処理複数のリクエストを効率的に処理し、推論速度を向上させます。
  • ページング・アテンションメモリの使用率を向上させるために、K/V管理を最適化します。
  • CUDA最適化カーネル推論のパフォーマンスを向上させる
  • 定量的サポートAQLM、AWQ、Bitsandbytesなど複数の定量化フォーマットをサポート。
  • 分散推論高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。
  • マルチデバイス対応NVIDIA、AMD、Intel GPU、Google TPUと互換性があります。
  • Dockerのデプロイメントデプロイプロセスを簡素化するためにDockerイメージを提供する。
  • API互換OpenAI互換のAPIをサポートし、既存システムへの統合を容易にします。

 

ヘルプの使用

設置プロセス

  1. 依存関係のインストール::
    • Pythonのバージョン3.8から3.12がシステムにインストールされていることを確認してください。
    • Linuxユーザーの場合、依存関係をインストールするには以下のコマンドを推奨する:
     sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
    
    • Windowsユーザーには、WSL2のインストールをお勧めします:
     wsl --install
    sudo apt update && sudo apt install python3 python3-pip git wget curl bzip2 tar
    
  2. アフロディーテ・エンジンのインストール::
    • インストールにはpipを使う:
     pip install -U aphrodite-engine
    
  3. プライミングモデル::
    • 以下のコマンドを実行してモデルを起動する: バッシュ
      アフロディーテ ラン メタラマ/メタラマ-3.1-8B-インストラクション
    • これで OpenAI 互換の API サーバーがデフォルトのポート 2242 で作成されます。

Dockerを使ったデプロイ

  1. Dockerイメージのプル::
   docker pull alpindale/aphrodite-openai:latest
  1. Dockerコンテナの実行::
   docker run --runtime nvidia --gpus all ୧-͈ᴗ-͈)◞ʱʱ
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 2242:2242 \
--ipc=host
alpindale/aphrodite-openai:latest ∕ -モデル NousResearch-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct ㊟ --tensorparallel
-テンソル並列サイズ 8
--api-keys "sk-empty"

主な機能

  1. 連続バッチ処理::
    • Aphrodite Engineは、複数のリクエストを同時に処理できる連続バッチ処理技術により、推論速度を大幅に向上させた。ユーザーは、起動時にバッチ処理パラメータを指定するだけです。
  2. ページング・アテンション::
    • このテクノロジーはK/V管理を最適化し、メモリ利用率を向上させる。ユーザーによる追加設定は不要で、最適化はシステムによって自動的に適用される。
  3. 定量的サポート::
    • AQLM、AWQ、Bitsandbytesなど、複数の定量化形式がサポートされています。ユーザーは、モデルを開始する際に、希望する定量化フォーマットを指定することができます:
     aphrodite run --quant-format AQLM meta-llama/Meta-Llama-3.1-8B-Instruct
    
  4. 分散推論::
    • 高コンテキスト長および高スループット要件に対応する8ビットKVキャッシュをサポート。ユーザーは以下のコマンドで分散推論を開始できる:
     aphrodite run --tensor-parallel-size 8 meta-llama/Meta-Llama-3.1-8B-Instruct
    
  5. API統合::
    • Aphrodite EngineはOpenAI互換のAPIを提供し、既存システムへの統合を容易にします。ユーザーは以下のコマンドでAPIサーバーを起動できます: バッシュ
      aphrodite run --api-keys "your-api-key" メタラマ/メタラマ-3.1-8B-インストラクト

無断転載を禁じます:チーフAIシェアリングサークル " Aphroditeエンジン:複数の数量化形式と分散推論をサポートする効率的なLLM推論エンジン。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語