AIパーソナル・ラーニング
と実践的なガイダンス
アリが描いたカエル

Nexa圧縮推論によるクロスデバイス・エンドサイド生成AIマルチモーダルベンチマーキング

エグゼクティブ・サマリー

ネクサ ネイティブ推論フレームワークは、デバイス側での生成AIモデルの展開をシームレスかつ効率的にする。この技術は、AMD、Qualcomm、Intel、NVIDIA、および国産チップを含む幅広いチップセットをサポートし、すべての主要なオペレーティングシステムと互換性があります。一般的なさまざまなタスクに関する生成AIモデルのベンチマーク・データを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。

核となる強み:

  1. マルチモーダル機能 - バッキングテキスト、オーディオ、ビデオ、ビジュアルAI的生成タスク
  2. 幅広いハードウェア互換性 - PC、ノートPC、モバイルデバイス、組み込みシステムでAIモデルを実行
  3. リーディング・パフォーマンス - 当社のエッジ推論フレームワークNexaQuantを使用することで、高い精度を維持しながら、モデルの実行速度が2.5倍速くなり、必要なストレージとメモリが4倍少なくなります。

Nexa圧縮推論によるクロスデバイス・エンドサイド生成AIマルチモーダルベンチマーキング-1

なぜエンドサイドのAIなのか?

AIモデルをデバイス上に直接展開することには、クラウドAPIに頼るよりもいくつかの利点がある:

  • プライバシーとセキュリティ - 機器側でのデータ保持により機密性を確保
  • コスト削減 - 高価なクラウドベースの推論にお金を払う必要はない
  • スピードとレスポンス - ネットワークに依存しない低遅延推論
  • オフライン機能 - 接続性の低い地域でもAIアプリケーションは利用できる

Nexaのエッジ推論技術により、開発者は幅広いデバイス上で生成AIモデルを最小限のリソース消費で効率的に実行することができます。

マルチモーダルAI活用の新潮流

ネクサAI エンドサイド展開のサポートマルチモーダルAIこれにより、アプリケーションは複数のデータタイプを扱い、統合することができる:

  • テキストAI - チャットボット、文書要約、プログラミングアシスタント
  • 音声対音声AI - リアルタイム音声翻訳、AI音声アシスタント
  • ビジョンAI - ターゲット検出、画像記述、文書OCR処理

これはネクサクォント私たちのマルチモーダルモデルは、最高のパフォーマンスを維持しながら、優れた圧縮と加速を実現しています。

クロスデバイス生成AIタスク性能ベンチマーク

一般的な様々なタスクに関する生成AIモデルのベンチマークデータを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。特定のデバイスとターゲットとするユースケースがある場合、処理能力を見積もるために同様の性能を持つデバイスを参照することができます:

生成AIのタスク

  • 声から声へ
  • テキストからテキストへ
  • ビジュアルからテキストへ

機器の種類をカバーする:

  • 最新のノートブック用チップ - デスクトップとラップトップのネイティブAI処理に最適化
  • フラッグシップ・モバイル・チップ - スマートフォンやタブレットで動作するAIモデル
  • 組み込みシステム (~4 TOPS) - エッジコンピューティング・アプリケーション向け低消費電力デバイス

音声合成ベンチマーク

言語モデルによるリアルタイム音声対話能力の評価 - 処理音声入力が音声出力を生成

設備タイプ チップ&デバイス ディレイ(TTFT) デコード速度 平均ピーク・メモリー
最新のノートブック用チップ(GPU) アップルM3プロGPU 0.67秒 20.46トークン/秒 ~990MB
最新のノートブック用チップ(iGPU) AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) 1.01秒 19.28トークン/秒 ~990MB
最新のノートブック用チップ(CPU) インテル・コア・ウルトラ7 268V 1.89秒 11.88トークン/秒 ~990MB
フラッグシップ・モバイル・チップCPU クアルコムSnapdragon 8 Gen 3(サムスンS24) 1.45秒 9.13トークン/秒 ~990MB
組み込みIoTシステムCPU ラズベリーパイ4モデルB 6.9秒 4.5トークン/秒 ~990MB

MoshiとNexaQuantを使った音声合成ベンチマーク

テキスト・トゥ・テキスト・ベンチマーク

評価テキスト入力に基づいてテキストを生成するAIモデルのパフォーマンス

設備タイプ チップ&デバイス イニシャルディレイ(TTFT) デコード速度 平均ピーク・メモリー
最新のノートブック用チップ(GPU) アップルM3プロGPU 0.12秒 49.01トークン/秒 ~2580MB
最新のノートブック用チップ(iGPU) AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) 0.19秒 30.54トークン/秒 ~2580MB
最新のノートブック用チップ(CPU) インテル・コア・ウルトラ7 268V 0.63秒 14.35トークン/秒 ~2580MB
フラッグシップ・モバイル・チップCPU クアルコムSnapdragon 8 Gen 3(サムスンS24) 0.27秒 10.89トークン/秒 ~2580MB
組み込みIoTシステムCPU ラズベリーパイ4モデルB 1.27秒 5.31トークン/秒 ~2580MB

llama-3.2とNexaQuantを使ったText-to-textベンチマーク

ビジュアル・テキスト・ベンチマーク

AIの評価 ビジュアル入力を分析する回答を生成し、重要な視覚的情報を抽出し、ツールを動的にガイドする能力。ビジュアル入力、テキスト出力

設備タイプ チップ&デバイス イニシャルディレイ(TTFT) デコード速度 平均ピーク・メモリー
最新のノートブック用チップ(GPU) アップルM3プロGPU 2.62秒 86.77トークン/秒 ~1093MB
最新のノートブック用チップ(iGPU) AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) 2.14秒 83.41トークン/秒 ~1093MB
最新のノートブック用チップ(CPU) インテル・コア・ウルトラ7 268V 9.43秒 45.65トークン/秒 ~1093MB
フラッグシップ・モバイル・チップCPU クアルコムSnapdragon 8 Gen 3(サムスンS24) 7.26秒 27.66トークン/秒 ~1093MB
組み込みIoTシステムCPU ラズベリーパイ4モデルB 22秒32 6.15トークン/秒 ~1093MB

OmniVLMとNexaQuantを使用したVisual-to-textベンチマーキング


シーディーエヌワン
無断転載を禁じます:チーフAIシェアリングサークル " Nexa圧縮推論によるクロスデバイス・エンドサイド生成AIマルチモーダルベンチマーキング

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語