Nexa圧縮推論によるクロスデバイス・エンドサイド生成AIマルチモーダルベンチマーキング

27.4K 00

エグゼクティブ・サマリー

ネクサネイティブ推論フレームワークは、デバイス側での生成AIモデルの展開をシームレスかつ効率的にする。この技術は、AMD、Qualcomm、Intel、NVIDIA、および国産チップを含む幅広いチップセットをサポートし、すべての主要なオペレーティングシステムと互換性があります。一般的なさまざまなタスクに関する生成AIモデルのベンチマーク・データを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。

核となる強み：

マルチモーダル機能 - バッキングテキスト、オーディオ、ビデオ、ビジュアルAI的生成タスク
幅広いハードウェア互換性 - PC、ノートPC、モバイルデバイス、組み込みシステムでAIモデルを実行
リーディング・パフォーマンス - 当社のエッジ推論フレームワークNexaQuantを使用することで、高い精度を維持しながら、モデルの実行速度が2.5倍速くなり、必要なストレージとメモリが4倍少なくなります。

なぜエンドサイドのAIなのか？

AIモデルをデバイス上に直接展開することには、クラウドAPIに頼るよりもいくつかの利点がある：

プライバシーとセキュリティ - 機器側でのデータ保持により機密性を確保
コスト削減 - 高価なクラウドベースの推論にお金を払う必要はない
スピードとレスポンス - ネットワークに依存しない低遅延推論
オフライン機能 - 接続性の低い地域でもAIアプリケーションは利用できる

Nexaのエッジ推論技術により、開発者は幅広いデバイス上で生成AIモデルを最小限のリソース消費で効率的に実行することができます。

マルチモーダルAI活用の新潮流

ネクサAI エンドサイド展開のサポートマルチモーダルAIこれにより、アプリケーションは複数のデータタイプを扱い、統合することができる：

テキストAI - チャットボット、文書要約、プログラミングアシスタント
音声対音声AI - リアルタイム音声翻訳、AI音声アシスタント
ビジョンAI - ターゲット検出、画像記述、文書OCR処理

これはネクサクォント私たちのマルチモーダルモデルは、最高のパフォーマンスを維持しながら、優れた圧縮と加速を実現しています。

クロスデバイス生成AIタスク性能ベンチマーク

一般的な様々なタスクに関する生成AIモデルのベンチマークデータを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。特定のデバイスとターゲットとするユースケースがある場合、処理能力を見積もるために同様の性能を持つデバイスを参照することができます：

生成AIのタスク

声から声へ
テキストからテキストへ
ビジュアルからテキストへ

機器の種類をカバーする：

最新のノートブック用チップ - デスクトップとラップトップのネイティブAI処理に最適化
フラッグシップ・モバイル・チップ - スマートフォンやタブレットで動作するAIモデル
組み込みシステム (~4 TOPS) - エッジコンピューティング・アプリケーション向け低消費電力デバイス

音声合成ベンチマーク

言語モデルによるリアルタイム音声対話能力の評価 - 処理音声入力が音声出力を生成

設備タイプ	チップ＆デバイス	ディレイ（TTFT）	デコード速度	平均ピーク・メモリー
最新のノートブック用チップ（GPU）	アップルM3プロGPU	0.67秒	20.46トークン/秒	~990MB
最新のノートブック用チップ（iGPU）	AMD Ryzen AI 9 HX 370 iGPU（Radeon 890M）	1.01秒	19.28トークン/秒	~990MB
最新のノートブック用チップ（CPU）	インテル・コア・ウルトラ7 268V	1.89秒	11.88トークン/秒	~990MB
フラッグシップ・モバイル・チップCPU	クアルコムSnapdragon 8 Gen 3（サムスンS24）	1.45秒	9.13トークン/秒	~990MB
組み込みIoTシステムCPU	ラズベリーパイ4モデルB	6.9秒	4.5トークン/秒	~990MB

MoshiとNexaQuantを使った音声合成ベンチマーク

テキスト・トゥ・テキスト・ベンチマーク

評価テキスト入力に基づいてテキストを生成するAIモデルのパフォーマンス

設備タイプ	チップ＆デバイス	イニシャルディレイ（TTFT）	デコード速度	平均ピーク・メモリー
最新のノートブック用チップ（GPU）	アップルM3プロGPU	0.12秒	49.01トークン/秒	~2580MB
最新のノートブック用チップ（iGPU）	AMD Ryzen AI 9 HX 370 iGPU（Radeon 890M）	0.19秒	30.54トークン/秒	~2580MB
最新のノートブック用チップ（CPU）	インテル・コア・ウルトラ7 268V	0.63秒	14.35トークン/秒	~2580MB
フラッグシップ・モバイル・チップCPU	クアルコムSnapdragon 8 Gen 3（サムスンS24）	0.27秒	10.89トークン/秒	~2580MB
組み込みIoTシステムCPU	ラズベリーパイ4モデルB	1.27秒	5.31トークン/秒	~2580MB

llama-3.2とNexaQuantを使ったText-to-textベンチマーク

ビジュアル・テキスト・ベンチマーク

AIの評価 ビジュアル入力を分析する回答を生成し、重要な視覚的情報を抽出し、ツールを動的にガイドする能力。ビジュアル入力、テキスト出力

設備タイプ	チップ＆デバイス	イニシャルディレイ（TTFT）	デコード速度	平均ピーク・メモリー
最新のノートブック用チップ（GPU）	アップルM3プロGPU	2.62秒	86.77トークン/秒	~1093MB
最新のノートブック用チップ（iGPU）	AMD Ryzen AI 9 HX 370 iGPU（Radeon 890M）	2.14秒	83.41トークン/秒	~1093MB
最新のノートブック用チップ（CPU）	インテル・コア・ウルトラ7 268V	9.43秒	45.65トークン/秒	~1093MB
フラッグシップ・モバイル・チップCPU	クアルコムSnapdragon 8 Gen 3（サムスンS24）	7.26秒	27.66トークン/秒	~1093MB
組み込みIoTシステムCPU	ラズベリーパイ4モデルB	22秒32	6.15トークン/秒	~1093MB