エグゼクティブ・サマリー
ネクサ ネイティブ推論フレームワークは、デバイス側での生成AIモデルの展開をシームレスかつ効率的にする。この技術は、AMD、Qualcomm、Intel、NVIDIA、および国産チップを含む幅広いチップセットをサポートし、すべての主要なオペレーティングシステムと互換性があります。一般的なさまざまなタスクに関する生成AIモデルのベンチマーク・データを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。
核となる強み:
- マルチモーダル機能 - バッキングテキスト、オーディオ、ビデオ、ビジュアルAI的生成タスク
- 幅広いハードウェア互換性 - PC、ノートPC、モバイルデバイス、組み込みシステムでAIモデルを実行
- リーディング・パフォーマンス - 当社のエッジ推論フレームワークNexaQuantを使用することで、高い精度を維持しながら、モデルの実行速度が2.5倍速くなり、必要なストレージとメモリが4倍少なくなります。
なぜエンドサイドのAIなのか?
AIモデルをデバイス上に直接展開することには、クラウドAPIに頼るよりもいくつかの利点がある:
- プライバシーとセキュリティ - 機器側でのデータ保持により機密性を確保
- コスト削減 - 高価なクラウドベースの推論にお金を払う必要はない
- スピードとレスポンス - ネットワークに依存しない低遅延推論
- オフライン機能 - 接続性の低い地域でもAIアプリケーションは利用できる
Nexaのエッジ推論技術により、開発者は幅広いデバイス上で生成AIモデルを最小限のリソース消費で効率的に実行することができます。
マルチモーダルAI活用の新潮流
ネクサAI エンドサイド展開のサポートマルチモーダルAIこれにより、アプリケーションは複数のデータタイプを扱い、統合することができる:
- テキストAI - チャットボット、文書要約、プログラミングアシスタント
- 音声対音声AI - リアルタイム音声翻訳、AI音声アシスタント
- ビジョンAI - ターゲット検出、画像記述、文書OCR処理
これはネクサクォント私たちのマルチモーダルモデルは、最高のパフォーマンスを維持しながら、優れた圧縮と加速を実現しています。
クロスデバイス生成AIタスク性能ベンチマーク
一般的な様々なタスクに関する生成AIモデルのベンチマークデータを提供しており、それぞれ異なるタイプのデバイスでTOPS性能レベルでテストされています。特定のデバイスとターゲットとするユースケースがある場合、処理能力を見積もるために同様の性能を持つデバイスを参照することができます:
生成AIのタスク
- 声から声へ
- テキストからテキストへ
- ビジュアルからテキストへ
機器の種類をカバーする:
- 最新のノートブック用チップ - デスクトップとラップトップのネイティブAI処理に最適化
- フラッグシップ・モバイル・チップ - スマートフォンやタブレットで動作するAIモデル
- 組み込みシステム (~4 TOPS) - エッジコンピューティング・アプリケーション向け低消費電力デバイス
音声合成ベンチマーク
言語モデルによるリアルタイム音声対話能力の評価 - 処理音声入力が音声出力を生成
設備タイプ | チップ&デバイス | ディレイ(TTFT) | デコード速度 | 平均ピーク・メモリー |
---|---|---|---|---|
最新のノートブック用チップ(GPU) | アップルM3プロGPU | 0.67秒 | 20.46トークン/秒 | ~990MB |
最新のノートブック用チップ(iGPU) | AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) | 1.01秒 | 19.28トークン/秒 | ~990MB |
最新のノートブック用チップ(CPU) | インテル・コア・ウルトラ7 268V | 1.89秒 | 11.88トークン/秒 | ~990MB |
フラッグシップ・モバイル・チップCPU | クアルコムSnapdragon 8 Gen 3(サムスンS24) | 1.45秒 | 9.13トークン/秒 | ~990MB |
組み込みIoTシステムCPU | ラズベリーパイ4モデルB | 6.9秒 | 4.5トークン/秒 | ~990MB |
MoshiとNexaQuantを使った音声合成ベンチマーク
テキスト・トゥ・テキスト・ベンチマーク
評価テキスト入力に基づいてテキストを生成するAIモデルのパフォーマンス
設備タイプ | チップ&デバイス | イニシャルディレイ(TTFT) | デコード速度 | 平均ピーク・メモリー |
---|---|---|---|---|
最新のノートブック用チップ(GPU) | アップルM3プロGPU | 0.12秒 | 49.01トークン/秒 | ~2580MB |
最新のノートブック用チップ(iGPU) | AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) | 0.19秒 | 30.54トークン/秒 | ~2580MB |
最新のノートブック用チップ(CPU) | インテル・コア・ウルトラ7 268V | 0.63秒 | 14.35トークン/秒 | ~2580MB |
フラッグシップ・モバイル・チップCPU | クアルコムSnapdragon 8 Gen 3(サムスンS24) | 0.27秒 | 10.89トークン/秒 | ~2580MB |
組み込みIoTシステムCPU | ラズベリーパイ4モデルB | 1.27秒 | 5.31トークン/秒 | ~2580MB |
llama-3.2とNexaQuantを使ったText-to-textベンチマーク
ビジュアル・テキスト・ベンチマーク
AIの評価 ビジュアル入力を分析する回答を生成し、重要な視覚的情報を抽出し、ツールを動的にガイドする能力。ビジュアル入力、テキスト出力
設備タイプ | チップ&デバイス | イニシャルディレイ(TTFT) | デコード速度 | 平均ピーク・メモリー |
---|---|---|---|---|
最新のノートブック用チップ(GPU) | アップルM3プロGPU | 2.62秒 | 86.77トークン/秒 | ~1093MB |
最新のノートブック用チップ(iGPU) | AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) | 2.14秒 | 83.41トークン/秒 | ~1093MB |
最新のノートブック用チップ(CPU) | インテル・コア・ウルトラ7 268V | 9.43秒 | 45.65トークン/秒 | ~1093MB |
フラッグシップ・モバイル・チップCPU | クアルコムSnapdragon 8 Gen 3(サムスンS24) | 7.26秒 | 27.66トークン/秒 | ~1093MB |
組み込みIoTシステムCPU | ラズベリーパイ4モデルB | 22秒32 | 6.15トークン/秒 | ~1093MB |
OmniVLMとNexaQuantを使用したVisual-to-textベンチマーキング