跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

41.2K 00

Nexa 的本地推理框架使生成式 AI 模型在设备端部署变得无缝且高效。该技术支持包括 AMD、高通、英特尔、英伟达及自研芯片在内的多种芯片组，兼容所有主流操作系统。我们提供了生成式 AI 模型在多种常见任务上的基准测试数据，每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。

相比依赖云端 API，直接在设备端部署 AI 模型具有多项优势：

通过 Nexa 边缘推理技术，开发者可以在各类设备上高效运行生成式 AI 模型，同时实现最小资源消耗。

Nexa AI 端侧部署支持多模态 AI，使应用能够处理并整合多种数据类型：

通过采用NexaQuant，我们的多模态模型在保持顶尖性能的同时实现了卓越的压缩与加速效果。

我们提供了生成式 AI 模型在多种常见任务上的基准测试数据，每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。如果您有特定设备和目标用例，可参考相似性能设备来预估处理能力：

涵盖的生成式 AI 任务：

涵盖设备类型：

评估与语言模型的实时语音交互能力——处理音频输入生成音频输出

设备类型	芯片与设备	延迟 (TTFT)	解码速度	平均峰值内存
现代笔记本芯片 (GPU)	Apple M3 Pro GPU	0.67秒	20.46 token/秒	~990MB
现代笔记本芯片 (iGPU)	AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)	1.01秒	19.28 token/秒	~990MB
现代笔记本芯片 (CPU)	Intel Core Ultra 7 268V	1.89秒	11.88 token/秒	~990MB
旗舰移动芯片 CPU	高通骁龙 8 Gen 3 (三星 S24)	1.45秒	9.13 token/秒	~990MB
嵌入式物联网系统 CPU	树莓派 4 Model B	6.9秒	4.5 token/秒	~990MB

语音到语音基准测试使用 Moshi 配合 NexaQuant

评估基于文本输入生成文本的 AI 模型性能

设备类型	芯片与设备	初始延迟 (TTFT)	解码速度	平均峰值内存
现代笔记本芯片 (GPU)	Apple M3 Pro GPU	0.12秒	49.01 token/秒	~2580MB
现代笔记本芯片 (iGPU)	AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)	0.19秒	30.54 token/秒	~2580MB
现代笔记本芯片 (CPU)	Intel Core Ultra 7 268V	0.63秒	14.35 token/秒	~2580MB
旗舰移动芯片 CPU	高通骁龙 8 Gen 3 (三星 S24)	0.27秒	10.89 token/秒	~2580MB
嵌入式物联网系统 CPU	树莓派 4 Model B	1.27秒	5.31 token/秒	~2580MB

文本到文本基准测试使用 llama-3.2 配合 NexaQuant

评估 AI 解析视觉输入、生成响应、提取关键视觉信息及动态引导工具的能力——视觉输入，文本输出

设备类型	芯片与设备	初始延迟 (TTFT)	解码速度	平均峰值内存
现代笔记本芯片 (GPU)	Apple M3 Pro GPU	2.62秒	86.77 token/秒	~1093MB
现代笔记本芯片 (iGPU)	AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)	2.14秒	83.41 token/秒	~1093MB
现代笔记本芯片 (CPU)	Intel Core Ultra 7 268V	9.43秒	45.65 token/秒	~1093MB
旗舰移动芯片 CPU	高通骁龙 8 Gen 3 (三星 S24)	7.26秒	27.66 token/秒	~1093MB
嵌入式物联网系统 CPU	树莓派 4 Model B	22.32秒	6.15 token/秒	~1093MB