内容摘要
Nexa 的本地推理框架使生成式 AI 模型在设备端部署变得无缝且高效。该技术支持包括 AMD、高通、英特尔、英伟达及自研芯片在内的多种芯片组,兼容所有主流操作系统。我们提供了生成式 AI 模型在多种常见任务上的基准测试数据,每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。
核心优势:
- 多模态能力 - 支持文本、音频、视频和视觉类生成式 AI 任务
- 广泛硬件兼容性 - 可在 PC、笔记本电脑、移动设备和嵌入式系统运行 AI 模型
- 领先性能 - 通过我们的边缘推理框架 NexaQuant,模型运行速度提升 2.5 倍,存储和内存需求降低 4 倍,同时保持高精度
为何选择端侧 AI?
相比依赖云端 API,直接在设备端部署 AI 模型具有多项优势:
- 隐私与安全 - 数据保留在设备端确保机密性
- 降低成本 - 无需支付昂贵的云端推理费用
- 速度与响应 - 低延迟推理无需依赖网络
- 离线能力 - 在低连接区域仍可使用 AI 应用
通过 Nexa 边缘推理技术,开发者可以在各类设备上高效运行生成式 AI 模型,同时实现最小资源消耗。
多模态 AI 应用新趋势
Nexa AI 端侧部署支持多模态 AI,使应用能够处理并整合多种数据类型:
- 文本 AI - 聊天机器人、文档摘要、编程助手
- 语音到语音 AI - 实时语音翻译、AI 语音助手
- 视觉 AI - 目标检测、图像描述、文档 OCR 处理
通过采用NexaQuant,我们的多模态模型在保持顶尖性能的同时实现了卓越的压缩与加速效果。
跨设备生成式 AI 任务性能基准
我们提供了生成式 AI 模型在多种常见任务上的基准测试数据,每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。如果您有特定设备和目标用例,可参考相似性能设备来预估处理能力:
涵盖的生成式 AI 任务:
- 语音到语音
- 文本到文本
- 视觉到文本
涵盖设备类型:
- 现代笔记本芯片 - 为桌面和笔记本本地 AI 处理优化
- 旗舰移动芯片 - 在智能手机和平板运行的 AI 模型
- 嵌入式系统 (~4 TOPS) - 面向边缘计算应用的低功耗设备
语音到语音基准测试
评估与语言模型的实时语音交互能力——处理音频输入生成音频输出
设备类型 | 芯片与设备 | 延迟 (TTFT) | 解码速度 | 平均峰值内存 |
---|---|---|---|---|
现代笔记本芯片 (GPU) | Apple M3 Pro GPU | 0.67秒 | 20.46 token/秒 | ~990MB |
现代笔记本芯片 (iGPU) | AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) | 1.01秒 | 19.28 token/秒 | ~990MB |
现代笔记本芯片 (CPU) | Intel Core Ultra 7 268V | 1.89秒 | 11.88 token/秒 | ~990MB |
旗舰移动芯片 CPU | 高通骁龙 8 Gen 3 (三星 S24) | 1.45秒 | 9.13 token/秒 | ~990MB |
嵌入式物联网系统 CPU | 树莓派 4 Model B | 6.9秒 | 4.5 token/秒 | ~990MB |
语音到语音基准测试使用 Moshi 配合 NexaQuant
文本到文本基准测试
评估基于文本输入生成文本的 AI 模型性能
设备类型 | 芯片与设备 | 初始延迟 (TTFT) | 解码速度 | 平均峰值内存 |
---|---|---|---|---|
现代笔记本芯片 (GPU) | Apple M3 Pro GPU | 0.12秒 | 49.01 token/秒 | ~2580MB |
现代笔记本芯片 (iGPU) | AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) | 0.19秒 | 30.54 token/秒 | ~2580MB |
现代笔记本芯片 (CPU) | Intel Core Ultra 7 268V | 0.63秒 | 14.35 token/秒 | ~2580MB |
旗舰移动芯片 CPU | 高通骁龙 8 Gen 3 (三星 S24) | 0.27秒 | 10.89 token/秒 | ~2580MB |
嵌入式物联网系统 CPU | 树莓派 4 Model B | 1.27秒 | 5.31 token/秒 | ~2580MB |
文本到文本基准测试使用 llama-3.2 配合 NexaQuant
视觉到文本基准测试
评估 AI 解析视觉输入、生成响应、提取关键视觉信息及动态引导工具的能力——视觉输入,文本输出
设备类型 | 芯片与设备 | 初始延迟 (TTFT) | 解码速度 | 平均峰值内存 |
---|---|---|---|---|
现代笔记本芯片 (GPU) | Apple M3 Pro GPU | 2.62秒 | 86.77 token/秒 | ~1093MB |
现代笔记本芯片 (iGPU) | AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) | 2.14秒 | 83.41 token/秒 | ~1093MB |
现代笔记本芯片 (CPU) | Intel Core Ultra 7 268V | 9.43秒 | 45.65 token/秒 | ~1093MB |
旗舰移动芯片 CPU | 高通骁龙 8 Gen 3 (三星 S24) | 7.26秒 | 27.66 token/秒 | ~1093MB |
嵌入式物联网系统 CPU | 树莓派 4 Model B | 22.32秒 | 6.15 token/秒 | ~1093MB |
视觉到文本基准测试使用 OmniVLM 配合 NexaQuant