AI个人学习
和实操指南

跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

内容摘要

Nexa 的本地推理框架使生成式 AI 模型在设备端部署变得无缝且高效。该技术支持包括 AMD、高通、英特尔、英伟达及自研芯片在内的多种芯片组,兼容所有主流操作系统。我们提供了生成式 AI 模型在多种常见任务上的基准测试数据,每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。

核心优势:

  1. 多模态能力 - 支持文本、音频、视频和视觉类生成式 AI 任务
  2. 广泛硬件兼容性 - 可在 PC、笔记本电脑、移动设备和嵌入式系统运行 AI 模型
  3. 领先性能 - 通过我们的边缘推理框架 NexaQuant,模型运行速度提升 2.5 倍,存储和内存需求降低 4 倍,同时保持高精度

跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术-1

为何选择端侧 AI?

相比依赖云端 API,直接在设备端部署 AI 模型具有多项优势:

  • 隐私与安全 - 数据保留在设备端确保机密性
  • 降低成本 - 无需支付昂贵的云端推理费用
  • 速度与响应 - 低延迟推理无需依赖网络
  • 离线能力 - 在低连接区域仍可使用 AI 应用

通过 Nexa 边缘推理技术,开发者可以在各类设备上高效运行生成式 AI 模型,同时实现最小资源消耗。

多模态 AI 应用新趋势

Nexa AI 端侧部署支持多模态 AI,使应用能够处理并整合多种数据类型:

  • 文本 AI - 聊天机器人、文档摘要、编程助手
  • 语音到语音 AI - 实时语音翻译、AI 语音助手
  • 视觉 AI - 目标检测、图像描述、文档 OCR 处理

通过采用NexaQuant,我们的多模态模型在保持顶尖性能的同时实现了卓越的压缩与加速效果。

跨设备生成式 AI 任务性能基准

我们提供了生成式 AI 模型在多种常见任务上的基准测试数据,每个任务均在不同类型设备上进行了 TOPS 性能级别的测试。如果您有特定设备和目标用例,可参考相似性能设备来预估处理能力:

涵盖的生成式 AI 任务:

  • 语音到语音
  • 文本到文本
  • 视觉到文本

涵盖设备类型:

  • 现代笔记本芯片 - 为桌面和笔记本本地 AI 处理优化
  • 旗舰移动芯片 - 在智能手机和平板运行的 AI 模型
  • 嵌入式系统 (~4 TOPS) - 面向边缘计算应用的低功耗设备

语音到语音基准测试

评估与语言模型的实时语音交互能力——处理音频输入生成音频输出

设备类型 芯片与设备 延迟 (TTFT) 解码速度 平均峰值内存
现代笔记本芯片 (GPU) Apple M3 Pro GPU 0.67秒 20.46 token/秒 ~990MB
现代笔记本芯片 (iGPU) AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) 1.01秒 19.28 token/秒 ~990MB
现代笔记本芯片 (CPU) Intel Core Ultra 7 268V 1.89秒 11.88 token/秒 ~990MB
旗舰移动芯片 CPU 高通骁龙 8 Gen 3 (三星 S24) 1.45秒 9.13 token/秒 ~990MB
嵌入式物联网系统 CPU 树莓派 4 Model B 6.9秒 4.5 token/秒 ~990MB

语音到语音基准测试使用 Moshi 配合 NexaQuant

文本到文本基准测试

评估基于文本输入生成文本的 AI 模型性能

设备类型 芯片与设备 初始延迟 (TTFT) 解码速度 平均峰值内存
现代笔记本芯片 (GPU) Apple M3 Pro GPU 0.12秒 49.01 token/秒 ~2580MB
现代笔记本芯片 (iGPU) AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) 0.19秒 30.54 token/秒 ~2580MB
现代笔记本芯片 (CPU) Intel Core Ultra 7 268V 0.63秒 14.35 token/秒 ~2580MB
旗舰移动芯片 CPU 高通骁龙 8 Gen 3 (三星 S24) 0.27秒 10.89 token/秒 ~2580MB
嵌入式物联网系统 CPU 树莓派 4 Model B 1.27秒 5.31 token/秒 ~2580MB

文本到文本基准测试使用 llama-3.2 配合 NexaQuant

视觉到文本基准测试

评估 AI 解析视觉输入、生成响应、提取关键视觉信息及动态引导工具的能力——视觉输入,文本输出

设备类型 芯片与设备 初始延迟 (TTFT) 解码速度 平均峰值内存
现代笔记本芯片 (GPU) Apple M3 Pro GPU 2.62秒 86.77 token/秒 ~1093MB
现代笔记本芯片 (iGPU) AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) 2.14秒 83.41 token/秒 ~1093MB
现代笔记本芯片 (CPU) Intel Core Ultra 7 268V 9.43秒 45.65 token/秒 ~1093MB
旗舰移动芯片 CPU 高通骁龙 8 Gen 3 (三星 S24) 7.26秒 27.66 token/秒 ~1093MB
嵌入式物联网系统 CPU 树莓派 4 Model B 22.32秒 6.15 token/秒 ~1093MB

视觉到文本基准测试使用 OmniVLM 配合 NexaQuant


未经允许不得转载:首席AI分享圈 » 跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文