Benchmarking multimodal de IA generativa entre dispositivos com Nexa Compressed Inference

Notícias sobre IAPublicado há 8 meses Círculo de compartilhamento de IA

12.6K 00

Resumo executivo

Nexa O Native Inference Framework torna a implantação de modelos de IA generativa no lado do dispositivo perfeita e eficiente. A tecnologia é compatível com uma ampla gama de chipsets, incluindo AMD, Qualcomm, Intel, NVIDIA e chips desenvolvidos internamente, e é compatível com todos os principais sistemas operacionais. Fornecemos dados de benchmark para modelos de IA generativa em uma variedade de tarefas comuns, cada uma testada no nível de desempenho TOPS em diferentes tipos de dispositivos.

Principais pontos fortes:

capacidade multimodal - apoioTexto, áudio, vídeo e recursos visuaisTarefas generativas do tipo IA
Ampla gama de compatibilidade de hardware - Executa modelos de IA em PCs, laptops, dispositivos móveis e sistemas incorporados
desempenho líder - Com nossa estrutura de inferência de ponta, NexaQuant, os modelos são executados 2,5 vezes mais rápido e têm requisitos de armazenamento e memória 4 vezes menores, mantendo a alta precisão

Por que IA no lado final?

A implantação de modelos de IA diretamente no dispositivo tem várias vantagens em relação à dependência de APIs na nuvem:

Privacidade e segurança - A retenção de dados no lado do dispositivo garante a confidencialidade
reduzir custos - Não há necessidade de pagar por um raciocínio caro baseado em nuvem
Velocidade e resposta - Inferência de baixa latência sem depender da rede
capacidade off-line - Os aplicativos de IA ainda podem ser usados em áreas de baixa conectividade

Com a tecnologia de inferência de borda da Nexa, os desenvolvedores podem executar com eficiência modelos de IA generativos em uma ampla variedade de dispositivos com consumo mínimo de recursos.

Novas tendências em aplicativos de IA multimodal

Nexa AI Suporte à implementação no lado finalIA multimodalpermitindo que os aplicativos manipulem e integrem vários tipos de dados:

IA de texto - Chatbots, resumos de documentos, assistentes de programação
IA de voz para voz - Tradução de voz em tempo real, assistente de voz com IA
Visão de IA - Detecção de alvos, descrição de imagens, processamento de OCR de documentos

Isso é obtido por meio do uso deNexaQuantNossos modelos multimodais alcançam excelente compactação e aceleração, mantendo o melhor desempenho.

Benchmarks de desempenho de tarefas de IA generativa entre dispositivos

Fornecemos dados de benchmarking para modelos de IA generativa em uma variedade de tarefas comuns, cada uma testada no nível de desempenho TOPS em diferentes tipos de dispositivos. Se você tiver um dispositivo e um caso de uso específico, poderá consultar dispositivos com desempenho semelhante para estimar a capacidade de processamento:

Tarefas de IA generativa cobertas:

Voz para voz
Texto para texto
Visual para texto

Abrange o tipo de equipamento:

Chips para notebooks modernos - Otimizado para processamento de IA nativo em desktops e laptops
chip móvel carro-chefe - Modelos de IA executados em smartphones e tablets
sistema incorporado (~4 TOPS) - Dispositivos de baixa potência para aplicativos de computação de borda

Avaliação comparativa de fala para fala

Avaliação dos recursos de interação de fala em tempo real com modelos de linguagem - ProcessamentoA entrada de áudio gera saída de áudio

Tipo de equipamento	Chips e dispositivos	Atraso (TTFT)	velocidade de decodificação	Memória de pico média
Chips de notebooks modernos (GPU)	GPU Apple M3 Pro	0,67 segundos	20,46 tokens/segundo	~990MB
Chips de notebook modernos (iGPU)	iGPU AMD Ryzen AI 9 HX 370 (Radeon 890M)	1,01 segundos	19,28 tokens/segundo	~990MB
Chips de notebook modernos (CPU)	Intel Core Ultra 7 268V	1,89 segundos	11,88 tokens/segundo	~990MB
CPU com chip móvel de ponta	Qualcomm Snapdragon 8 Gen 3 (Samsung S24)	1,45 segundos	9,13 token/segundo	~990MB
CPU do sistema de IoT incorporado	Raspberry Pi 4 Modelo B	6,9 segundos.	4,5 tokens/segundo	~990MB

Avaliação comparativa de fala para fala usando Moshi com NexaQuant

Avaliação comparativa de texto para texto

avaliaçãoGerar texto com base na entrada de textoDesempenho do modelo de IA

Tipo de equipamento	Chips e dispositivos	Atraso inicial (TTFT)	velocidade de decodificação	Memória de pico média
Chips de notebooks modernos (GPU)	GPU Apple M3 Pro	0,12 segundos	49,01 token/segundo	~2580MB
Chips de notebook modernos (iGPU)	iGPU AMD Ryzen AI 9 HX 370 (Radeon 890M)	0,19 segundos	30,54 tokens/segundo	~2580MB
Chips de notebook modernos (CPU)	Intel Core Ultra 7 268V	0,63 segundos	14,35 tokens/segundo	~2580MB
CPU com chip móvel de ponta	Qualcomm Snapdragon 8 Gen 3 (Samsung S24)	0,27 segundos	10,89 tokens/segundo	~2580MB
CPU do sistema de IoT incorporado	Raspberry Pi 4 Modelo B	1,27 segundos	5,31 tokens/segundo	~2580MB

Avaliação comparativa de texto para texto usando o llama-3.2 com o NexaQuant

Benchmarking de visual para texto

Avaliação da IA Analisar entradas visuaisA capacidade de gerar respostas, extrair informações visuais importantes e orientar a ferramenta de forma dinâmica.Entrada visual, saída de texto

Tipo de equipamento	Chips e dispositivos	Atraso inicial (TTFT)	velocidade de decodificação	Memória de pico média
Chips de notebooks modernos (GPU)	GPU Apple M3 Pro	2,62 segundos	86,77 tokens/segundo	~1093MB
Chips de notebook modernos (iGPU)	iGPU AMD Ryzen AI 9 HX 370 (Radeon 890M)	2,14 segundos	83,41 tokens/segundo	~1093MB
Chips de notebook modernos (CPU)	Intel Core Ultra 7 268V	9,43 segundos	45,65 tokens/segundo	~1093MB
CPU com chip móvel de ponta	Qualcomm Snapdragon 8 Gen 3 (Samsung S24)	7,26 segundos.	27,66 tokens/segundo	~1093MB
CPU do sistema de IoT incorporado	Raspberry Pi 4 Modelo B	22,32 segundos	6,15 tokens/segundo	~1093MB