Aprendizagem pessoal com IA
e orientação prática
Sapo pintado em alumínio

Benchmarking multimodal de IA generativa entre dispositivos com Nexa Compressed Inference

Resumo executivo

Nexa O Native Inference Framework torna a implantação de modelos de IA generativa no lado do dispositivo perfeita e eficiente. A tecnologia é compatível com uma ampla gama de chipsets, incluindo AMD, Qualcomm, Intel, NVIDIA e chips desenvolvidos internamente, e é compatível com todos os principais sistemas operacionais. Fornecemos dados de benchmark para modelos de IA generativa em uma variedade de tarefas comuns, cada uma testada no nível de desempenho TOPS em diferentes tipos de dispositivos.

Principais pontos fortes:

  1. capacidade multimodal - apoioTexto, áudio, vídeo e recursos visuaisTarefas generativas do tipo IA
  2. Ampla gama de compatibilidade de hardware - Executa modelos de IA em PCs, laptops, dispositivos móveis e sistemas incorporados
  3. desempenho líder - Com nossa estrutura de inferência de ponta, NexaQuant, os modelos são executados 2,5 vezes mais rápido e têm requisitos de armazenamento e memória 4 vezes menores, mantendo a alta precisão

Benchmarking multimodal de IA generativa entre dispositivos com Nexa Compressive Inference-1

Por que IA no lado final?

A implantação de modelos de IA diretamente no dispositivo tem várias vantagens em relação à dependência de APIs na nuvem:

  • Privacidade e segurança - A retenção de dados no lado do dispositivo garante a confidencialidade
  • reduzir custos - Não há necessidade de pagar por um raciocínio caro baseado em nuvem
  • Velocidade e resposta - Inferência de baixa latência sem depender da rede
  • capacidade off-line - Os aplicativos de IA ainda podem ser usados em áreas de baixa conectividade

Com a tecnologia de inferência de borda da Nexa, os desenvolvedores podem executar com eficiência modelos de IA generativos em uma ampla variedade de dispositivos com consumo mínimo de recursos.

Novas tendências em aplicativos de IA multimodal

Nexa AI Suporte à implementação no lado finalIA multimodalpermitindo que os aplicativos manipulem e integrem vários tipos de dados:

  • IA de texto - Chatbots, resumos de documentos, assistentes de programação
  • IA de voz para voz - Tradução de voz em tempo real, assistente de voz com IA
  • Visão de IA - Detecção de alvos, descrição de imagens, processamento de OCR de documentos

Isso é obtido por meio do uso deNexaQuantNossos modelos multimodais alcançam excelente compactação e aceleração, mantendo o melhor desempenho.

Benchmarks de desempenho de tarefas de IA generativa entre dispositivos

Fornecemos dados de benchmarking para modelos de IA generativa em uma variedade de tarefas comuns, cada uma testada no nível de desempenho TOPS em diferentes tipos de dispositivos. Se você tiver um dispositivo e um caso de uso específico, poderá consultar dispositivos com desempenho semelhante para estimar a capacidade de processamento:

Tarefas de IA generativa cobertas:

  • Voz para voz
  • Texto para texto
  • Visual para texto

Abrange o tipo de equipamento:

  • Chips para notebooks modernos - Otimizado para processamento de IA nativo em desktops e laptops
  • chip móvel carro-chefe - Modelos de IA executados em smartphones e tablets
  • sistema incorporado (~4 TOPS) - Dispositivos de baixa potência para aplicativos de computação de borda

Avaliação comparativa de fala para fala

Avaliação dos recursos de interação de fala em tempo real com modelos de linguagem - ProcessamentoA entrada de áudio gera saída de áudio

Tipo de equipamento Chips e dispositivos Atraso (TTFT) velocidade de decodificação Memória de pico média
Chips de notebooks modernos (GPU) GPU Apple M3 Pro 0,67 segundos 20,46 tokens/segundo ~990MB
Chips de notebook modernos (iGPU) iGPU AMD Ryzen AI 9 HX 370 (Radeon 890M) 1,01 segundos 19,28 tokens/segundo ~990MB
Chips de notebook modernos (CPU) Intel Core Ultra 7 268V 1,89 segundos 11,88 tokens/segundo ~990MB
CPU com chip móvel de ponta Qualcomm Snapdragon 8 Gen 3 (Samsung S24) 1,45 segundos 9,13 token/segundo ~990MB
CPU do sistema de IoT incorporado Raspberry Pi 4 Modelo B 6,9 segundos. 4,5 tokens/segundo ~990MB

Avaliação comparativa de fala para fala usando Moshi com NexaQuant

Avaliação comparativa de texto para texto

avaliaçãoGerar texto com base na entrada de textoDesempenho do modelo de IA

Tipo de equipamento Chips e dispositivos Atraso inicial (TTFT) velocidade de decodificação Memória de pico média
Chips de notebooks modernos (GPU) GPU Apple M3 Pro 0,12 segundos 49,01 token/segundo ~2580MB
Chips de notebook modernos (iGPU) iGPU AMD Ryzen AI 9 HX 370 (Radeon 890M) 0,19 segundos 30,54 tokens/segundo ~2580MB
Chips de notebook modernos (CPU) Intel Core Ultra 7 268V 0,63 segundos 14,35 tokens/segundo ~2580MB
CPU com chip móvel de ponta Qualcomm Snapdragon 8 Gen 3 (Samsung S24) 0,27 segundos 10,89 tokens/segundo ~2580MB
CPU do sistema de IoT incorporado Raspberry Pi 4 Modelo B 1,27 segundos 5,31 tokens/segundo ~2580MB

Avaliação comparativa de texto para texto usando o llama-3.2 com o NexaQuant

Benchmarking de visual para texto

Avaliação da IA Analisar entradas visuaisA capacidade de gerar respostas, extrair informações visuais importantes e orientar a ferramenta de forma dinâmica.Entrada visual, saída de texto

Tipo de equipamento Chips e dispositivos Atraso inicial (TTFT) velocidade de decodificação Memória de pico média
Chips de notebooks modernos (GPU) GPU Apple M3 Pro 2,62 segundos 86,77 tokens/segundo ~1093MB
Chips de notebook modernos (iGPU) iGPU AMD Ryzen AI 9 HX 370 (Radeon 890M) 2,14 segundos 83,41 tokens/segundo ~1093MB
Chips de notebook modernos (CPU) Intel Core Ultra 7 268V 9,43 segundos 45,65 tokens/segundo ~1093MB
CPU com chip móvel de ponta Qualcomm Snapdragon 8 Gen 3 (Samsung S24) 7,26 segundos. 27,66 tokens/segundo ~1093MB
CPU do sistema de IoT incorporado Raspberry Pi 4 Modelo B 22,32 segundos 6,15 tokens/segundo ~1093MB

Avaliação comparativa de visual para texto usando OmniVLM com NexaQuant


CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Benchmarking multimodal de IA generativa entre dispositivos com Nexa Compressed Inference

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil