Мультимодальный бенчмаркинг генеративного ИИ с использованием сжатых выводов Nexa на разных устройствах

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
5.7K 00

Исполнительное резюме

Nexa Native Inference Framework делает развертывание генеративных моделей ИИ на стороне устройства простым и эффективным. Технология поддерживает широкий спектр чипсетов, включая AMD, Qualcomm, Intel, NVIDIA и собственные чипы, и совместима со всеми основными операционными системами. Мы приводим данные бенчмарков для генеративных моделей ИИ на множестве распространенных задач, каждая из которых тестируется на уровне производительности TOPS на различных типах устройств.

Основные достоинства:

  1. мультимодальные возможности - поддержкаТекст, аудио, видео и визуальные материалыГенеративные задачи, подобные ИИ
  2. Широкий спектр совместимости с оборудованием - Запуск моделей ИИ на ПК, ноутбуках, мобильных устройствах и встраиваемых системах
  3. высокая производительность - С помощью нашей платформы для выводов, NexaQuant, модели работают в 2,5 раза быстрее и в 4 раза меньше требуют памяти и хранения данных, сохраняя при этом высокую точность.
跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

Зачем нужен конечный ИИ?

Развертывание моделей ИИ непосредственно на устройстве имеет ряд преимуществ по сравнению с использованием облачных API:

  • Конфиденциальность и безопасность - Сохранение данных на стороне устройства обеспечивает конфиденциальность
  • сократить расходы - Не нужно платить за дорогостоящие облачные вычисления
  • Скорость и реакция - Рассуждения с низкой задержкой, не зависящие от сети
  • возможность работы в автономном режиме - Приложения искусственного интеллекта могут использоваться в зонах с низким уровнем связи

Благодаря технологии Nexa edge inference разработчики могут эффективно запускать генеративные модели ИИ на широком спектре устройств с минимальными затратами ресурсов.

Новые тенденции в мультимодальных приложениях ИИ

Nexa AI Поддержка конечного развертыванияМультимодальный искусственный интеллектЭто позволяет приложениям обрабатывать и интегрировать данные различных типов:

  • Текстовый искусственный интеллект - Чат-боты, резюме документов, помощники программиста
  • ИИ от голоса к голосу - Голосовой перевод в реальном времени, голосовой помощник ИИ
  • Vision AI - Обнаружение целей, описание изображений, обработка OCR документов

Это достигается за счет использованияNexaQuantНаши мультимодальные модели обеспечивают превосходное сжатие и ускорение, сохраняя при этом высочайшую производительность.

Контрольные показатели производительности задач генеративного ИИ на разных устройствах

Мы предоставляем данные бенчмарков для генеративных моделей ИИ для множества распространенных задач, каждая из которых протестирована на уровне производительности TOPS на различных типах устройств. Если у вас есть конкретное устройство и целевой сценарий использования, вы можете обратиться к аналогичным устройствам, чтобы оценить вычислительную мощность:

Охватываются задачи генеративного ИИ:

  • Голос к голосу
  • Текст в текст
  • Визуальное в текстовое

Охватывает тип оборудования:

  • Современные микросхемы для ноутбуков - Оптимизированная для настольных компьютеров и ноутбуков обработка искусственного интеллекта
  • флагманский мобильный чип - Модели ИИ, работающие на смартфонах и планшетах
  • встроенная система (~4 TOPS) - Устройства с низким энергопотреблением для граничных вычислительных приложений

Бенчмаркинг преобразования речи в речь

Оценка возможностей речевого взаимодействия в реальном времени с помощью языковых моделей - ОбработкаАудиовход генерирует аудиовыход

Тип оборудованияЧипы и устройстваЗадержка (TTFT)скорость декодированияСредняя пиковая память
Современные чипы для ноутбуков (GPU)Графический процессор Apple M3 Pro0,67 секунды20,46 жетонов/секунду~990 МБ
Современные чипы для ноутбуков (iGPU)AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)1,01 секунды19,28 жетонов/секунду~990 МБ
Современные микросхемы для ноутбуков (CPU)Intel Core Ultra 7 268V1,89 секунды11,88 жетонов/секунду~990 МБ
Флагманский процессор для мобильных чиповQualcomm Snapdragon 8 Gen 3 (Samsung S24)1,45 секунды9,13 жетонов/секунду~990 МБ
Процессор для встраиваемых IoT-системRaspberry Pi 4 Model B6,9 секунды.4,5 жетонов/секунду~990 МБ

Бенчмаркинг преобразования речи в речь с помощью Moshi и NexaQuant

Сравнительный анализ текстов

оценкаГенерируйте текст на основе введенного текстаПроизводительность модели искусственного интеллекта

Тип оборудованияЧипы и устройстваНачальная задержка (TTFT)скорость декодированияСредняя пиковая память
Современные чипы для ноутбуков (GPU)Графический процессор Apple M3 Pro0,12 секунды49,01 жетон/секунду~2580 МБ
Современные чипы для ноутбуков (iGPU)AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)0,19 секунды30,54 жетонов/секунду~2580 МБ
Современные микросхемы для ноутбуков (CPU)Intel Core Ultra 7 268V0,63 секунды14,35 жетонов/секунду~2580 МБ
Флагманский процессор для мобильных чиповQualcomm Snapdragon 8 Gen 3 (Samsung S24)0,27 секунды10,89 жетонов/секунду~2580 МБ
Процессор для встраиваемых IoT-системRaspberry Pi 4 Model B1,27 секунды5,31 токен/секунду~2580 МБ

Сравнение текста с текстом с помощью llama-3.2 и NexaQuant

Визуально-текстовый бенчмаркинг

Оценка искусственного интеллекта Анализируйте визуальные данныеВозможность генерировать ответы, извлекать ключевую визуальную информацию и динамически направлять инструмент.Визуальный ввод, текстовый вывод

Тип оборудованияЧипы и устройстваНачальная задержка (TTFT)скорость декодированияСредняя пиковая память
Современные чипы для ноутбуков (GPU)Графический процессор Apple M3 Pro2,62 секунды86,77 жетонов/секунду~1093 МБ
Современные чипы для ноутбуков (iGPU)AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M)2,14 секунды83,41 жетонов/секунду~1093 МБ
Современные микросхемы для ноутбуков (CPU)Intel Core Ultra 7 268V9,43 секунды45,65 жетонов/секунду~1093 МБ
Флагманский процессор для мобильных чиповQualcomm Snapdragon 8 Gen 3 (Samsung S24)7,26 секунды.27,66 жетонов/секунду~1093 МБ
Процессор для встраиваемых IoT-системRaspberry Pi 4 Model B22,32 секунды6,15 жетонов/секунду~1093 МБ

Визуально-текстовый бенчмаркинг с помощью OmniVLM и NexaQuant

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...