Мультимодальный бенчмаркинг генеративного ИИ с использованием сжатых выводов Nexa на разных устройствах
Исполнительное резюме
Nexa Native Inference Framework делает развертывание генеративных моделей ИИ на стороне устройства простым и эффективным. Технология поддерживает широкий спектр чипсетов, включая AMD, Qualcomm, Intel, NVIDIA и собственные чипы, и совместима со всеми основными операционными системами. Мы приводим данные бенчмарков для генеративных моделей ИИ на множестве распространенных задач, каждая из которых тестируется на уровне производительности TOPS на различных типах устройств.
Основные достоинства:
- мультимодальные возможности - поддержкаТекст, аудио, видео и визуальные материалыГенеративные задачи, подобные ИИ
- Широкий спектр совместимости с оборудованием - Запуск моделей ИИ на ПК, ноутбуках, мобильных устройствах и встраиваемых системах
- высокая производительность - С помощью нашей платформы для выводов, NexaQuant, модели работают в 2,5 раза быстрее и в 4 раза меньше требуют памяти и хранения данных, сохраняя при этом высокую точность.

Зачем нужен конечный ИИ?
Развертывание моделей ИИ непосредственно на устройстве имеет ряд преимуществ по сравнению с использованием облачных API:
- Конфиденциальность и безопасность - Сохранение данных на стороне устройства обеспечивает конфиденциальность
- сократить расходы - Не нужно платить за дорогостоящие облачные вычисления
- Скорость и реакция - Рассуждения с низкой задержкой, не зависящие от сети
- возможность работы в автономном режиме - Приложения искусственного интеллекта могут использоваться в зонах с низким уровнем связи
Благодаря технологии Nexa edge inference разработчики могут эффективно запускать генеративные модели ИИ на широком спектре устройств с минимальными затратами ресурсов.
Новые тенденции в мультимодальных приложениях ИИ
Nexa AI Поддержка конечного развертыванияМультимодальный искусственный интеллектЭто позволяет приложениям обрабатывать и интегрировать данные различных типов:
- Текстовый искусственный интеллект - Чат-боты, резюме документов, помощники программиста
- ИИ от голоса к голосу - Голосовой перевод в реальном времени, голосовой помощник ИИ
- Vision AI - Обнаружение целей, описание изображений, обработка OCR документов
Это достигается за счет использованияNexaQuantНаши мультимодальные модели обеспечивают превосходное сжатие и ускорение, сохраняя при этом высочайшую производительность.
Контрольные показатели производительности задач генеративного ИИ на разных устройствах
Мы предоставляем данные бенчмарков для генеративных моделей ИИ для множества распространенных задач, каждая из которых протестирована на уровне производительности TOPS на различных типах устройств. Если у вас есть конкретное устройство и целевой сценарий использования, вы можете обратиться к аналогичным устройствам, чтобы оценить вычислительную мощность:
Охватываются задачи генеративного ИИ:
- Голос к голосу
- Текст в текст
- Визуальное в текстовое
Охватывает тип оборудования:
- Современные микросхемы для ноутбуков - Оптимизированная для настольных компьютеров и ноутбуков обработка искусственного интеллекта
- флагманский мобильный чип - Модели ИИ, работающие на смартфонах и планшетах
- встроенная система (~4 TOPS) - Устройства с низким энергопотреблением для граничных вычислительных приложений
Бенчмаркинг преобразования речи в речь
Оценка возможностей речевого взаимодействия в реальном времени с помощью языковых моделей - ОбработкаАудиовход генерирует аудиовыход
Тип оборудования | Чипы и устройства | Задержка (TTFT) | скорость декодирования | Средняя пиковая память |
---|---|---|---|---|
Современные чипы для ноутбуков (GPU) | Графический процессор Apple M3 Pro | 0,67 секунды | 20,46 жетонов/секунду | ~990 МБ |
Современные чипы для ноутбуков (iGPU) | AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) | 1,01 секунды | 19,28 жетонов/секунду | ~990 МБ |
Современные микросхемы для ноутбуков (CPU) | Intel Core Ultra 7 268V | 1,89 секунды | 11,88 жетонов/секунду | ~990 МБ |
Флагманский процессор для мобильных чипов | Qualcomm Snapdragon 8 Gen 3 (Samsung S24) | 1,45 секунды | 9,13 жетонов/секунду | ~990 МБ |
Процессор для встраиваемых IoT-систем | Raspberry Pi 4 Model B | 6,9 секунды. | 4,5 жетонов/секунду | ~990 МБ |
Бенчмаркинг преобразования речи в речь с помощью Moshi и NexaQuant
Сравнительный анализ текстов
оценкаГенерируйте текст на основе введенного текстаПроизводительность модели искусственного интеллекта
Тип оборудования | Чипы и устройства | Начальная задержка (TTFT) | скорость декодирования | Средняя пиковая память |
---|---|---|---|---|
Современные чипы для ноутбуков (GPU) | Графический процессор Apple M3 Pro | 0,12 секунды | 49,01 жетон/секунду | ~2580 МБ |
Современные чипы для ноутбуков (iGPU) | AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) | 0,19 секунды | 30,54 жетонов/секунду | ~2580 МБ |
Современные микросхемы для ноутбуков (CPU) | Intel Core Ultra 7 268V | 0,63 секунды | 14,35 жетонов/секунду | ~2580 МБ |
Флагманский процессор для мобильных чипов | Qualcomm Snapdragon 8 Gen 3 (Samsung S24) | 0,27 секунды | 10,89 жетонов/секунду | ~2580 МБ |
Процессор для встраиваемых IoT-систем | Raspberry Pi 4 Model B | 1,27 секунды | 5,31 токен/секунду | ~2580 МБ |
Сравнение текста с текстом с помощью llama-3.2 и NexaQuant
Визуально-текстовый бенчмаркинг
Оценка искусственного интеллекта Анализируйте визуальные данныеВозможность генерировать ответы, извлекать ключевую визуальную информацию и динамически направлять инструмент.Визуальный ввод, текстовый вывод
Тип оборудования | Чипы и устройства | Начальная задержка (TTFT) | скорость декодирования | Средняя пиковая память |
---|---|---|---|---|
Современные чипы для ноутбуков (GPU) | Графический процессор Apple M3 Pro | 2,62 секунды | 86,77 жетонов/секунду | ~1093 МБ |
Современные чипы для ноутбуков (iGPU) | AMD Ryzen AI 9 HX 370 iGPU (Radeon 890M) | 2,14 секунды | 83,41 жетонов/секунду | ~1093 МБ |
Современные микросхемы для ноутбуков (CPU) | Intel Core Ultra 7 268V | 9,43 секунды | 45,65 жетонов/секунду | ~1093 МБ |
Флагманский процессор для мобильных чипов | Qualcomm Snapdragon 8 Gen 3 (Samsung S24) | 7,26 секунды. | 27,66 жетонов/секунду | ~1093 МБ |
Процессор для встраиваемых IoT-систем | Raspberry Pi 4 Model B | 22,32 секунды | 6,15 жетонов/секунду | ~1093 МБ |
Визуально-текстовый бенчмаркинг с помощью OmniVLM и NexaQuant
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...