넥사 압축 추론을 통한 크로스 디바이스 엔드-사이드 생성 AI 멀티모달 벤치마킹

41.5K 00

경영진 요약

Nexa 네이티브 추론 프레임워크는 디바이스 측에서 생성 AI 모델을 원활하고 효율적으로 배포할 수 있게 해줍니다. 이 기술은 AMD, 퀄컴, 인텔, 엔비디아, 자체 개발 칩을 포함한 다양한 칩셋을 지원하며 모든 주요 운영 체제와 호환됩니다. 다양한 일반 작업에 대한 생성 AI 모델에 대한 벤치마크 데이터를 제공하며, 각 모델은 다양한 유형의 디바이스에서 TOPS 성능 수준으로 테스트되었습니다.

핵심 강점:

멀티모달 기능 - 지원텍스트, 오디오, 비디오 및 시각 자료생성형 AI와 유사한 작업
광범위한 하드웨어 호환성 - PC, 노트북, 모바일 디바이스 및 임베디드 시스템에서 AI 모델을 실행합니다.
선도적인 성능 - 엣지 추론 프레임워크인 넥사퀀트를 사용하면 모델은 2.5배 빠르게 실행되고 스토리지 및 메모리 요구사항은 4배 낮으면서도 높은 정확도를 유지할 수 있습니다.

왜 엔드사이드 AI인가?

디바이스에 직접 AI 모델을 배포하는 것은 클라우드 API에 의존하는 것보다 몇 가지 장점이 있습니다:

개인정보 보호 및 보안 - 디바이스 측의 데이터 보존으로 기밀성 보장
비용 절감 - 값비싼 클라우드 기반 추론 비용을 지불할 필요가 없습니다.
속도 및 응답 - 네트워크에 의존하지 않는 짧은 지연 시간 추론
오프라인 기능 - 연결성이 낮은 지역에서도 AI 애플리케이션을 사용할 수 있습니다.

개발자는 넥사 엣지 추론 기술을 통해 리소스 소비를 최소화하면서 다양한 디바이스에서 제너레이티브 AI 모델을 효율적으로 실행할 수 있습니다.

멀티모달 AI 애플리케이션의 새로운 트렌드

넥사 AI 엔드포인트 배포 지원멀티모달 AI를 사용하여 애플리케이션이 여러 데이터 유형을 처리하고 통합할 수 있도록 지원합니다:

텍스트 AI - 챗봇, 문서 요약, 프로그래밍 어시스턴트
음성 대 음성 AI - 실시간 음성 번역, AI 음성 비서
비전 AI - 대상 감지, 이미지 설명, 문서 OCR 처리

이는 다음을 사용하여 달성할 수 있습니다.넥사퀀트당사의 멀티모달 모델은 최고의 성능을 유지하면서 뛰어난 압축 및 가속을 달성합니다.

크로스 디바이스 제너레이티브 AI 작업 성능 벤치마크

다양한 일반 작업에 대한 생성 AI 모델에 대한 벤치마킹 데이터를 제공하며, 각 모델은 다양한 유형의 기기에서 TOPS 성능 수준으로 테스트되었습니다. 특정 디바이스와 목표 사용 사례가 있는 경우 비슷한 성능의 디바이스를 참조하여 처리 능력을 예측할 수 있습니다:

제너레이티브 AI 작업을 다룹니다:

음성 대 음성
텍스트 대 텍스트
비주얼에서 텍스트로

장비 유형을 다룹니다:

최신 노트북 칩 - 데스크톱 및 노트북 네이티브 AI 처리에 최적화됨
플래그십 모바일 칩 - 스마트폰과 태블릿에서 실행되는 AI 모델
임베디드 시스템 (~4 TOPS) - 엣지 컴퓨팅 애플리케이션을 위한 저전력 디바이스

음성 대 음성 벤치마킹

언어 모델을 사용한 실시간 음성 상호 작용 기능 평가하기 - 처리오디오 입력으로 오디오 출력 생성

장비 유형	칩 및 디바이스	지연(TTFT)	디코딩 속도	평균 피크 메모리
최신 노트북 칩(GPU)	Apple M3 Pro GPU	0.67초	20.46 토큰/초	~990MB
최신 노트북 칩(iGPU)	AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)	1.01초	19.28 토큰/초	~990MB
최신 노트북 칩(CPU)	인텔 코어 울트라 7 268V	1.89초	11.88 토큰/초	~990MB
플래그십 모바일 칩 CPU	퀄컴 스냅드래곤 8 3세대(삼성 S24)	1.45초	9.13 토큰/초	~990MB
임베디드 IoT 시스템 CPU	라즈베리 파이 4 모델 B	6.9초.	4.5 토큰/초	~990MB

NexaQuant와 함께 Moshi를 사용한 음성 대 음성 벤치마킹

텍스트 대 텍스트 벤치마킹

가치 평가텍스트 입력을 기반으로 텍스트 생성AI 모델 성능

장비 유형	칩 및 디바이스	초기 지연(TTFT)	디코딩 속도	평균 피크 메모리
최신 노트북 칩(GPU)	Apple M3 Pro GPU	0.12초	49.01 토큰/초	~2580MB
최신 노트북 칩(iGPU)	AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)	0.19초	30.54 토큰/초	~2580MB
최신 노트북 칩(CPU)	인텔 코어 울트라 7 268V	0.63초	14.35 토큰/초	~2580MB
플래그십 모바일 칩 CPU	퀄컴 스냅드래곤 8 3세대(삼성 S24)	0.27초	10.89 토큰/초	~2580MB
임베디드 IoT 시스템 CPU	라즈베리 파이 4 모델 B	1.27초	5.31 토큰/초	~2580MB

llama-3.2를 사용한 텍스트 대 텍스트 벤치마킹(NexaQuant 포함)

비주얼-텍스트 벤치마킹

AI 평가 시각적 입력 분석응답을 생성하고, 주요 시각적 정보를 추출하고, 툴을 동적으로 안내하는 기능 - 다음을 수행합니다.시각적 입력, 텍스트 출력

장비 유형	칩 및 디바이스	초기 지연(TTFT)	디코딩 속도	평균 피크 메모리
최신 노트북 칩(GPU)	Apple M3 Pro GPU	2.62초	86.77 토큰/초	~1093MB
최신 노트북 칩(iGPU)	AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)	2.14초	83.41 토큰/초	~1093MB
최신 노트북 칩(CPU)	인텔 코어 울트라 7 268V	9.43초	45.65 토큰/초	~1093MB
플래그십 모바일 칩 CPU	퀄컴 스냅드래곤 8 3세대(삼성 S24)	7.26초.	27.66 토큰/초	~1093MB
임베디드 IoT 시스템 CPU	라즈베리 파이 4 모델 B	22.32초	6.15 토큰/초	~1093MB