경영진 요약
Nexa 네이티브 추론 프레임워크는 디바이스 측에서 생성 AI 모델을 원활하고 효율적으로 배포할 수 있게 해줍니다. 이 기술은 AMD, 퀄컴, 인텔, 엔비디아, 자체 개발 칩을 포함한 다양한 칩셋을 지원하며 모든 주요 운영 체제와 호환됩니다. 다양한 일반 작업에 대한 생성 AI 모델에 대한 벤치마크 데이터를 제공하며, 각 모델은 다양한 유형의 디바이스에서 TOPS 성능 수준으로 테스트되었습니다.
핵심 강점:
- 멀티모달 기능 - 지원텍스트, 오디오, 비디오 및 시각 자료생성형 AI와 유사한 작업
- 광범위한 하드웨어 호환성 - PC, 노트북, 모바일 디바이스 및 임베디드 시스템에서 AI 모델을 실행합니다.
- 선도적인 성능 - 엣지 추론 프레임워크인 넥사퀀트를 사용하면 모델은 2.5배 빠르게 실행되고 스토리지 및 메모리 요구사항은 4배 낮으면서도 높은 정확도를 유지할 수 있습니다.

왜 엔드사이드 AI인가?
디바이스에 직접 AI 모델을 배포하는 것은 클라우드 API에 의존하는 것보다 몇 가지 장점이 있습니다:
- 개인정보 보호 및 보안 - 디바이스 측의 데이터 보존으로 기밀성 보장
- 비용 절감 - 값비싼 클라우드 기반 추론 비용을 지불할 필요가 없습니다.
- 속도 및 응답 - 네트워크에 의존하지 않는 짧은 지연 시간 추론
- 오프라인 기능 - 연결성이 낮은 지역에서도 AI 애플리케이션을 사용할 수 있습니다.
개발자는 넥사 엣지 추론 기술을 통해 리소스 소비를 최소화하면서 다양한 디바이스에서 제너레이티브 AI 모델을 효율적으로 실행할 수 있습니다.
멀티모달 AI 애플리케이션의 새로운 트렌드
넥사 AI 엔드포인트 배포 지원멀티모달 AI를 사용하여 애플리케이션이 여러 데이터 유형을 처리하고 통합할 수 있도록 지원합니다:
- 텍스트 AI - 챗봇, 문서 요약, 프로그래밍 어시스턴트
- 음성 대 음성 AI - 실시간 음성 번역, AI 음성 비서
- 비전 AI - 대상 감지, 이미지 설명, 문서 OCR 처리
이는 다음을 사용하여 달성할 수 있습니다.넥사퀀트당사의 멀티모달 모델은 최고의 성능을 유지하면서 뛰어난 압축 및 가속을 달성합니다.
크로스 디바이스 제너레이티브 AI 작업 성능 벤치마크
다양한 일반 작업에 대한 생성 AI 모델에 대한 벤치마킹 데이터를 제공하며, 각 모델은 다양한 유형의 기기에서 TOPS 성능 수준으로 테스트되었습니다. 특정 디바이스와 목표 사용 사례가 있는 경우 비슷한 성능의 디바이스를 참조하여 처리 능력을 예측할 수 있습니다:
제너레이티브 AI 작업을 다룹니다:
- 음성 대 음성
- 텍스트 대 텍스트
- 비주얼에서 텍스트로
장비 유형을 다룹니다:
- 최신 노트북 칩 - 데스크톱 및 노트북 네이티브 AI 처리에 최적화됨
- 플래그십 모바일 칩 - 스마트폰과 태블릿에서 실행되는 AI 모델
- 임베디드 시스템 (~4 TOPS) - 엣지 컴퓨팅 애플리케이션을 위한 저전력 디바이스
음성 대 음성 벤치마킹
언어 모델을 사용한 실시간 음성 상호 작용 기능 평가하기 - 처리오디오 입력으로 오디오 출력 생성
장비 유형 | 칩 및 디바이스 | 지연(TTFT) | 디코딩 속도 | 평균 피크 메모리 |
---|---|---|---|---|
최신 노트북 칩(GPU) | Apple M3 Pro GPU | 0.67초 | 20.46 토큰/초 | ~990MB |
최신 노트북 칩(iGPU) | AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) | 1.01초 | 19.28 토큰/초 | ~990MB |
최신 노트북 칩(CPU) | 인텔 코어 울트라 7 268V | 1.89초 | 11.88 토큰/초 | ~990MB |
플래그십 모바일 칩 CPU | 퀄컴 스냅드래곤 8 3세대(삼성 S24) | 1.45초 | 9.13 토큰/초 | ~990MB |
임베디드 IoT 시스템 CPU | 라즈베리 파이 4 모델 B | 6.9초. | 4.5 토큰/초 | ~990MB |
NexaQuant와 함께 Moshi를 사용한 음성 대 음성 벤치마킹
텍스트 대 텍스트 벤치마킹
가치 평가텍스트 입력을 기반으로 텍스트 생성AI 모델 성능
장비 유형 | 칩 및 디바이스 | 초기 지연(TTFT) | 디코딩 속도 | 평균 피크 메모리 |
---|---|---|---|---|
최신 노트북 칩(GPU) | Apple M3 Pro GPU | 0.12초 | 49.01 토큰/초 | ~2580MB |
최신 노트북 칩(iGPU) | AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) | 0.19초 | 30.54 토큰/초 | ~2580MB |
최신 노트북 칩(CPU) | 인텔 코어 울트라 7 268V | 0.63초 | 14.35 토큰/초 | ~2580MB |
플래그십 모바일 칩 CPU | 퀄컴 스냅드래곤 8 3세대(삼성 S24) | 0.27초 | 10.89 토큰/초 | ~2580MB |
임베디드 IoT 시스템 CPU | 라즈베리 파이 4 모델 B | 1.27초 | 5.31 토큰/초 | ~2580MB |
llama-3.2를 사용한 텍스트 대 텍스트 벤치마킹(NexaQuant 포함)
비주얼-텍스트 벤치마킹
AI 평가 시각적 입력 분석응답을 생성하고, 주요 시각적 정보를 추출하고, 툴을 동적으로 안내하는 기능 - 다음을 수행합니다.시각적 입력, 텍스트 출력
장비 유형 | 칩 및 디바이스 | 초기 지연(TTFT) | 디코딩 속도 | 평균 피크 메모리 |
---|---|---|---|---|
최신 노트북 칩(GPU) | Apple M3 Pro GPU | 2.62초 | 86.77 토큰/초 | ~1093MB |
최신 노트북 칩(iGPU) | AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M) | 2.14초 | 83.41 토큰/초 | ~1093MB |
최신 노트북 칩(CPU) | 인텔 코어 울트라 7 268V | 9.43초 | 45.65 토큰/초 | ~1093MB |
플래그십 모바일 칩 CPU | 퀄컴 스냅드래곤 8 3세대(삼성 S24) | 7.26초. | 27.66 토큰/초 | ~1093MB |
임베디드 IoT 시스템 CPU | 라즈베리 파이 4 모델 B | 22.32초 | 6.15 토큰/초 | ~1093MB |
NexaQuant와 함께 OmniVLM을 사용한 시각적-텍스트 간 벤치마킹
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...