넥사 압축 추론을 통한 크로스 디바이스 엔드-사이드 생성 AI 멀티모달 벤치마킹

AI 뉴스게시됨 6 개월 전 AI 공유 서클
2K 00

경영진 요약

Nexa 네이티브 추론 프레임워크는 디바이스 측에서 생성 AI 모델을 원활하고 효율적으로 배포할 수 있게 해줍니다. 이 기술은 AMD, 퀄컴, 인텔, 엔비디아, 자체 개발 칩을 포함한 다양한 칩셋을 지원하며 모든 주요 운영 체제와 호환됩니다. 다양한 일반 작업에 대한 생성 AI 모델에 대한 벤치마크 데이터를 제공하며, 각 모델은 다양한 유형의 디바이스에서 TOPS 성능 수준으로 테스트되었습니다.

핵심 강점:

  1. 멀티모달 기능 - 지원텍스트, 오디오, 비디오 및 시각 자료생성형 AI와 유사한 작업
  2. 광범위한 하드웨어 호환성 - PC, 노트북, 모바일 디바이스 및 임베디드 시스템에서 AI 모델을 실행합니다.
  3. 선도적인 성능 - 엣지 추론 프레임워크인 넥사퀀트를 사용하면 모델은 2.5배 빠르게 실행되고 스토리지 및 메모리 요구사항은 4배 낮으면서도 높은 정확도를 유지할 수 있습니다.
跨设备端侧生成式 AI 多模态基准测试与 Nexa 压缩推理技术

왜 엔드사이드 AI인가?

디바이스에 직접 AI 모델을 배포하는 것은 클라우드 API에 의존하는 것보다 몇 가지 장점이 있습니다:

  • 개인정보 보호 및 보안 - 디바이스 측의 데이터 보존으로 기밀성 보장
  • 비용 절감 - 값비싼 클라우드 기반 추론 비용을 지불할 필요가 없습니다.
  • 속도 및 응답 - 네트워크에 의존하지 않는 짧은 지연 시간 추론
  • 오프라인 기능 - 연결성이 낮은 지역에서도 AI 애플리케이션을 사용할 수 있습니다.

개발자는 넥사 엣지 추론 기술을 통해 리소스 소비를 최소화하면서 다양한 디바이스에서 제너레이티브 AI 모델을 효율적으로 실행할 수 있습니다.

멀티모달 AI 애플리케이션의 새로운 트렌드

넥사 AI 엔드포인트 배포 지원멀티모달 AI를 사용하여 애플리케이션이 여러 데이터 유형을 처리하고 통합할 수 있도록 지원합니다:

  • 텍스트 AI - 챗봇, 문서 요약, 프로그래밍 어시스턴트
  • 음성 대 음성 AI - 실시간 음성 번역, AI 음성 비서
  • 비전 AI - 대상 감지, 이미지 설명, 문서 OCR 처리

이는 다음을 사용하여 달성할 수 있습니다.넥사퀀트당사의 멀티모달 모델은 최고의 성능을 유지하면서 뛰어난 압축 및 가속을 달성합니다.

크로스 디바이스 제너레이티브 AI 작업 성능 벤치마크

다양한 일반 작업에 대한 생성 AI 모델에 대한 벤치마킹 데이터를 제공하며, 각 모델은 다양한 유형의 기기에서 TOPS 성능 수준으로 테스트되었습니다. 특정 디바이스와 목표 사용 사례가 있는 경우 비슷한 성능의 디바이스를 참조하여 처리 능력을 예측할 수 있습니다:

제너레이티브 AI 작업을 다룹니다:

  • 음성 대 음성
  • 텍스트 대 텍스트
  • 비주얼에서 텍스트로

장비 유형을 다룹니다:

  • 최신 노트북 칩 - 데스크톱 및 노트북 네이티브 AI 처리에 최적화됨
  • 플래그십 모바일 칩 - 스마트폰과 태블릿에서 실행되는 AI 모델
  • 임베디드 시스템 (~4 TOPS) - 엣지 컴퓨팅 애플리케이션을 위한 저전력 디바이스

음성 대 음성 벤치마킹

언어 모델을 사용한 실시간 음성 상호 작용 기능 평가하기 - 처리오디오 입력으로 오디오 출력 생성

장비 유형칩 및 디바이스지연(TTFT)디코딩 속도평균 피크 메모리
최신 노트북 칩(GPU)Apple M3 Pro GPU0.67초20.46 토큰/초~990MB
최신 노트북 칩(iGPU)AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)1.01초19.28 토큰/초~990MB
최신 노트북 칩(CPU)인텔 코어 울트라 7 268V1.89초11.88 토큰/초~990MB
플래그십 모바일 칩 CPU퀄컴 스냅드래곤 8 3세대(삼성 S24)1.45초9.13 토큰/초~990MB
임베디드 IoT 시스템 CPU라즈베리 파이 4 모델 B6.9초.4.5 토큰/초~990MB

NexaQuant와 함께 Moshi를 사용한 음성 대 음성 벤치마킹

텍스트 대 텍스트 벤치마킹

가치 평가텍스트 입력을 기반으로 텍스트 생성AI 모델 성능

장비 유형칩 및 디바이스초기 지연(TTFT)디코딩 속도평균 피크 메모리
최신 노트북 칩(GPU)Apple M3 Pro GPU0.12초49.01 토큰/초~2580MB
최신 노트북 칩(iGPU)AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)0.19초30.54 토큰/초~2580MB
최신 노트북 칩(CPU)인텔 코어 울트라 7 268V0.63초14.35 토큰/초~2580MB
플래그십 모바일 칩 CPU퀄컴 스냅드래곤 8 3세대(삼성 S24)0.27초10.89 토큰/초~2580MB
임베디드 IoT 시스템 CPU라즈베리 파이 4 모델 B1.27초5.31 토큰/초~2580MB

llama-3.2를 사용한 텍스트 대 텍스트 벤치마킹(NexaQuant 포함)

비주얼-텍스트 벤치마킹

AI 평가 시각적 입력 분석응답을 생성하고, 주요 시각적 정보를 추출하고, 툴을 동적으로 안내하는 기능 - 다음을 수행합니다.시각적 입력, 텍스트 출력

장비 유형칩 및 디바이스초기 지연(TTFT)디코딩 속도평균 피크 메모리
최신 노트북 칩(GPU)Apple M3 Pro GPU2.62초86.77 토큰/초~1093MB
최신 노트북 칩(iGPU)AMD Ryzen AI 9 HX 370 iGPU(Radeon 890M)2.14초83.41 토큰/초~1093MB
최신 노트북 칩(CPU)인텔 코어 울트라 7 268V9.43초45.65 토큰/초~1093MB
플래그십 모바일 칩 CPU퀄컴 스냅드래곤 8 3세대(삼성 S24)7.26초.27.66 토큰/초~1093MB
임베디드 IoT 시스템 CPU라즈베리 파이 4 모델 B22.32초6.15 토큰/초~1093MB

NexaQuant와 함께 OmniVLM을 사용한 시각적-텍스트 간 벤치마킹

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...