미디어텍 리서치는 최근 중국어 번체에 최적화된 두 가지 멀티모달 모델, 즉 휴대폰과 PC 등 다양한 컴퓨팅 플랫폼에 맞게 설계되고 외부 도구를 유연하게 사용하여 애플리케이션 시나리오를 확장할 수 있는 통화 기능을 갖춘 Llama-Breeze2-3B와 Llama-Breeze2-8B를 공식적으로 오픈소스화했다고 발표했습니다. 애플리케이션 시나리오를 확장할 수 있습니다. 또한 미디어텍은 자연스러운 대만 억양을 생성할 수 있는 음성 합성 모델인 라마 브리즈2-3B와 브리지보이스를 기반으로 한 안드로이드 애플리케이션도 오픈소스화하여 단말기 AI 기술의 포괄적인 레이아웃을 선보였습니다.

휴대폰과 PC를 위한 멀티모달 모델인 Llama-Breeze2 시리즈입니다.
미디어텍 이 오픈 소스 기반 혁신 라마 브리즈2 시리즈 중국어 번체 멀티모달 기본 모델모바일 장치에서 실행되는 Llama-Breeze2-3B와 PC에서 더 강력한 성능을 제공하는 경량 버전인 Llama-Breeze2-8B가 이 시리즈의 모델에 속합니다. MediaTek에 따르면 이 시리즈 모델은 중국어 번체에 능숙할 뿐만 아니라 다중 모드 및 함수 호출과 같은 고급 기능을 통합하여 이미지 정보를 이해하고 외부 도구를 호출하여 복잡한 작업을 수행할 수 있습니다.
모바일 AI 애플리케이션의 개발을 더욱 촉진하기 위해 MediaTek은 라마 브리즈2-3B 모델을 핵심으로 삼았습니다.안드로이드 애플리케이션 개발 및 오픈소스화AI 어시스턴트. 이 앱은 이미지 콘텐츠 인식, 외부 도구 호출 등 휴대폰의 AI 어시스턴트 기능을 향상하도록 설계되었습니다. 한편, MediaTek은 다음과 같은 기능도 동기화하고 있습니다. 참여 해제 진정한 대만 억양을 합성할 수 있는 음성 합성 모델인 BreezyVoice. 위 세 가지 모델과 애플리케이션의 오픈 소스 콘텐츠에는 개발자가 연구하고 적용할 수 있도록 모델 가중치와 실행 코드의 일부가 포함되어 있습니다.
Llama-Breeze2 모델 기술 분석: 복잡성, 비전 및 툴 호출 기능을 결합한 Llama 3 기반 최적화
메타의 오픈 소스 라마 3 언어 모델을 기반으로 핵심 기술이 최적화된 라마 브리즈2 모델에 대한 심층 분석입니다. MediaTek은 중국어 번체 말뭉치를 활용하여 중국어 번체에 대한 모델의 이해를 높이고 시각 언어 모델과 함수 호출을 통합합니다(함수 호출), 중국어 번체 최적화, 이미지 이해, 외부 도구 호출 기능 등 세 가지 주요 기능을 제공하는 Llama-Breeze2 시리즈 모델입니다.
존재중국어 번체 기능MediaTek에서 제공한 비교 결과에 따르면, 동일한 매개 변수 척도를 가진 Llama 3 3B Instruct 모델과 비교했을 때, Llama-Breeze2-3B는 생성된 대만 야시장의 짧은 텍스트에 스린 야시장, 라오허 야시장, 뤄동 야시장과 같은 잘 알려진 야시장을 정확하게 나열한 반면, Llama 3 3B Instruct 모델은 스린 야시장만 정확하게 인식할 수 있었습니다. 하지만 텔레콤 야시장과 월드 트레이드 야시장이라는 두 개의 가상의 야시장을 생성했습니다. 이 결과는 중국어 번체를 이해하는 데 있어 Llama-Breeze2 모델 제품군의 장점을 잘 보여줍니다.
존재멀티모달 기능Llama-Breeze2-3B는 텍스트 정보뿐만 아니라 도표, 광학 문자 인식(OCR) 결과 또는 관심 장소의 사진과 같은 이미지의 내용도 효과적으로 분석합니다. 이 모델은 이미지의 의미를 이해하고 판독을 수행할 수 있습니다. 예를 들어 다음 시나리오를 살펴보겠습니다:
사용자 질문: 상위 3위까지 받을 수 있는 총 상금은 얼마인가요?

라마 브리즈 2-8B 대답했습니다: 사진의 정보에 따르면 1등 상금은 30만 위안, 2등은 20만 위안, 3등은 15만 위안입니다. 이 수치를 모두 더하면 상위 3개 상금은 총 650,000위안입니다.
또한, 라마 브리즈2 시리즈 모델에는 외부 도구를 호출하여 보다 복잡한 작업을 수행할 수 있는 함수 호출 기능이 탑재되어 있습니다. 예를 들어 사용자가 날씨에 대해 문의하면 이 모델은 날씨 애플리케이션의 API 인터페이스를 호출하여 최신 날씨 정보를 즉시 가져와 사용자에게 결과를 회신함으로써 더욱 스마트하고 인터랙티브한 경험을 제공할 수 있습니다.
Android 앱 예시: 모바일 AI 앱을 구동하는 Llama-Breeze2-3B
두 가지 다중 모드 언어 모델을 오픈소싱하는 것 외에도 MediaTek 혁신 기지는 휴대폰에 직접 배포할 수 있는 안드로이드 앱을 추가로 오픈소싱했습니다. 아래 그림에서 볼 수 있듯이 Llama-Breeze2-3B 모델을 기반으로 하는 이 앱은 사용자에게 실시간 번역, 명소 추천 및 기타 여러 작업을 지원하는 개인 AI 비서로 사용할 수 있습니다. 또한 이 앱에는 음성 생성 기능도 탑재되어 있어 사용자가 텍스트를 입력하면 모델이 자연스럽고 부드러운 음성 응답을 생성하여 지능형 내비게이션 등 다양한 시나리오에서 사용할 수 있습니다.

BreezyVoice 음성 합성 모델: 5초 분량의 오디오 샘플로 실제 대만 억양을 생성합니다.
오픈 소스 프로그램의 일환으로, MediaTek 혁신 기지는 중국어 번체 음성을 위해 특별히 훈련되고 경량 아키텍처로 설계되어 5초의 샘플 오디오 입력만으로 매우 사실적인 음성을 빠르게 생성하는 음성 합성 모델인 BreezyVoice도 출시했습니다. BreezyVoice는 보다 자연스럽고 상호 작용하는 경험을 제공하기 위한 AI 비서의 음성 출력 솔루션으로 사용될 수 있습니다. BreezyVoice는 AI 비서가 보다 자연스러운 대화형 경험을 제공하기 위한 음성 출력 솔루션으로 사용될 수 있습니다. MediaTek에 따르면 BreezyVoice는 이제 노트북에서 원활하게 실행되며 대규모 언어 모델링(LLM) 또는 음성-텍스트 시스템과 결합하여 더 많은 응용 가능성을 제공합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...