Fun-Audio-Chat-8B - 알리 통이의 오픈 소스 엔드투엔드 음성 인터랙션 매크로 모델

Fun-Audio-Chat-8B란 무엇인가요?

Fun-Audio-Chat-8B는 알리 통이 팀의 오픈 소스 80억 매개변수 엔드투엔드 음성 모델로, 음성 출력에서 직접 음성으로, ASR+LLM+TTS 접합이 필요 없으며, 중국어와 영어에 유창하며, 지연 시간이 짧고 자연스러운 음색을 가진 이중 언어입니다. 25Hz 고음질 음성 디코딩과 함께 이중 해상도 공유 LLM을 채택하여 GPU 오버헤드를 절반으로 줄이고, 먼저 음성 기능을 주입한 다음 텍스트 매개변수를 융합하여 건망증을 억제하는 코어-콕테일 2단계 훈련, 멀티태스킹 환경 설정 조정을 통해 모델이 감정을 듣고 명령을 이해할 수 있도록 합니다. 오픈오디오벤치에서는 음성 채팅, 감정 반주, 지능형 단말기 또는 고객 서비스, 24G 비디오 메모리 추론, 코드 및 가중치 동기화, 모델스코프, 허깅페이스 및 GitHub에 동기화된 10개 이상의 권위 있는 목록을 먼저 나열하여 음성 채팅, 감정 반주, 지능형 단말기 또는 고객 서비스를 수행하도록 배포할 수 있으며, 24G 비디오 메모리는 추론이 가능합니다.

Fun-Audio-Chat-8B의 특징

엔드투엔드 S2S 아키텍처ASR + LLM + TTS 스플라이싱 없이 음성 입력에서 직접 음성 출력을 생성하여 효율은 높이고 지연 시간은 줄입니다.
이중 해상도 설계공유 LLM 레이어는 5Hz 프레임 속도로 효율적으로 처리되며, SRH는 25Hz 프레임 속도로 고품질 음성을 생성하여 GPU 계산 오버헤드를 거의 50%까지 줄여줍니다.
코어-칵테일 2단계 교육 전략'치명적인 망각'의 문제는 음성 및 멀티모달 기능을 단계적으로 도입한 다음 원래 텍스트 매크로 모델의 매개변수와 융합하여 미세 조정함으로써 완화할 수 있습니다.
다단계, 다중 작업 선호도 조정 교육실제 음성 대화에서 모델이 의미 및 감정적 단서를 더 정확하게 포착하고 대화의 자연스러움을 향상시킬 수 있습니다.

Fun-Audio-Chat-8B의 핵심 이점

엔드투엔드 S2S직접 음성 인/아웃, ASR+LLM+TTS 스플라이싱 없음, 지연 시간 절반으로 단축.
80억 개의 이중 언어 매개변수같은 척도 목록에서 10개 이상 1등, 이해 및 말하기, 감정 인식이 정확합니다.
이중 해상도 아키텍처5Hz 공유 LLM + 25Hz 하이파이 디코딩, GPU 연산의 절반을 절약합니다.
핵심 칵테일 교육: 텍스트를 융합하기 전에 음성을 주입하여 치명적인 망각을 억제합니다.
환경 설정 정렬 멀티태스킹감정을 듣고, 명령에 따라 스타일을 바꾸고, 대화의 자연스러움을 획기적으로 개선합니다.
원클릭 오픈 소스모델스코프/허깅페이스/깃허브 전체 링크 코드 및 가중치, 24G 비디오 메모리 추론 가능, 음성 채팅, 감정적 반주, 지능형 단말, 고객 서비스 및 기타 장면 배포에 10분이 소요됩니다.

Fun-Audio-Chat-8B의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://funaudiollm.github.io/funaudiochat/
깃허브 리포지토리:: https://github.com/FunAudioLLM/Fun-Audio-Chat
허깅페이스 모델 라이브러리https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
기술 문서:: https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

Fun-Audio-Chat-8B의 대상 사용자

지능형 하드웨어 제조업체스피커, 헤드폰, 자동차, 가전제품에 지연 시간이 짧은 고지능 음성 대화 기능을 빠르게 추가할 수 있습니다.
사회적, 정서적 동반자 기업가자연스러운 음색과 감정 인식을 통해 AI 채팅, 가상 연인, 힐링 어시스턴트 등의 애플리케이션을 구축하세요.
고객 서비스 및 콜센터기존 TTS+ASR 솔루션을 대체하여 엔드투엔드 음성 Q&A를 구현하고 배포 및 O&M 비용을 절감하세요.
교육 및 언어 학습 플랫폼실시간 이중 언어 발음 평가, 말하기 쌍 연습, 발음 교정을 제공하여 대화형 경험을 향상시킵니다.
접근성 높은 개발자시각 장애인이나 난독증 환자를 위한 고효율 음성 상호작용 도구를 만들어 정보 접근성을 개선하세요.
연구 및 알고리즘 엔지니어오픈 소스 가중치와 완전한 학습 코드를 기반으로 음성 매크로 모델링의 지평을 넓히고 2차 혁신을 위한 문턱을 낮춥니다.