Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B是什么

Fun-Audio-Chat-8B是阿里通义团队开源的80亿参数端到端语音大模型，直接语音进语音出，无需ASR+LLM+TTS拼接，中文英文双语流利，延迟低、音色自然。采用双分辨率共享LLM与25Hz高保真语音解码，GPU开销降一半；Core-Cocktail两阶段训练先注入语音能力再融合文本参数，抑制遗忘；多任务偏好对齐让模型能听情绪、懂指令。在OpenAudioBench、VoiceBench等十余项权威榜单位列同尺寸第一，可一键部署做语音聊天、情感陪伴、智能终端或客服，24G显存即可推理，代码与权重已同步放至ModelScope、HuggingFace与GitHub。

Fun-Audio-Chat-8B的功能特色

端到端 S2S 架构：从语音输入直接生成语音输出，无需 ASR + LLM + TTS 多模块拼接，效率更高、延迟更低。
双分辨率设计：Shared LLM 层以 5Hz 帧率高效处理，SRH 以 25Hz 帧率生成高质量语音，GPU 计算开销降低近 50%。
Core-Cocktail 两阶段训练策略：通过分阶段引入语音与多模态能力，再与原有文本大模型参数融合微调，缓解“灾难性遗忘”问题。
多阶段、多任务的偏好对齐训练：使模型在真实语音对话中能更准确捕捉语义与情绪线索，提升对话自然度。

Fun-Audio-Chat-8B的核心优势

端到端S2S：语音直进直出，无需ASR+LLM+TTS拼接，延迟减半。
80亿中英双语参数：同规模榜单十余项第一，听懂会说且情绪感知准。
双分辨率架构：5Hz共享LLM+25Hz高保真解码，GPU算力省一半。
Core-Cocktail训练：先注入语音再融合文本，抑制灾难性遗忘。
偏好对齐多任务：会听情绪、随指令变风格，对话自然度大幅提升。
一键开源：ModelScope/HuggingFace/GitHub全链路代码与权重，24G显存即可推理，十分钟部署语音聊天、情感陪伴、智能终端、客服等场景。

Fun-Audio-Chat-8B官网是什么

项目官网：https://funaudiollm.github.io/funaudiochat/
Github仓库：https://github.com/FunAudioLLM/Fun-Audio-Chat
HuggingFace模型库：https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
技术论文：https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf