Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial

27.9K 00

¿Qué es Fun-Audio-Chat-8B?

Fun-Audio-Chat-8B es un modelo de habla integral de 8.000 millones de parámetros de código abierto creado por el equipo de Ali Tongyi, que permite la entrada y salida directa del habla, sin necesidad de empalmes ASR+LLM+TTS, bilingüe fluido en chino e inglés, con baja latencia y timbre natural. Adopta un LLM compartido de doble resolución con descodificación del habla de alta fidelidad a 25 Hz, lo que reduce a la mitad la sobrecarga de la GPU; el entrenamiento en dos fases Core-Cocktail inyecta primero la capacidad del habla y luego fusiona los parámetros de texto para suprimir el olvido; y la alineación de preferencias multitarea permite al modelo escuchar emociones y entender órdenes. En OpenAudioBench, VoiceBench y otras más de diez listas autorizadas que figuran en primer lugar en el mismo tamaño, puede desplegarse para hacer chat de voz, acompañamiento emocional, terminales inteligentes o servicio de atención al cliente, la memoria de vídeo de 24 G puede ser inferencia, el código y los pesos se han sincronizado con ModelScope, HuggingFace y GitHub.

Características de Fun-Audio-Chat-8B

Arquitectura S2S de extremo a extremoGenerar salida de voz directamente desde la entrada de voz sin empalme ASR + LLM + TTS, mayor eficiencia y menor latencia.
Diseño de doble resoluciónLa capa LLM compartida se procesa eficientemente a una frecuencia de cuadro de 5 Hz, y SRH genera habla de alta calidad a una frecuencia de cuadro de 25 Hz, reduciendo la sobrecarga computacional de la GPU en casi 50%.
Estrategia de entrenamiento en dos fases Core-CocktailEl problema del "olvido catastrófico" se mitiga mediante la introducción escalonada de capacidades vocales y multimodales, y luego se afina fusionándolas con los parámetros del macromodelo textual original.
Entrenamiento de alineación de preferencias multietapa y multitareaEl objetivo es que el modelo capte con mayor precisión las señales semánticas y emocionales en diálogos reales y mejore la naturalidad del diálogo.

Principales ventajas del Fun-Audio-Chat-8B

S2S de extremo a extremo: Entrada y salida directa de voz, sin empalmes ASR+LLM+TTS, latencia reducida a la mitad.
8.000 millones de parámetros bilingües: Más de diez primeros en la misma lista de escala, entender y hablar y la percepción emocional es exacta.
Arquitectura de doble resolución: LLM compartido de 5 Hz + descodificación de alta fidelidad de 25 Hz, ahorra la mitad de la aritmética de la GPU.
Formación Core-Cocktail: Inyectar habla antes de fusionar texto para inhibir el olvido catastrófico.
Alineación de preferencias Multitarea: Escuchar las emociones, cambiar de estilo en respuesta a las órdenes y mejorar drásticamente la naturalidad del diálogo.
Código abierto en un clic: ModelScope/HuggingFace/GitHub código de enlace completo y pesos, 24G de memoria de vídeo puede ser razonada, diez minutos para desplegar chat de voz, acompañamiento emocional, terminales inteligentes, servicio al cliente y otras escenas.

¿Cuál es la página web oficial de Fun-Audio-Chat-8B?

Página web del proyecto:: https://funaudiollm.github.io/funaudiochat/
Repositorio Github:: https://github.com/FunAudioLLM/Fun-Audio-Chat
Biblioteca de modelos HuggingFace: https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
Documentos técnicos:: https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

Personas a las que va dirigido el Fun-Audio-Chat-8B

fabricante de hardware inteligente: Añada rápidamente funciones de diálogo de voz de baja latencia y alta inteligencia a altavoces, auriculares, coches y electrodomésticos.
Empresarios de compañía social y emocional: Construya aplicaciones como chat de IA, amantes virtuales y asistentes de curación con percepción natural del timbre y las emociones.
Atención al cliente y centro de llamadas: Sustituye a la solución tradicional TTS+ASR para conseguir un Q&A de voz de extremo a extremo y reducir los costes de implantación y O&M.
Plataforma de educación y aprendizaje de idiomasProporciona una evaluación de la pronunciación bilingüe en tiempo real, prácticas de conversación en parejas y corrección de la pronunciación para mejorar la experiencia interactiva.
Desarrolladores accesibles: Crear herramientas de interacción por voz de alta fluidez para personas con discapacidad visual o dislexia con el fin de mejorar la accesibilidad a la información.
Ingeniero de investigación y algoritmos: Explore las fronteras del macromodelado del habla basado en pesos de código abierto y código de entrenamiento completo, con un umbral bajo para la innovación secundaria.