Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

MediaTek Research ha anunciado recientemente que ha abierto oficialmente dos modelos multimodales optimizados para el chino tradicional: Llama-Breeze2-3B y Llama-Breeze2-8B, diseñados para diferentes plataformas informáticas, como teléfonos móviles y PC, y con capacidad para llamar a funciones, lo que permite el uso flexible de herramientas externas para ampliar los escenarios de aplicación. para ampliar los escenarios de aplicación. Además, MediaTek también ha puesto en código abierto una aplicación Android basada en Llama-Breeze2-3B y BreezyVoice, un modelo de síntesis de voz que puede generar un acento taiwanés natural, lo que demuestra su completa disposición de tecnología de IA para terminales.

联发科开源繁体中文多模态模型与台湾口音语音合成模型

 

La serie Llama-Breeze2 de modelos multimodales para teléfonos móviles y PC.

MediaTek Innovation Base este código abierto Modelos de base multimodal china tradicional de la serie Llama-Breeze2El Llama-Breeze2-3B es una versión ligera del Llama-Breeze2 que puede funcionar en dispositivos móviles, y una versión ligera del Llama-Breeze2-8B que ofrece un rendimiento más potente en PC. Según MediaTek, esta serie de modelos no sólo domina el chino tradicional, sino que integra funciones avanzadas como la multimodalidad y las llamadas a funciones, lo que le permite comprender información de imágenes y llamar a herramientas externas para realizar tareas complejas.

Con el fin de seguir promoviendo el desarrollo de aplicaciones móviles de IA, MediaTek ha tomado como núcleo el modelo Llama-Breeze2-3B.Desarrollo de una aplicación Android de código abiertoEsta app está diseñada para mejorar las capacidades del asistente de IA del teléfono móvil, como el reconocimiento de contenido de imágenes y la invocación de herramientas externas. Esta app está diseñada para mejorar las capacidades del asistente de IA del teléfono, como el reconocimiento de contenido de imágenes y la invocación de herramientas externas. Mientras tanto, MediaTek también está sincronizando desvinculación BreezyVoice, un modelo de síntesis del habla capaz de sintetizar acentos taiwaneses auténticos. El contenido de código abierto de los tres modelos y aplicaciones anteriores incluye pesos del modelo y parte del código de ejecución para que los desarrolladores puedan estudiarlos y aplicarlos.

 

Análisis técnico del modelo Llama-Breeze2: optimización basada en Llama 3, combinando complejidad, visión y capacidad de invocación de herramientas.

Un análisis en profundidad del modelo Llama-Breeze2, cuya tecnología central está optimizada a partir del modelo lingüístico de código abierto Llama 3 de Meta. MediaTek aprovecha además el corpus de chino tradicional para mejorar la comprensión del chino tradicional por parte del modelo, e integra el modelo lingüístico visual, así como las llamadas a funciones (Llamada a función), dotando a los modelos de la serie Llama-Breeze2 de tres características principales: optimización del chino tradicional, comprensión de imágenes y posibilidad de llamar a herramientas externas.

existeCapacidad tradicional chinaEn cuanto a los resultados de comparación proporcionados por MediaTek, en comparación con el modelo Llama 3 3B Instruct con la misma escala de parámetros, Llama-Breeze2-3B fue capaz de enumerar con precisión mercados nocturnos conocidos, como el Mercado Nocturno de Shihlin, el Mercado Nocturno de Raohe y el Mercado Nocturno de Luodong, en el texto breve generado de los mercados nocturnos de Taiwán; mientras que el modelo Llama 3 3B Instruct sólo reconoció correctamente el Mercado Nocturno de Shihlin. pero genera dos mercados nocturnos ficticios: Telecom Night Market y World Trade Night Market. Este resultado pone de relieve la ventaja de la familia de modelos Llama-Breeze2 en la comprensión del chino tradicional.

existecapacidad multimodalLlama-Breeze2-3B no sólo procesa información textual, sino que también analiza eficazmente el contenido de imágenes, como diagramas, resultados de reconocimiento óptico de caracteres (OCR) o fotografías de lugares de interés. Los modelos son capaces de comprender el significado de la imagen y hacer відповідь. Por ejemplo, en el siguiente escenario:

Pregunta del usuario: ¿Cuál es el importe total de los premios en metálico disponibles para los tres primeros clasificados?

联发科开源繁体中文多模态模型与台湾口音语音合成模型

Llama-Breeze2-8B respondió: Según la información de la imagen, el premio para el primer puesto asciende a 300.000 RMB, el segundo a 200.000 RMB y el tercero a 150.000 RMB. Si se suman estas cifras, el premio total para los tres primeros puestos asciende a 650.000 RMB.

Además, los modelos de la serie Llama-Breeze2 están equipados con llamadas a funciones, lo que les permite llamar a herramientas externas para realizar tareas más complejas. Por ejemplo, cuando un usuario pregunta por el tiempo, el modelo puede llamar a la interfaz API de una aplicación meteorológica para obtener al instante la información meteorológica más reciente y responder al usuario con los resultados, proporcionando una experiencia más inteligente e interactiva.

 

Ejemplo de aplicación Android: Llama-Breeze2-3B Driving Mobile AI Apps

Además de poner a disposición del público dos modelos lingüísticos multimodales, MediaTek Innovation Base ha puesto a disposición del público una aplicación para Android que puede instalarse directamente en teléfonos móviles. Basada en el modelo Llama-Breeze2-3B, esta aplicación puede utilizarse como asistente personal de IA para ayudar a los usuarios con traducciones en tiempo real, recomendaciones de atracciones y muchas otras tareas, como se muestra en la siguiente figura. Además, la aplicación está equipada con una función de generación de voz que permite a los usuarios introducir texto y el modelo generará una respuesta de voz natural y fluida, que puede utilizarse en múltiples escenarios, como la navegación inteligente.

联发科开源繁体中文多模态模型与台湾口音语音合成模型

 

Modelo de síntesis de voz BreezyVoice: cinco segundos de muestras de audio para generar auténticos acentos taiwaneses

Como parte del programa de código abierto, MediaTek Innovation Base también lanzó BreezyVoice, un modelo de síntesis de voz que está especialmente entrenado para el habla tradicional china y diseñado con una arquitectura ligera para generar rápidamente un habla altamente realista con solo 5 segundos de entrada de audio de muestra. BreezyVoice se puede utilizar como una solución de salida de voz para asistentes de IA para proporcionar una experiencia interactiva más natural. BreezyVoice puede utilizarse como solución de salida de voz para que los asistentes de IA proporcionen una experiencia interactiva más natural. Según MediaTek, BreezyVoice funciona ahora sin problemas en ordenadores portátiles y puede combinarse con cualquier sistema de modelado de grandes lenguajes (LLM) o de conversión de voz a texto para obtener aún más posibilidades de aplicación.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...