Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

43.2K 00

MediaTek Research ha anunciado recientemente que ha abierto oficialmente dos modelos multimodales optimizados para el chino tradicional: Llama-Breeze2-3B y Llama-Breeze2-8B, diseñados para diferentes plataformas informáticas, como teléfonos móviles y PC, y con capacidad para llamar a funciones, lo que permite el uso flexible de herramientas externas para ampliar los escenarios de aplicación. para ampliar los escenarios de aplicación. Además, MediaTek también ha puesto en código abierto una aplicación Android basada en Llama-Breeze2-3B y BreezyVoice, un modelo de síntesis de voz que puede generar un acento taiwanés natural, lo que demuestra su completa disposición de tecnología de IA para terminales.

La serie Llama-Breeze2 de modelos multimodales para teléfonos móviles y PC.

MediaTek Innovation Base este código abierto Modelos de base multimodal china tradicional de la serie Llama-Breeze2El Llama-Breeze2-3B es una versión ligera del Llama-Breeze2 que puede funcionar en dispositivos móviles, y una versión ligera del Llama-Breeze2-8B que ofrece un rendimiento más potente en PC. Según MediaTek, esta serie de modelos no sólo domina el chino tradicional, sino que integra funciones avanzadas como la multimodalidad y las llamadas a funciones, lo que le permite comprender información de imágenes y llamar a herramientas externas para realizar tareas complejas.

Con el fin de seguir promoviendo el desarrollo de aplicaciones móviles de IA, MediaTek ha tomado como núcleo el modelo Llama-Breeze2-3B.Desarrollo de una aplicación Android de código abiertoEsta app está diseñada para mejorar las capacidades del asistente de IA del teléfono móvil, como el reconocimiento de contenido de imágenes y la invocación de herramientas externas. Esta app está diseñada para mejorar las capacidades del asistente de IA del teléfono, como el reconocimiento de contenido de imágenes y la invocación de herramientas externas. Mientras tanto, MediaTek también está sincronizando desvinculación BreezyVoice, un modelo de síntesis del habla capaz de sintetizar acentos taiwaneses auténticos. El contenido de código abierto de los tres modelos y aplicaciones anteriores incluye pesos del modelo y parte del código de ejecución para que los desarrolladores puedan estudiarlos y aplicarlos.

Análisis técnico del modelo Llama-Breeze2: optimización basada en Llama 3, combinando complejidad, visión y capacidad de invocación de herramientas.

Un análisis en profundidad del modelo Llama-Breeze2, cuya tecnología central está optimizada a partir del modelo lingüístico de código abierto Llama 3 de Meta. MediaTek aprovecha además el corpus de chino tradicional para mejorar la comprensión del chino tradicional por parte del modelo, e integra el modelo lingüístico visual, así como las llamadas a funciones (Llamada a función), dotando a los modelos de la serie Llama-Breeze2 de tres características principales: optimización del chino tradicional, comprensión de imágenes y posibilidad de llamar a herramientas externas.

existeCapacidad tradicional chinaEn cuanto a los resultados de comparación proporcionados por MediaTek, en comparación con el modelo Llama 3 3B Instruct con la misma escala de parámetros, Llama-Breeze2-3B fue capaz de enumerar con precisión mercados nocturnos conocidos, como el Mercado Nocturno de Shihlin, el Mercado Nocturno de Raohe y el Mercado Nocturno de Luodong, en el texto breve generado de los mercados nocturnos de Taiwán; mientras que el modelo Llama 3 3B Instruct sólo reconoció correctamente el Mercado Nocturno de Shihlin. pero genera dos mercados nocturnos ficticios: Telecom Night Market y World Trade Night Market. Este resultado pone de relieve la ventaja de la familia de modelos Llama-Breeze2 en la comprensión del chino tradicional.

existecapacidad multimodalLlama-Breeze2-3B no sólo procesa información textual, sino que también analiza eficazmente el contenido de imágenes, como diagramas, resultados de reconocimiento óptico de caracteres (OCR) o fotografías de lugares de interés. Los modelos son capaces de comprender el significado de la imagen y hacer відповідь. Por ejemplo, en el siguiente escenario:

Pregunta del usuario: ¿Cuál es el importe total de los premios en metálico disponibles para los tres primeros clasificados?

Llama-Breeze2-8B respondió: Según la información de la imagen, el premio para el primer puesto asciende a 300.000 RMB, el segundo a 200.000 RMB y el tercero a 150.000 RMB. Si se suman estas cifras, el premio total para los tres primeros puestos asciende a 650.000 RMB.

Además, los modelos de la serie Llama-Breeze2 están equipados con llamadas a funciones, lo que les permite llamar a herramientas externas para realizar tareas más complejas. Por ejemplo, cuando un usuario pregunta por el tiempo, el modelo puede llamar a la interfaz API de una aplicación meteorológica para obtener al instante la información meteorológica más reciente y responder al usuario con los resultados, proporcionando una experiencia más inteligente e interactiva.

Ejemplo de aplicación Android: Llama-Breeze2-3B Driving Mobile AI Apps

Además de poner a disposición del público dos modelos lingüísticos multimodales, MediaTek Innovation Base ha puesto a disposición del público una aplicación para Android que puede instalarse directamente en teléfonos móviles. Basada en el modelo Llama-Breeze2-3B, esta aplicación puede utilizarse como asistente personal de IA para ayudar a los usuarios con traducciones en tiempo real, recomendaciones de atracciones y muchas otras tareas, como se muestra en la siguiente figura. Además, la aplicación está equipada con una función de generación de voz que permite a los usuarios introducir texto y el modelo generará una respuesta de voz natural y fluida, que puede utilizarse en múltiples escenarios, como la navegación inteligente.

Modelo de síntesis de voz BreezyVoice: cinco segundos de muestras de audio para generar auténticos acentos taiwaneses

Como parte del programa de código abierto, MediaTek Innovation Base también lanzó BreezyVoice, un modelo de síntesis de voz que está especialmente entrenado para el habla tradicional china y diseñado con una arquitectura ligera para generar rápidamente un habla altamente realista con solo 5 segundos de entrada de audio de muestra. BreezyVoice se puede utilizar como una solución de salida de voz para asistentes de IA para proporcionar una experiencia interactiva más natural. BreezyVoice puede utilizarse como solución de salida de voz para que los asistentes de IA proporcionen una experiencia interactiva más natural. Según MediaTek, BreezyVoice funciona ahora sin problemas en ordenadores portátiles y puede combinarse con cualquier sistema de modelado de grandes lenguajes (LLM) o de conversión de voz a texto para obtener aún más posibilidades de aplicación.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

Noticias AI

hace 1 año

071.4K

Lanzamiento de Sealos Devbox: despliegue de un entorno de desarrollo nativo en la nube

Noticias AI

hace 1 año

056.6K

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

Noticias AI

hace 1 año

050.6K

20 herramientas de IA totalmente gratuitas

Noticias AI

hace 1 año

073.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

La serie Llama-Breeze2 de modelos multimodales para teléfonos móviles y PC.

Análisis técnico del modelo Llama-Breeze2: optimización basada en Llama 3, combinando complejidad, visión y capacidad de invocación de herramientas.

Ejemplo de aplicación Android: Llama-Breeze2-3B Driving Mobile AI Apps

Modelo de síntesis de voz BreezyVoice: cinco segundos de muestras de audio para generar auténticos acentos taiwaneses

Trae, una herramienta doméstica de programación inteligente dirigida a Cursor, ¡ya está disponible para Windows!

xAI lanza el modelo Grok 3 con un rendimiento a la altura de los "5 grandes de la IA"

Artículos relacionados

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

Lanzamiento de Sealos Devbox: despliegue de un entorno de desarrollo nativo en la nube

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

20 herramientas de IA totalmente gratuitas

Sin comentarios

Últimas colecciones

Últimos artículos

Modelo multimodal de chino tradicional de código abierto de MediaTek y modelo de síntesis del habla con acento de Taiwán

La serie Llama-Breeze2 de modelos multimodales para teléfonos móviles y PC.

Análisis técnico del modelo Llama-Breeze2: optimización basada en Llama 3, combinando complejidad, visión y capacidad de invocación de herramientas.

Ejemplo de aplicación Android: Llama-Breeze2-3B Driving Mobile AI Apps

Modelo de síntesis de voz BreezyVoice: cinco segundos de muestras de audio para generar auténticos acentos taiwaneses

Trae, una herramienta doméstica de programación inteligente dirigida a Cursor, ¡ya está disponible para Windows!

xAI lanza el modelo Grok 3 con un rendimiento a la altura de los "5 grandes de la IA"

Artículos relacionados

Descubrir la ilusión del gran modelo: las clasificaciones de los HHEM permiten comprender el estado de la coherencia factual en el LLM

Lanzamiento de Sealos Devbox: despliegue de un entorno de desarrollo nativo en la nube

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

20 herramientas de IA totalmente gratuitas

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos