Modèle multimodal de source ouverte pour le chinois traditionnel et modèle de synthèse vocale pour l'accent taïwanais de MediaTek

MediaTek Research a récemment annoncé l'ouverture officielle de deux modèles multimodaux optimisés pour le chinois traditionnel : Llama-Breeze2-3B et Llama-Breeze2-8B, qui sont conçus pour différentes plateformes informatiques telles que les téléphones mobiles et les PC, et qui ont la capacité d'appeler des fonctions, ce qui permet l'utilisation flexible d'outils externes pour étendre les scénarios d'application. Ces outils permettent une utilisation flexible d'outils externes afin d'élargir les scénarios d'application. En outre, MediaTek a également mis en libre accès une application Android basée sur Llama-Breeze2-3B et BreezyVoice, un modèle de synthèse vocale capable de générer un accent taïwanais naturel, démontrant ainsi sa conception complète de la technologie d'IA des terminaux.

联发科开源繁体中文多模态模型与台湾口音语音合成模型

 

La série de modèles multimodaux Llama-Breeze2 pour téléphones mobiles et ordinateurs.

MediaTek Innovation Base cette source ouverte Modèles de base multimodaux chinois traditionnels de la série Llama-Breeze2Le Llama-Breeze2-3B est une version légère du Llama-Breeze2 qui peut fonctionner sur des appareils mobiles, et une version légère du Llama-Breeze2-8B qui offre des performances plus puissantes sur les PC. Selon MediaTek, cette série de modèles n'est pas seulement compétente en chinois traditionnel, mais intègre également des fonctionnalités avancées telles que la multimodalité et les appels de fonction, ce qui lui permet de comprendre des informations d'image et d'appeler des outils externes pour effectuer des tâches complexes.

Afin de promouvoir davantage le développement d'applications d'IA mobiles, MediaTek a choisi le modèle Llama-Breeze2-3B comme noyau.Développement et mise à disposition d'une application AndroidCette application est conçue pour améliorer les capacités de l'assistant d'intelligence artificielle du téléphone portable, telles que la reconnaissance du contenu des images et l'invocation d'outils externes. Cette application est conçue pour améliorer les capacités de l'assistant IA du téléphone, telles que la reconnaissance du contenu des images, l'invocation d'outils externes, et plus encore. Dans le même temps, MediaTek synchronise également désengagement BreezyVoice, un modèle de synthèse vocale capable de synthétiser des accents taïwanais authentiques. Le contenu open source des trois modèles et applications susmentionnés comprend les poids des modèles et une partie du code d'exécution pour que les développeurs puissent les étudier et les appliquer.

 

Analyse technologique du modèle Llama-Breeze2 : optimisation basée sur Llama 3, combinant complexité, vision et capacités d'invocation d'outils

Une analyse approfondie du modèle Llama-Breeze2, dont la technologie de base est optimisée sur la base du modèle de langage open-source Llama 3 de Meta. MediaTek s'appuie en outre sur le corpus de chinois traditionnel pour améliorer la compréhension du chinois traditionnel par le modèle, et intègre le modèle de langage visuel ainsi que les appels de fonction (Appel de fonction), ce qui confère à la série de modèles Llama-Breeze2 trois caractéristiques principales : l'optimisation du chinois traditionnel, la compréhension des images et la possibilité d'appeler des outils externes.

existentCapacité en chinois traditionnelEn ce qui concerne les résultats de la comparaison fournis par MediaTek, par rapport au modèle Llama 3 3B Instruct avec la même échelle de paramètres, le Llama-Breeze2-3B a été en mesure d'énumérer avec précision des marchés nocturnes bien connus, tels que le marché nocturne de Shihlin, le marché nocturne de Raohe et le marché nocturne de Luodong, dans le texte court généré des marchés nocturnes de Taiwan ; tandis que le modèle Llama 3 3B Instruct n'a correctement reconnu que le marché nocturne de Shihlin. mais génère deux marchés nocturnes fictifs - Telecom Night Market et World Trade Night Market. Ce résultat souligne l'avantage de la famille de modèles Llama-Breeze2 dans la compréhension du chinois traditionnel.

existentcapacité multimodaleLlama-Breeze2-3B traite non seulement les informations textuelles, mais analyse aussi efficacement le contenu des images, telles que les diagrammes, les résultats de la reconnaissance optique de caractères (OCR) ou les photographies de lieux d'intérêt. Les modèles sont capables de comprendre le sens de l'image et de faire відповідь. Par exemple, dans le scénario suivant :

Question de l'utilisateur : Quel est le montant total des prix offerts aux trois premiers du classement ?

联发科开源繁体中文多模态模型与台湾口音语音合成模型

Llama-Breeze2-8B a répondu : D'après les informations figurant sur l'image, le prix de la première place s'élève à 300 000 RMB, celui de la deuxième place à 200 000 RMB et celui de la troisième place à 150 000 RMB. Si l'on additionne ces chiffres, le prix total pour les trois premières places s'élève à 650 000 RMB.

En outre, les modèles de la série Llama-Breeze2 sont équipés d'appels de fonction, ce qui leur permet d'appeler des outils externes pour accomplir des tâches plus complexes. Par exemple, lorsqu'un utilisateur s'enquiert de la météo, le modèle peut appeler l'interface API d'une application météorologique pour obtenir instantanément les dernières informations météorologiques et répondre à l'utilisateur avec les résultats, offrant ainsi une expérience plus intelligente et plus interactive.

 

Exemple d'application Android : Llama-Breeze2-3B Piloter des applications mobiles d'IA

Outre l'ouverture de deux modèles linguistiques multimodaux, MediaTek Innovation Base a également ouvert une application Android qui peut être déployée directement sur les téléphones portables. Basée sur le modèle Llama-Breeze2-3B, cette application peut être utilisée comme un assistant personnel d'IA pour aider les utilisateurs avec des traductions en temps réel, des recommandations d'attractions et bien d'autres tâches - comme le montre la figure ci-dessous. De plus, l'application est également équipée d'une fonction de génération vocale, qui permet aux utilisateurs de saisir du texte et au modèle de générer une réponse vocale naturelle et fluide, qui peut être utilisée dans de nombreux scénarios tels que la navigation intelligente.

联发科开源繁体中文多模态模型与台湾口音语音合成模型

 

Modèle de synthèse vocale BreezyVoice : cinq secondes d'échantillons audio pour générer des accents taïwanais authentiques

Dans le cadre du programme open source, MediaTek Innovation Base a également lancé BreezyVoice, un modèle de synthèse vocale spécialement formé pour la parole chinoise traditionnelle et conçu avec une architecture légère qui peut rapidement générer une parole très réaliste avec seulement 5 secondes d'échantillon audio. BreezyVoice peut être utilisé comme solution de sortie vocale pour les assistants IA afin de fournir une expérience plus naturelle et interactive. BreezyVoice peut être utilisé comme solution de sortie vocale pour les assistants d'intelligence artificielle afin d'offrir une expérience interactive plus naturelle. Selon MediaTek, BreezyVoice fonctionne désormais sans problème sur les ordinateurs portables et peut être associé à n'importe quel système de modélisation du langage (LLM) ou de conversion de la parole en texte pour multiplier les possibilités d'application.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...