Modèle multimodal de source ouverte pour le chinois traditionnel et modèle de synthèse vocale pour l'accent taïwanais de MediaTek

Nouvelles de l'IAPosté il y a 6 mois Cercle de partage de l'IA

8.1K 00

MediaTek Research a récemment annoncé l'ouverture officielle de deux modèles multimodaux optimisés pour le chinois traditionnel : Llama-Breeze2-3B et Llama-Breeze2-8B, qui sont conçus pour différentes plateformes informatiques telles que les téléphones mobiles et les PC, et qui ont la capacité d'appeler des fonctions, ce qui permet l'utilisation flexible d'outils externes pour étendre les scénarios d'application. Ces outils permettent une utilisation flexible d'outils externes afin d'élargir les scénarios d'application. En outre, MediaTek a également mis en libre accès une application Android basée sur Llama-Breeze2-3B et BreezyVoice, un modèle de synthèse vocale capable de générer un accent taïwanais naturel, démontrant ainsi sa conception complète de la technologie d'IA des terminaux.

La série de modèles multimodaux Llama-Breeze2 pour téléphones mobiles et ordinateurs.

MediaTek Innovation Base cette source ouverte Modèles de base multimodaux chinois traditionnels de la série Llama-Breeze2Le Llama-Breeze2-3B est une version légère du Llama-Breeze2 qui peut fonctionner sur des appareils mobiles, et une version légère du Llama-Breeze2-8B qui offre des performances plus puissantes sur les PC. Selon MediaTek, cette série de modèles n'est pas seulement compétente en chinois traditionnel, mais intègre également des fonctionnalités avancées telles que la multimodalité et les appels de fonction, ce qui lui permet de comprendre des informations d'image et d'appeler des outils externes pour effectuer des tâches complexes.

Afin de promouvoir davantage le développement d'applications d'IA mobiles, MediaTek a choisi le modèle Llama-Breeze2-3B comme noyau.Développement et mise à disposition d'une application AndroidCette application est conçue pour améliorer les capacités de l'assistant d'intelligence artificielle du téléphone portable, telles que la reconnaissance du contenu des images et l'invocation d'outils externes. Cette application est conçue pour améliorer les capacités de l'assistant IA du téléphone, telles que la reconnaissance du contenu des images, l'invocation d'outils externes, et plus encore. Dans le même temps, MediaTek synchronise également désengagement BreezyVoice, un modèle de synthèse vocale capable de synthétiser des accents taïwanais authentiques. Le contenu open source des trois modèles et applications susmentionnés comprend les poids des modèles et une partie du code d'exécution pour que les développeurs puissent les étudier et les appliquer.

Analyse technologique du modèle Llama-Breeze2 : optimisation basée sur Llama 3, combinant complexité, vision et capacités d'invocation d'outils

Une analyse approfondie du modèle Llama-Breeze2, dont la technologie de base est optimisée sur la base du modèle de langage open-source Llama 3 de Meta. MediaTek s'appuie en outre sur le corpus de chinois traditionnel pour améliorer la compréhension du chinois traditionnel par le modèle, et intègre le modèle de langage visuel ainsi que les appels de fonction (Appel de fonction), ce qui confère à la série de modèles Llama-Breeze2 trois caractéristiques principales : l'optimisation du chinois traditionnel, la compréhension des images et la possibilité d'appeler des outils externes.

existentCapacité en chinois traditionnelEn ce qui concerne les résultats de la comparaison fournis par MediaTek, par rapport au modèle Llama 3 3B Instruct avec la même échelle de paramètres, le Llama-Breeze2-3B a été en mesure d'énumérer avec précision des marchés nocturnes bien connus, tels que le marché nocturne de Shihlin, le marché nocturne de Raohe et le marché nocturne de Luodong, dans le texte court généré des marchés nocturnes de Taiwan ; tandis que le modèle Llama 3 3B Instruct n'a correctement reconnu que le marché nocturne de Shihlin. mais génère deux marchés nocturnes fictifs - Telecom Night Market et World Trade Night Market. Ce résultat souligne l'avantage de la famille de modèles Llama-Breeze2 dans la compréhension du chinois traditionnel.

existentcapacité multimodaleLlama-Breeze2-3B traite non seulement les informations textuelles, mais analyse aussi efficacement le contenu des images, telles que les diagrammes, les résultats de la reconnaissance optique de caractères (OCR) ou les photographies de lieux d'intérêt. Les modèles sont capables de comprendre le sens de l'image et de faire відповідь. Par exemple, dans le scénario suivant :

Question de l'utilisateur : Quel est le montant total des prix offerts aux trois premiers du classement ?

Llama-Breeze2-8B a répondu : D'après les informations figurant sur l'image, le prix de la première place s'élève à 300 000 RMB, celui de la deuxième place à 200 000 RMB et celui de la troisième place à 150 000 RMB. Si l'on additionne ces chiffres, le prix total pour les trois premières places s'élève à 650 000 RMB.

En outre, les modèles de la série Llama-Breeze2 sont équipés d'appels de fonction, ce qui leur permet d'appeler des outils externes pour accomplir des tâches plus complexes. Par exemple, lorsqu'un utilisateur s'enquiert de la météo, le modèle peut appeler l'interface API d'une application météorologique pour obtenir instantanément les dernières informations météorologiques et répondre à l'utilisateur avec les résultats, offrant ainsi une expérience plus intelligente et plus interactive.

Exemple d'application Android : Llama-Breeze2-3B Piloter des applications mobiles d'IA

Outre l'ouverture de deux modèles linguistiques multimodaux, MediaTek Innovation Base a également ouvert une application Android qui peut être déployée directement sur les téléphones portables. Basée sur le modèle Llama-Breeze2-3B, cette application peut être utilisée comme un assistant personnel d'IA pour aider les utilisateurs avec des traductions en temps réel, des recommandations d'attractions et bien d'autres tâches - comme le montre la figure ci-dessous. De plus, l'application est également équipée d'une fonction de génération vocale, qui permet aux utilisateurs de saisir du texte et au modèle de générer une réponse vocale naturelle et fluide, qui peut être utilisée dans de nombreux scénarios tels que la navigation intelligente.

Modèle de synthèse vocale BreezyVoice : cinq secondes d'échantillons audio pour générer des accents taïwanais authentiques

Dans le cadre du programme open source, MediaTek Innovation Base a également lancé BreezyVoice, un modèle de synthèse vocale spécialement formé pour la parole chinoise traditionnelle et conçu avec une architecture légère qui peut rapidement générer une parole très réaliste avec seulement 5 secondes d'échantillon audio. BreezyVoice peut être utilisé comme solution de sortie vocale pour les assistants IA afin de fournir une expérience plus naturelle et interactive. BreezyVoice peut être utilisé comme solution de sortie vocale pour les assistants d'intelligence artificielle afin d'offrir une expérience interactive plus naturelle. Selon MediaTek, BreezyVoice fonctionne désormais sans problème sur les ordinateurs portables et peut être associé à n'importe quel système de modélisation du langage (LLM) ou de conversion de la parole en texte pour multiplier les possibilités d'application.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Inventaire approfondi des projets Open Source de l'OCR : les 10 premiers à ne pas manquer en 2025

Nouvelles de l'IA

Il y a 6 mois

010.8K

5999 de travaux d'automatisation de coze (bouton) tutoriels pratiques

Nouvelles de l'IA

Il y a 8 mois

08.1K

NVIDIA PDF to Podcast：设置引导提示词将PDF转换为播客的AI工具

NVIDIA PDF to Podcast : outil d'IA pour convertir des PDF en podcast en définissant des mots-guides.

Nouvelles de l'IA # AI Java Open Source Projecct # Synthèse vocale AI

Il y a 7 mois

09.7K

Qwen2.5-1M : Un modèle Qwen Open Source supportant des contextes de 1 million de tokens

Nouvelles de l'IA

Il y a 7 mois

011.3K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Modèle multimodal de source ouverte pour le chinois traditionnel et modèle de synthèse vocale pour l'accent taïwanais de MediaTek

La série de modèles multimodaux Llama-Breeze2 pour téléphones mobiles et ordinateurs.

Analyse technologique du modèle Llama-Breeze2 : optimisation basée sur Llama 3, combinant complexité, vision et capacités d'invocation d'outils

Exemple d'application Android : Llama-Breeze2-3B Piloter des applications mobiles d'IA

Modèle de synthèse vocale BreezyVoice : cinq secondes d'échantillons audio pour générer des accents taïwanais authentiques

Trae, un outil de programmation domestique intelligent ciblant le curseur, est maintenant disponible pour Windows !

xAI lance le modèle Grok 3, dont les performances sont comparables à celles des "Big 5 de l'IA".

Articles connexes

Inventaire approfondi des projets Open Source de l'OCR : les 10 premiers à ne pas manquer en 2025

5999 de travaux d'automatisation de coze (bouton) tutoriels pratiques

NVIDIA PDF to Podcast : outil d'IA pour convertir des PDF en podcast en définissant des mots-guides.

Qwen2.5-1M : Un modèle Qwen Open Source supportant des contextes de 1 million de tokens

Pas de commentaires

Dernières collections

Derniers articles

Modèle multimodal de source ouverte pour le chinois traditionnel et modèle de synthèse vocale pour l'accent taïwanais de MediaTek

La série de modèles multimodaux Llama-Breeze2 pour téléphones mobiles et ordinateurs.

Analyse technologique du modèle Llama-Breeze2 : optimisation basée sur Llama 3, combinant complexité, vision et capacités d'invocation d'outils

Exemple d'application Android : Llama-Breeze2-3B Piloter des applications mobiles d'IA

Modèle de synthèse vocale BreezyVoice : cinq secondes d'échantillons audio pour générer des accents taïwanais authentiques

Trae, un outil de programmation domestique intelligent ciblant le curseur, est maintenant disponible pour Windows !

xAI lance le modèle Grok 3, dont les performances sont comparables à celles des "Big 5 de l'IA".

Articles connexes

Inventaire approfondi des projets Open Source de l'OCR : les 10 premiers à ne pas manquer en 2025

5999 de travaux d'automatisation de coze (bouton) tutoriels pratiques

NVIDIA PDF to Podcast : outil d'IA pour convertir des PDF en podcast en définissant des mots-guides.

Qwen2.5-1M : Un modèle Qwen Open Source supportant des contextes de 1 million de tokens

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles