Мультимодальная модель традиционного китайского языка с открытым исходным кодом от MediaTek и модель синтеза речи с тайваньским акцентом
Компания MediaTek Research недавно объявила об официальном открытии двух мультимодальных моделей, оптимизированных для традиционного китайского языка: Llama-Breeze2-3B и Llama-Breeze2-8B, которые предназначены для различных вычислительных платформ, таких как мобильные телефоны и ПК, и имеют возможность вызова функций, что позволяет гибко использовать внешние инструменты для расширения сценариев применения. для расширения сценариев применения. Кроме того, MediaTek выложила в открытый доступ приложение для Android на базе Llama-Breeze2-3B и BreezyVoice, модель синтеза речи, которая может генерировать естественный тайваньский акцент, демонстрируя комплексное развитие технологии терминального ИИ.

Серия мультимодальных моделей Llama-Breeze2 для мобильных телефонов и ПК.
Инновационная база MediaTek с открытым исходным кодом Традиционные китайские мультимодальные базовые модели серии Llama-Breeze2Llama-Breeze2-3B - это облегченная версия Llama-Breeze2, которая может работать на мобильных устройствах, и облегченная версия Llama-Breeze2-8B, обеспечивающая более мощную производительность на ПК. По словам MediaTek, модели этой серии не только хорошо владеют традиционным китайским языком, но и интегрируют такие передовые функции, как мультимодальность и вызов функций, что позволяет им понимать информацию с изображений и вызывать внешние инструменты для выполнения сложных задач.
Для дальнейшего развития мобильных приложений искусственного интеллекта компания MediaTek взяла за основу модель Llama-Breeze2-3B.Разработанное и открытое приложение для AndroidAI Assistant. Приложение призвано расширить возможности ИИ-помощника телефона, такие как распознавание содержимого изображений, вызов внешних инструментов и многое другое. Тем временем MediaTek также синхронизирует разъединение BreezyVoice - модель синтеза речи, способная синтезировать аутентичный тайваньский акцент. В открытый исходный код трех вышеперечисленных моделей и приложений включены веса моделей и часть кода исполнения, которые разработчики могут изучать и применять.
Технический анализ модели Llama-Breeze2: оптимизация на основе Llama 3, сочетающая сложность, зрение и возможности вызова инструмента
Глубокий анализ модели Llama-Breeze2, основная технология которой оптимизирована на основе языковой модели Meta Llama 3 с открытым исходным кодом. MediaTek использует корпус традиционного китайского языка, чтобы улучшить понимание модели традиционного китайского языка, и интегрирует визуальную языковую модель, а также вызовы функций (Вызов функции), наделяя серию моделей Llama-Breeze2 тремя основными функциями: оптимизацией традиционного китайского языка, пониманием изображений и возможностью вызова внешних инструментов.
существоватьВозможности традиционного китайского языкаЧто касается результатов сравнения, предоставленных MediaTek, то по сравнению с моделью Llama 3 3B Instruct с той же шкалой параметров, Llama-Breeze2-3B смогла точно перечислить известные ночные рынки, такие как Shihlin Night Market, Raohe Night Market и Luodong Night Market, в сгенерированном кратком тексте о ночных рынках Тайваня; в то время как модель Llama 3 3B Instruct правильно распознала только Shihlin Night Market. но генерирует два фиктивных ночных рынка - Telecom Night Market и World Trade Night Market. Этот результат подчеркивает преимущество семейства моделей Llama-Breeze2 в понимании традиционного китайского языка.
существоватьмультимодальные возможностиLlama-Breeze2-3B не только обрабатывает текстовую информацию, но и эффективно анализирует содержание изображений, таких как диаграммы, результаты оптического распознавания символов (OCR) или фотографии достопримечательностей. Модели способны понять смысл изображения и сделать відповідь. Например, в следующем сценарии:
Вопрос пользователя: Какова общая сумма призовых денег для трех лучших финишеров?

Llama-Breeze2-8B ответил: Согласно информации на картинке, приз за первое место составляет 300 000 юаней, за второе - 200 000 юаней, а за третье - 150 000 юаней. Если сложить эти цифры, то общий призовой фонд для трех первых мест составит 650 000 юаней.
Кроме того, модели серии Llama-Breeze2 оснащены функциями вызова, что позволяет им вызывать внешние инструменты для выполнения более сложных задач. Например, когда пользователь спрашивает о погоде, модель может вызвать API-интерфейс погодного приложения, чтобы мгновенно получить последнюю информацию о погоде и ответить пользователю с результатами, обеспечивая более интеллектуальный и интерактивный опыт.
Пример приложения для Android: Llama-Breeze2-3B Driving Mobile AI Apps
В дополнение к открытому доступу к двум мультимодальным языковым моделям инновационная база MediaTek открыла доступ к приложению для Android, которое может быть установлено непосредственно на мобильные телефоны. Это приложение, основанное на модели Llama-Breeze2-3B, может использоваться в качестве персонального ИИ-ассистента, помогающего пользователям в режиме реального времени переводить, рекомендовать достопримечательности и выполнять многие другие задачи, как показано на рисунке ниже. Более того, приложение также оснащено функцией генерации речи, которая позволяет пользователям вводить текст, а модель будет генерировать естественный и плавный голосовой ответ, который можно использовать в различных сценариях, таких как интеллектуальная навигация.

Модель синтеза речи BreezyVoice: пять секунд аудиообразцов для генерации аутентичных тайваньских акцентов
В рамках программы открытого исходного кода MediaTek Innovation Base также запустила BreezyVoice, модель синтеза речи, специально обученную для традиционной китайской речи и разработанную с облегченной архитектурой, чтобы быстро генерировать высокореалистичную речь всего за 5 секунд. BreezyVoice может использоваться в качестве решения для вывода речи для ассистентов ИИ, чтобы обеспечить более естественный и интерактивный опыт. BreezyVoice может использоваться в качестве решения для вывода речи для ассистентов ИИ, чтобы обеспечить более естественный интерактивный опыт. По словам MediaTek, BreezyVoice теперь плавно работает на ноутбуках и может быть объединен с любой системой моделирования большого языка (LLM) или преобразования речи в текст для еще большего расширения возможностей применения.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...