メディアテック・リサーチはこのほど、繁体字中国語に最適化された2つのマルチモーダルモデル、Llama-Breeze2-3BとLlama-Breeze2-8Bを正式にオープンソース化したと発表した。Llama-Breeze2-3BとLlama-Breeze2-8Bは、携帯電話やPCなど異なるコンピューティングプラットフォーム向けに設計されており、機能を呼び出す機能を備えているため、外部ツールを柔軟に使用してアプリケーションシナリオを拡張することができる。アプリケーション・シナリオの拡張さらに、メディアテックは、Llama-Breeze2-3Bと自然な台湾アクセントを生成できる音声合成モデルBreezyVoiceをベースとしたAndroidアプリケーションもオープンソース化しており、端末AI技術の包括的なレイアウトを実証している。
Llama-Breeze2シリーズは、携帯電話やPC向けのマルチモーダルモデル。
メディアテック・イノベーションベース Llama-Breeze2シリーズ 中国伝統のマルチモーダルベースモデルLlama-Breeze2-3Bはモバイルデバイスで動作するLlama-Breeze2の軽量版であり、Llama-Breeze2-8BはPCでより強力な性能を発揮する軽量版である。メディアテック社によると、このシリーズのモデルは繁体字中国語に精通しているだけでなく、マルチモダリティや関数呼び出しなどの高度な機能を統合しており、画像情報を理解したり、外部ツールを呼び出して複雑なタスクを実行したりすることができる。
モバイルAIアプリケーションの開発をさらに推進するため、メディアテックはLlama-Breeze2-3Bモデルを中核に据えた。Androidアプリケーションの開発とオープンソース化画像コンテンツ認識や外部ツール呼び出しなど、携帯電話のAIアシスタントの機能を強化するためのアプリです。このアプリは、画像コンテンツ認識や外部ツール呼び出しなど、携帯電話のAIアシスタントの機能を強化するように設計されている。一方、MediaTekはまた、以下を同期させている。 離脱 BreezyVoiceは、本物の台湾アクセントを合成できる音声合成モデルです。 上記3つのモデルとアプリケーションのオープンソースコンテンツには、モデルの重みと実行コードの一部が含まれており、開発者は研究や応用に役立てることができます。
Llama-Breeze2モデル技術分析:複雑さ、ビジョン、ツール呼び出し機能を組み合わせたLlama 3に基づく最適化
Llama-Breeze2モデルの詳細な分析。そのコアテクノロジーは、Meta社のオープンソースLlama 3言語モデルに基づいて最適化されている。MediaTekはさらに、繁体字中国語コーパスを活用して繁体字中国語のモデル理解を強化し、視覚言語モデルと関数呼び出し(関数呼び出しLlama-Breeze2シリーズは、繁体字中国語の最適化、画像理解、外部ツールの呼び出しという3つの主要機能を備えている。
ある伝統的な中国語能力MediaTekが提供した比較結果では、Llama 3 3BのInstructモデルと同じパラメータスケールで比較したところ、Llama-Breeze2-3Bは、生成された台湾の夜市のショートテキストの中で、石林夜市、饒河夜市、羅東夜市といった有名な夜市を正確にリストアップすることができたのに対し、Llama 3 3BのInstructモデルは石林夜市のみを正確に認識した。一方、ラマ3 3Bインストラクトモデルは、石林夜市のみを正しく認識したが、電信夜市と世界貿易夜市という2つの架空の夜市を生成した。 この結果は、繁体字中国語の理解におけるLlama-Breeze2モデルファミリーの優位性を浮き彫りにしています。
あるマルチモーダル機能Llama-Breeze2-3Bはテキスト情報を処理するだけでなく、図表、光学式文字認識(OCR)結果、名所写真などの画像の内容も効果的に分析します。モデルは画像の意味を理解し、відповідьを作成することができます。 たとえば、次のようなシナリオです:
ユーザーの質問 上位3人に与えられる賞金の総額は?
ラマ=ブリーズ2-8Bが答えた: 写真の情報によると、1位の賞金は30万元、2位は20万元、3位は15万元。この数字を足すと、上位3位の賞金総額は65万元になる。
さらに、Llama-Breeze2シリーズにはファンクションコールが搭載されており、外部ツールを呼び出してより複雑なタスクを実行することができます。例えば、ユーザーが天気について問い合わせると、気象アプリケーションのAPIインターフェースを呼び出して最新の気象情報を即座に取得し、その結果をユーザーに返信することで、よりスマートでインタラクティブな体験を提供することができます。
Androidアプリの例:Llama-Breeze2-3B モバイルAIアプリを動かす
2つのマルチモーダル言語モデルのオープンソース化に加え、MediaTek Innovation Baseはさらに、携帯電話に直接導入できるAndroidアプリをオープンソース化した。Llama-Breeze2-3Bモデルをベースにしたこのアプリは、下図に示すように、リアルタイムの翻訳、アトラクションの推奨、その他多くのタスクでユーザーを支援するパーソナルAIアシスタントとして使用できる。さらに、このアプリは音声生成機能も備えており、ユーザーがテキストを入力すると、モデルが自然で滑らかな音声応答を生成する。
ブリージーボイス音声合成モデル:5秒間の音声サンプルで本物の台湾アクセントを生成
オープンソース・プログラムの一環として、MediaTek Innovation BaseはBreezyVoiceも発表した。BreezyVoiceは、伝統的な中国語音声用に特別に訓練された音声合成モデルで、わずか5秒のサンプル音声入力で非常にリアルな音声を素早く生成できる軽量アーキテクチャで設計されている。 BreezyVoiceは、AIアシスタント用の音声出力ソリューションとして使用することができ、より自然でインタラクティブな体験を提供することができる。BreezyVoiceはAIアシスタント用の音声出力ソリューションとして使用でき、より自然な対話体験を提供できる。メディアテックによると、BreezyVoiceは現在、ラップトップでスムーズに動作し、Large Language Modelling(LLM)またはSpeech-to-Textシステムと組み合わせることで、アプリケーションの可能性をさらに広げることができる。