Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデル

堆友AI

Fun-Audio-Chat-8Bとは?

Fun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチモデルで、ASR+LLM+TTSのスプライシングが不要で、中国語と英語のバイリンガルに対応し、低遅延で自然な音質を実現します。Core-Cocktailの2段階学習は、まず音声機能を注入し、次にテキスト・パラメータを融合して忘却を抑制する。マルチタスク・プリファレンス・アライメントにより、モデルは感情を聞き取り、コマンドを理解する。OpenAudioBench、VoiceBenchおよび他の10以上の権威あるリストでは、最初に同じサイズでリストされ、音声チャット、感情的な伴奏、インテリジェント端末や顧客サービスを行うために展開することができ、24Gのビデオメモリは、推論することができ、コードと重みは、ModelScope、HuggingFaceとGitHubに同期されています。

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8Bの特徴

  • エンド・ツー・エンドのS2SアーキテクチャASR + LLM + TTSのスプライシングなしに、音声入力から直接音声出力を生成します。
  • デュアル・レゾリューション・デザイン共有LLMレイヤーは5Hzのフレームレートで効率的に処理され、SRHは25Hzのフレームレートで高品質の音声を生成し、GPUの計算オーバーヘッドを50%近く削減した。
  • コア・カクテル2段階トレーニング戦略壊滅的な忘却」の問題は、音声とマルチモーダル機能を段階的に導入することで軽減され、さらにそれらを元のテキスト・マクロモデルのパラメータと融合させることで微調整される。
  • 多段階、多タスクのプリファレンス・アライメント・トレーニング実際の音声対話において、意味的・感情的な手がかりをより正確に捉えることができるようになり、対話の自然性が向上する。

Fun-Audio-Chat-8Bの主な利点

  • エンド・ツー・エンドS2SASR+LLM+TTSのスプライシングがなく、レイテンシーが半減。
  • 80億の対訳パラメータ同じスケールのリストに10個以上のファーストがあり、理解し、話し、感情的な知覚が正確である。
  • デュアル・レゾリューション・アーキテクチャ5Hzの共有LLM + 25HzのHi-Fiデコード、GPU演算の半分を節約。
  • コア・カクテル・トレーニングテキストを融合する前に音声を注入し、壊滅的な忘却を抑制する。
  • プリファレンス・アライメント マルチタスク感情に耳を傾け、命令に応じてスタイルを変え、対話の自然さを飛躍的に向上させる。
  • ワンクリック・オープンソースModelScope/HuggingFace/GitHubフルリンクコードと重み、24Gのビデオメモリを推論することができ、10分、音声チャット、感情的な伴奏、インテリジェント端末、顧客サービスやその他のシーンを展開する。

Fun-Audio-Chat-8Bの公式サイトは?

  • プロジェクトのウェブサイト:: https://funaudiollm.github.io/funaudiochat/
  • Githubリポジトリ:: https://github.com/FunAudioLLM/Fun-Audio-Chat
  • HuggingFaceモデルライブラリhttps: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
  • 技術論文:: https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

Fun-Audio-Chat-8Bの対象者

  • インテリジェント・ハードウェア・メーカースピーカー、ヘッドフォン、自動車、家電製品に、低遅延、高インテリジェンスの音声対話機能を素早く追加できます。
  • 社会的・感情的伴侶起業家AIチャット、バーチャル恋人、ヒーリング・アシスタントなど、自然な音色と感情知覚を備えたアプリケーションを構築。
  • カスタマーサービス&コールセンター従来の TTS+ASR ソリューションを置き換えることで、エンド・ツー・エンドの音声 Q&A を実現し、導入コストと O&M コストを削減します。
  • 教育・語学学習プラットフォームリアルタイムのバイリンガル発音評価、スピーキングペア練習、発音矯正を提供し、インタラクティブな体験を高めます。
  • アクセシブルな開発者情報アクセシビリティを向上させるために、視覚障害者や失読症者のための流暢な音声対話ツールを作成する。
  • リサーチ・アルゴリズム・エンジニアオープンソースの重みと完全なトレーニングコードに基づいて、音声マクロモデリングの最前線を探ります。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません