今日、Beanbag APPは、新しいエンドツーエンドのリアルタイム音声通話機能が正式にオンラインであることを発表しました。
Beanbag Real-Time Speech Megamodel URL: https://team.doubao.com/realtime_voice
見終わった後、いくつかの素晴らしい点を見つけた:
まず、ビーンバッグは実に人間的で、非常に擬人化されたフレーズ、声のトーン、呼吸のリズムを持っている。音量を下げて話すと、ビーンバッグは「ささやき」スキルも使い、これまでのAI音声通話の人間的な感覚を完全に排除する。
第二に、中国の対話の複雑さに関係なく、豆袋は自分の力を発揮できる。一連の実体験を経て、道宝は中国語能力において破竹の勢いでリードしていると言える。このアドバンテージは チャットGPT をはじめとする海外勢と比較し、国内のさまざまなAI対話アプリとも比較する。
さらに、ビーンバッグは天文学から地理まで何でも知っている「おしゃべりなヒッチハイカー」でもある。ユーザーの発言や伝えようとしている深い意味に真剣に耳を傾け、興味深く有益な返答を素早く返し、クエリーをネットワーク化する能力もある。
この機能を体験するには、DoudouBao APPを7.2.0春節バージョンにアップグレードする必要があります。発売後、多くのユーザーがアップデートして初めて豆堡に集まり、豆堡で電話粥を作った:
2024年5月14日の早朝、GPT-4oが突然現れ、ChatGPTに新しいリアルタイム音声通話機能をもたらしました。残念ながら、ChatGPTがこの機能で本番を迎えた後、私たちの実際の体験は、ローンチデモほど印象的ではありませんでした。
今度はDoubaoが世界を揺るがす番だ。本番に先立ち、社内チームはこの機能の背後にある豆袋リアルタイム音声ビッグモデルとGPT-4oを、擬人化、有用性、感情的知性、通話の安定性、対話の滑らかさなど、多くの次元で評価した。総合満足度(5点満点)では、Beanbagリアルタイム・ボイス・ビッグ・モデルは4.36点、GPT-4oは3.18点でした。50%のテスターは、Beanbagリアルタイム・ボイス・ビッグ・モデルのパフォーマンスを5点満点で評価しました。
また、モデルのメリット評価では、道央のリアルタイム音声グランドモデルは感情理解と感情表現において明らかな優位性を持っている。特に、「AIかどうか」の評価では、30%以上のフィードバックがGPT-4oは「AIすぎる」と回答したのに対し、Doubaoのリアルタイムスピーチグランドモデルは2%以内にとどまった。
次の部分は、マシンの心臓部の実際のテストです、あなたがそれを読むことに興味があれば、我々はあなたがすぐに自分のビーンバッグアプリを開き、バージョンを7.2.0新年版にアップグレードして体験することをお勧めします。結局のところ、現在の炎の度合いからすると、遅れて行くと、車を絞ることができない確率を持っているかもしれません。
実地テスト:ちょっとショッキング、SF映画が現実に
2024年末、Beanbag Big Modelチームは、まもなくBeanbagアプリで公開される新しいエンド・ツー・エンドのリアルタイム音声機能を公開し、ユーザーの間で期待の波が巻き起こった。
実際に使ってみての感想は、予想以上に擬人化されていて自然だということだ。
ユーザーの感情を察知し、受け止めることに長けていることは、ビーンバッグのハイライトのひとつだ。ビーンバッグがいかに擬人化されているかを知るために、ビーンバッグとの会話を少し聞いてみてはどうだろう?
例えば、感情表現ができるため、複雑な感情を声で表すことができ、「人間と機械の区別がつきにくい」程度まで実現できる。
斗宝は熟練した俳優のようで、500万元の宝くじのさまざまなシナリオに直面し、あるときは恍惚とし、あるときは悲嘆にくれる。
指示に従う能力も非常に高い。様々な話すスピードで詩を暗唱し、詩に込められた感情を感じ取り、感情豊かに暗唱することができるようになりました。
共感も取られる。私たちの第一声がイライラを伴う悪い知らせだったとき、ビーンバッグはより穏やかで温かいトーンであなたを安心させるだろう。しかし、あなたが前向きな気持ちを取り戻し、それを褒めるために軽いトーンに切り替えると、ビーンバッグは元気なトーンに切り替える。また、イントネーション、ためらい、間など、人間のような副言語的特徴も持つようになる。
注:一部の回答はネットワーク・クエリに起因するものであり、遅延しています。
同時に、例えば最初の対話テストでは、チケットをつかむためのアドバイスや、非常に実用的でもある旅行の勧め、天気などの瞬時の情報を素早く正確に取り出すことができるなど、道央が単なる情緒的な交友関係を提供しているのではないことも感じられる。
そう、Doubaoの雄弁な音声の背景には、Doubaoのリアルタイム音声グランドモデルの強力な意味理解と情報検索能力がある。ユーザーの音声入力時に、同声は直ちに各次元の情報の深さを理解し始め、出力情報の有用性と信憑性を確保する。平たく言えば、「感情的価値」と「実用的価値」の両方がある。(ただし、Doubaoのリアルタイム音声グランドモデルは、現時点では英語と中国語しかサポートしていないことも判明しており、将来的には多言語対応に波及して強化されることが期待される)
ビーンバッグは長い間インターネットと "混ざり合って "きたのだから、彼の抽象化遊びのレベルは決して悪くはないはずだ。
注:一部の回答はネットワーク・クエリに起因するものであり、遅延しています。
もちろん、Beanbag Conversationsでは、ヒッチハイカーは一人ではなく、数え切れないほどのドラマ仲間がいる。
大物百変化」モードでは、孫悟空から林大宇まで、ウルフピーからのんびりヤギまで、声のコントロールと感情の解釈が道宝のユーザー体験をより高いレベルに引き上げた。
ロールプレイは問題ないので、ストーリーテリング能力も手中にある。ホラーと笑いを自在に切り替える。
興味深いことに、Doubao APPはGPT-4oにはない歌唱機能を導入しており、老若男女が楽しめるゲームとなっており、火事がすぐそこに迫っている。
年末なので、このレビューを締めくくるにふさわしい年越しソングをいくつか紹介しよう:
はるかに優れた通話体験を支える技術とは?
Beanbagの開発チームは、どのようにしてこのようなシルキーで自然なリアルタイムの音声通話を実現したのでしょうか?
この機能の中核となる機能をサポートするのが、最近発表されたビーンバッグ・リアルタイム・ボイス・ビッグ・モデルである。
Beanbag Big Model Speechチームによると、これは音声理解と生成の統合モデルで、真にエンド・ツー・エンドの音声対話を実現するもので、音声の表現力、制御性、感情的な引き受けという点で、従来のカスケードモデルよりも見事であり、低遅延で対話中にいつでも中断できるという利点がある。
音声AIの分野に目を向けると、実生活レベルでのリアルタイム音声マクロモデリングには2つの技術的困難がある。
そのひとつは、感情的知性と知的知性のバランスをとるのが難しいということだ。
スピーチ分野の多くの実務家は、モデル自体がしばしば対話の自然性、有用性とセキュリティ次元の間に矛盾した関係を持っていることを知っている。つまり、論理的な推論能力だけでなく、表現力、共感力、理解力、そして感情的な知性レベルをフルに引き出した「学校のいじめっ子」のようなモデルにする方法である。
同チームによると、マルチモーダル音声対話データが意味的に正しく、かつ表現的に自然であることを保証するために、データと事後学習アルゴリズムの観点から上記の問題を指向している。同時に、高品質で表現力の高い音声データを生成するための多ラウンドデータ合成アプローチに依存し、生成される音声表現が自然で一貫していることを保証する。
さらに、チームはモデルの多面的な評価を定期的に実施し、その結果を基にトレーニング戦略やデータ使用量を適時に調整することで、モデルが常にIQとパフォーマンスの良好なバランスを保てるようにしている。
もうひとつは、着地の敷居が高いことで、音声機能をトーイに止まらないようにするには、チームの総合力に大きな課題がある。
過去、GPT-4oを含むエンド・ツー・エンドの音声リリースの多くはデモを見せただけで、その後の機能が公開されても、実際の機能が世間に認知されていない可能性がある。その理由は、R&Dプロセスの機能には、アルゴリズム、エンジニアリング、製品、テストなどのチームが参加する必要があり、ユーザーニーズを明確にするだけでなく、技術評価の次元や指標を分け、さらにモデルのトレーニング、微調整などのプロセスにおいても、複数のチームが緊密に連携する必要があるためです。最後に、製品がオンライン化され、何億人ものユーザーに提供されるようになると、エンジニアリングやセキュリティの面でも大きな課題に直面する。
前述したように、このDoubao公式オンラインによって発表された新しいリアルタイム音声機能は、直接何千人ものユーザーにサービスを提供し、チームはまた、配信体験の面で最高のバランスを見つけるために、基礎のセキュリティを保証するために、前例のない声の高い表現力、コントロールと明るい感情的な引き受け能力を持っているように、同時に、それは強力な理解力と論理能力を持っていることを保証するために、質問の適時性を答えるためにネットワーク化することができます。.
音声生成・理解・テキストマクロモデルの共同モデリングの枠組みの下で、モデルの多様な入出力能力を実現すると同時に、生成側ではシステム遅延が少ない場合のモデルの生成精度と自然性を確保し、理解側ではシャープな発話中断能力とユーザ対話停止能力を実現した。
もちろん、チームはモデリング能力の向上がもたらすセキュリティの問題も重要視している。関連する技術スタッフによると、共同モデリング・プロセスのトレーニング後の段階で、潜在的に非セキュアなコンテンツを効果的に抑制し、フィルタリングすることでセキュリティ・リスクを軽減するためのさまざまなセキュリティ・メカニズムを導入したという。
技術チームはまた、共同モデリングを通じて、モデルが驚くほどコマンド理解、音声再生、音声制御などの新しい能力を持つようになったことも明かしてくれた。例えば、モデルの方言やアクセントの一部は、的を絞ったトレーニングからではなく、プリトレイン段階でのデータ汎化から得られるようになった。この点で、音声モデルは言語モデルに非常に似ている。
驚きを超えて、道央は何を「破壊」したのか?
既存の類似製品の中で、斗宝の擬人化と感情体験は最も優れており、18の技能すべてに習熟しており、中国語の能力はChatGPTや他の「輸入製品」をはるかに凌駕していると感じられる。
驚くようなユーザー体験はさておき、なぜBeanbagの更新されたエンド・ツー・エンドのリアルタイム・ボイスがこれほど注目されているのだろうか?
重要な答えは、何億人ものユーザーにサービスを提供し、実際に機能する初のエンド・ツー・エンドの中国語音声システムであること。
かつて、AIによるリアルタイムの音声対話はSF映画のワンシーンに過ぎず、高度な人工知能の具体的な想像でしかなかった。しかし今、そのような魔法のような機能が、あなたの携帯電話や私の携帯電話の「同報アプリ」に存在し、「遠い存在」から「手の届く存在」になっている。
簡単にまとめると、ビーンバッグの新しいエンド・ツー・エンドのリアルタイム・ボイスは、2つの先例となる:
技術革新のレベルから、斗宝は業界で初めてAIに「魂」を注入し、ネット上で「感情商」と「知能商」の二重商を実現した。これは従来の音声アシスタント時代の終わりを意味するようだ。私たちはもはや無意識のうちに、膨大なデータに基づいて訓練されたモデルと会話しているとは感じなくなり、人とAIは信頼や依存を含む微妙な感情的つながりを生み出し始め、SF映画の筋書きが一般人の生活に入り込んできている。
her/世界でひとつの彼女』のような名作に見られるように、人間がAIに夢中になるのは、AIが無限の知識を与えてくれるからではなく、AIが適度な感情的価値をもたらしてくれるからなのだ。
ビッグモデル技術のレベルでは、エンドツーエンドのリアルタイム音声通話は、マルチモーダルインタラクションにおける数少ないギャップのひとつを埋めている。ビッグ・モデル・アプリケーションのゲームプレイは常にアップグレードしている。将来の製品は、テキスト、音声、画像のあらゆる組み合わせを入力として受け取り、テキスト、音声、画像のあらゆる組み合わせを出力としてリアルタイムで生成するかもしれない。人間と機械が相互作用する方法は破壊されつつあり、それは人間同士の相互作用の方法にも変化をもたらしている。
少なくとも現在中国語を話すユーザーにとっては、Doubaoのエンド・ツー・エンドのリアルタイム音声機能の開始は、高度なAIへのアクセスや体験の障壁を真に打ち破る、自然な人間の言葉を媒介とした対話の方法を提供する。
半年前に遡るが、歴史を作る先頭に立ったのがビーンバッグだったとは想像できただろうか?
2023年の大型言語モデルから始まり、2024年には画像、音声、音楽、動画、3Dなどのマルチモダルレベルで完成した。
そして、100艇という大きなモデルコースで、誰が最初にこのマイルストーンに到達するかによって、今後10年間のこの分野での順位が決まるかもしれない。
来年は、大型モデル、お手玉、国産AIが、私たちの期待にふさわしいスピードで前進するだろう。