百度、文心ビッグモデル4.5とX1をリリース：マルチモーダル能力とディープシンキングのデュアル進化

18.7K 00

3月16日、百度は2つの新しい大型モデル「文信大型モデル4.5」と「文信大型モデルX1」を正式にリリースした。一言で言えば公式ウェブサイトはオンラインで公開され、ユーザーは無料で体験することができる。同時に、文心大モデル4.5が百度インテリジェントクラウド銭帆大モデルプラットフォームに上陸し、APIを通じて企業ユーザーや開発者が呼び出すことができる。また、Wenshin Big Model X1も近日中にChifanプラットフォームで利用可能になる。さらに、百度検索、文信易問APPおよびその他の製品もこれら2つの新しいモデルに接続され、ユーザーにさらに多様な体験をもたらす。

文信ビッグモデル4.5：ネイティブなマルチモーダル、より包括的な機能

文心ビッグモデル4.5は、百度が開発した新世代のネイティブマルチモーダルベースビッグモデルである。共同マルチモーダルモデリングによる協調最適化を実現し、マルチモーダル理解能力に優れている。前バージョンと比較して、文心ビッグモデル4.5は、言語能力、理解力、生成力、論理力、記憶力、エラーメッセージの削減、論理的推論、コード能力が大幅に向上している。

マルチモーダル機能

テキスト能力

Wenxin Big Model 4.5は、テキスト、画像、音声、動画、その他の形式のコンテンツを総合的に理解することができる。例えば、図を含む複雑な問題を扱う場合、図の中の重要な情報を正確に抽出し、問題を解くための詳細な手順と分析を行い、最終的に正しい答えを導き出すことができます。

文心ビッグモデル4.5は、その「高いIQ」に加えて、インターネットの簡潔な画像や風刺漫画を理解することに関しても「高いEQ」を発揮する。これらのコンテンツに隠されたメッセージやユーモラスな要素を的確に捉え、詳細に説明することができる。例えば、「連続性は必ずしも連続性に結びつかず、導出性は必ず連続性に結びつく」という数学的概念を含むいくつかの「テリア絵」の数学的概念と論理を明確に説明することができる。

文信ビッグモデル4.5の強化された能力は、いくつかのキーテクノロジーによるものだ：

フラッシュマスクダイナミックアテンションマスク： この技術により、大規模なモデルのアテンションマスクの計算が高速化され、長いシーケンスのモデリング能力と学習効率が向上し、長いテキストや複数ラウンドの会話を処理するモデルの性能が最適化される。
マルチモーダルな異種エキスパート拡張技術： 異なるモード特性に対して異種のエキスパートを構築し、適応的なモード知覚損失関数を組み合わせることで、異なるモード勾配の不均衡の問題を解決し、マルチモーダル融合能力を向上させる。
時空間次元表現圧縮技術： この技術は、画像や動画の意味表現を時空間次元で効率的に圧縮し、マルチモーダルデータの学習効率を劇的に向上させ、長時間の動画から知識を学習するモデルの能力を高めることができる。
知識点に基づく大規模データ構築技術： 知識の階層的サンプリング、データの圧縮と融合、希少な知識ポイントのターゲット合成の技術を通じて、知識密度の高い事前学習データを構築し、モデルの学習効率を向上させ、モデルが誤った情報を生成する確率を低減する。
セルフフィードバックに基づくトレーニング後のテクニック： 複数の評価モダリティを組み込んだ自己フィードバック反復ポストトレーニング技術は、強化学習の安定性と頑健性を包括的に向上させ、事前に訓練されたモデルが人間の意図によりよく沿うことを可能にする。

リテラリーマインドビッグモデルX1：より深い思考、より包括的な能力

文学的マインド・ビッグモデルX1は、理解、計画、考察、進化の機能を強化し、マルチモダリティをサポートしている。自ら道具を使うことができる初めての深層思考モデルである。文心ビッグモデルX1は、中国語知識クイズ、文学創作、原稿執筆、日常会話、論理的推論、複雑な計算、ツール呼び出しにおいて特に優れたパフォーマンスを発揮する。

文心ビッグモデルX1はすでに、高度な検索、文書クイズ、画像理解、AI描画、コードインタプリタ、ウェブページリンク読み取り、TreeMindツリーマップ、百度学術検索、ビジネス情報クエリ、結合情報クエリなど、さまざまなツールをサポートしている。

例えば、「寒窯遁走曲」のリライト版を生成する際、文心ビッグモデルX1は明確な思考の連鎖を示している。まず、原文と類似した歴史上の人物の引用を見つけ、次に文体や構文に注目し、引用の適切性をチェックし、最後に文章の滑らかな構造を維持し、意図や文体・構文の面で基本的に原文と同じ文章を生成する。

文信ビッグモデルX1の強化された能力は、いくつかの主要技術によるものである：

段階的かつ集中的な学習・トレーニング方法： この革新的なアプローチは、オーサリング、検索、ツールの呼び出し、推論などのシナリオにおいて、モデルの包括的な適用を全面的に改善する。
思考と行動の連鎖に基づくエンド・ツー・エンドのトレーニング： ディープサーチやツール呼び出しなどのシナリオでは、結果フィードバックに基づいてエンドツーエンドのモデル学習が行われるため、学習効果が大幅に向上する。
多様で均一な報奨制度： モデルトレーニングにより強力なフィードバックを提供するため、複数の報酬メカニズムを組み込んだ統一報酬システムを確立する。

価格と見通し

現在、ユーザーはWuxinYiYin公式サイトでWuxin Big Model 4.5とWuxin Big Model X1を無料で体験でき、Baidu Intelligent Cloud Qianfan Big Modelプラットフォームでは、Wuxin Big Model 4.5 APIの入力価格は0.004元/千語と低く、出力価格は0.016元/千語と低い。文信大モデルX1が近々奇帆プラットフォームで発売され、入力価格は0.002元/千語、出力価格は0.008元/千語と低い。

バイドゥは、2024年はビッグモデル技術の本格的な反復の年であり、より優れた、よりスマートな次世代モデルを構築するために、AI、データセンター、クラウドインフラへの投資をより大胆に行っていくと述べた。