インフレクションの使命は、すべての人のためのパーソナルAIを創造することであり、昨年5月に [...] を発表した。円周率11月、私たちは新しいプライマリー・ベース・モデルの発売を発表した。抑揚-2当時、世界で2番目に優れた大規模言語モデルであった。
今、我々はパイの卓越したEQ(感情指数)にIQ(知能指数)を加えている。
GPT-4やGeminiといった世界有数の大規模言語モデルに匹敵する、アップグレードされた自社開発モデル、Inflection-2.5を発表しました。Inflection-2.5は、GPT-4やGeminiのような世界有数の大規模言語モデルに匹敵する性能を備えています。本日より、Inflection-2.5は [...パイ・アイ]( ), [iOS], [アンドロイドまたは新しい [デスクトップすべてのPiユーザーのためのアプリケーションです。
Inflection-2.5はGPT-4とほぼ同じ性能でありながら、学習に使用する計算量はGPT-4とほぼ同じです。40%.
コーディングや数学などのIQ分野では、特に進歩を遂げました。これは、主要な業界ベンチマークにおける具体的な改善に反映されており、Piがテクノロジーの最先端を走り続けることを保証しています。ワールドクラスのリアルタイム・ウェブ検索機能:: ユーザーが質の高いアップデートと最新情報にアクセスできるようにする。
Inflection-2.5をユーザに配布したところ、ユーザはPiをとても気に入っています!ユーザの感情、エンゲージメント、定着率が大幅に向上し、ユーザの有機的な成長が加速しています。
1日に100万人、1カ月に600万人のアクティブ・ユーザーがパイと40億通以上のメッセージをやりとりしています。
パイとの対話の平均的な長さは33分。10人に1人が毎日1時間以上会話を続けている。ある週にパイと話す人のうち、およそ60%来週また話をする予定だが、主要な競合他社よりも毎月の粘着性が高いと見ている。
Inflection-2.5のパワーにより、ユーザはPiを使って、時事問題について議論したり、お勧めのレストランを探したり、生物学の試験勉強をしたり、ビジネスプランの下書きをしたり、コーディングをしたり、重要な会話の準備をしたり、趣味について楽しく議論したりと、これまで以上に幅広いトピックについて話し合うことができます。Piで何ができるかをお見せするのが待ちきれません。
技術的な結果
以下に、一連の主要な業界ベンチマークテストの結果を示します。簡単のため、Inflection-2.5 と GPT-4 を比較しています。これらの結果から、Pi は現在、認知された業界リーダーに匹敵する IQ 能力を備えていることがわかります。報告形式が異なるため、評価に使用した形式に注意しています。
Inflection-1 は、GPT-4 に約 41 TP3T のトレーニング浮動小数点演算 (FLOPs) を使用し、IQ 指向のさまざまなタスクで GPT-4 の平均性能約 721 TP3T を達成しました。現在 Pi を駆動する Inflection-2.5 は、わずか 401 TP3T のトレーニング FLOPs しか使用していないにもかかわらず、GPT-4 で 941 TP3T を超える平均性能を達成しています。幅広い領域で大幅な性能向上が見られましたが、特にSTEM領域で大きな改善が見られました。
Inflection-1 と比較して、Inflection-2.5 は、高校生からプロフェッショナルの難易度まで幅広いタスクのパフォーマンスを測定する多様なベンチマークである MMLU ベンチマークで大きな進歩を遂げました。また、エキスパートレベルのベンチマークである極めて難易度の高い GPQA Diamond ベンチマークの評価も行いました。
また、ハンガリーの数学試験と物理学大学院入試(GRE)の成績という、2つの異なるSTEM試験の結果も掲載している。
ハンガリーの数学では、[ ]を使う。以下は繰り返しを容易にするために、ヒントと書式のサンプルがいくつか用意されています。 Inflection-2.5では、ヒントの最初の例のみを使用します。
我々はまた...投稿GREの物理試験(GR8677, GR9277, GR9677, GR0177)を処理したものを発表し、Inflection 2.5とGPT-4を比較しました。その結果、Inflection-2.5 は、MAJ@8 では人間の受験者の 85 パーセンタイルに達し、MAJ@32 ではほぼ最高得点を達成しました。以下の結果からは、幅広い比較を容易にするために、画像を含むいくつかの問題を除外しています。いずれにせよ、すべての問題を公開した。
大規模言語モデルにとって困難なBIG-BenchのサブセットであるBIG-Bench-Hard問題において、Inflection-2.5はInflection-1と比較して10%以上の改善を示し、最も強力なモデルと同等の性能を発揮します。
私たちはまだここにいる。MTベンチ私たちは、モデルを比較するためのコミュニティ・リーダーボードとして広く知られているMT-Benchで、私たちのモデルを評価しました。しかし、MT-Benchを評価した結果、推論、数学、コーディングのカテゴリーにある例の4分の1近くに、誤った参照解や問題の前提に欠陥があることに気づきました。そこで、私たちはこれらの例を修正し、[...]に掲載しました。以下は]がデータセットの修正版を発表した。
これらの2つのサブセットを評価したところ、正しく補正されたバージョンでは、我々のモデルは他のベンチマークテストに基づく期待値より一貫したパフォーマンスを示すことがわかった。
Inflection-2.5 は、Inflection-1 と比較して、数学的性能と符号化性能が特に向上しています。
MBPP+およびHumanEval+コーディングベンチマークのいずれにおいても、Inflection-1に比べて大幅な改善が見られます。
MBPPについては、以下の結果を報告する。DeepSeekコーダーをGPT-4の値に使用した。HumanEvalについては、[ ]を使用した。エバルプラスGPT-4は2023年5月開催)。
また、HellaSwagとARC-Cという、多くのモデルが報告している一般的な常識的かつ科学的なベンチマークでも、Inflection-2.5の性能を評価しました。どちらの場合も、飽和状態に近いこれらのベンチマークで優れた性能を発揮しました。
上記の評価はすべて、現在Piを駆動しているモデルに対するものであるが、ウェブ検索の影響(上記のベンチマークではいずれもウェブ検索を使用していない)、少数のプロンプト例の構造、およびその他の製造上の違いにより、ユーザーエクスペリエンスが若干異なる可能性があることに留意されたい。
つまり、インフレクション-2.5は、パイのユニークで親しみやすい個性と卓越した安全基準はそのままに、あらゆる面でより親しみやすいモデルとなった。
Piの背後にある最先端の言語モデルを世界中の何百万人ものユーザーに提供する上で、AzureとCoreWeaveのパートナーに感謝しています。