AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

グーグル、Gemini 2.5をリリース:「考える」機能が大幅に向上

グーグル・ディープマインドは2025年3月25日(最終更新3月26日)、最も賢いAIモデル群であると主張するものを発表した。 Gemini 2.5.の初デビューとなった。 Gemini 2.5 Pro Experimental このバージョンはいくつかのベンチマークで優れており、特に推論とコーディングの能力が大幅に向上している。 LMArena 大差をつけての首位。

 


「思考モデル」:予測以上、推論以上

Gemini 2.5 グーグルはこのシリーズを「思考モデル」と定義している。このコンセプトの核心は、複雑な問題に対処する際のパフォーマンスと精度を向上させることを目的として、応答を生成する前に内部的な「思考」または推論プロセスに関与するモデルの能力である。AIにおける「推論」能力は、単純な分類や予測を超えて、情報を分析し、論理的な推論を行い、文脈やニュアンスを理解し、それに応じて情報に基づいた意思決定を行う能力を含む。

研究者たちは、強化学習や思考の連鎖のヒントなど、AIの推論を向上させる方法を長い間探求してきた。こうした探求に基づき、グーグルは以前、初の「思考モデル」を発表した。 Gemini 2.0 Flash Thinking.をリリースした。 Gemini 2.5 グーグルは、より複雑な問題に取り組み、より強力で優れたコンテキストを認識するエージェントをサポートするために、将来的にこの「思考」能力をすべてのモデルに組み込むとしている。この "考える "能力は、より複雑な問題に取り組み、より強力で文脈を認識するエージェントをサポートするために、すべてのモデルに組み込まれる。この「考えて」から「答える」というメカニズムは、AIモデルによく見られる「錯覚」現象を減らし、答えの信頼性を向上させるのに役立つと考えられている。

 

Gemini 2.5 Pro Experimental パフォーマンス

グーグルが発表した情報によるとGemini 2.5 Pro Experimental 複雑なタスクの処理においては、現在トップレベルにある。における人間の嗜好を測定するのに非常に優れている。 LMArena チャートで大きくリードしているということは、通常、そのモデルが強力であるだけでなく、その出力のスタイル、一貫性、実用性もユーザーに好まれていることを意味する。

具体的なベンチマークについて:

  • 推理力このモデルは、高度な推理力を必要とする数学や理科のベンチマークテストに有効である。 GPQA 歌で応える AIME 2025をリードするパフォーマンスで、コスト増を招くテスト時間のトリック(例:多数決)を使用せずに実施することができる。)人間の知識と推論の最前線を評価するために設計されたテストでは、何百人もの領域専門家によって Humanity’s Last Exam データセット上で。Gemini 2.5 Pro 18.8%のスコアは、外部ツールを使用せずに達成され、またもや先頭を走っている。
    Google DeepMind 发布 Gemini 2.5:号称“会思考”的 AI 新里程碑?-1
    注:上の図は、OpenAI GPT-4.5とOpenAI GPT-4.5の推論、科学、数学のモデルの比較を示しています。 クロード 3.7 ソネットなどのモデル名やデータは、グーグルが提供するチャートから引用している。
  • コーディングスキル::Gemini 2.5 コーディングの面では Gemini 2.0 私たちは、視覚的に魅力的なウェブアプリケーション、スマートボディコードアプリケーション、コード変換・編集の作成に特化し、大きな飛躍を遂げました。スマートボディ・コードの能力を測定する業界標準 SWE-Bench Verified オンで、以下のカスタム・スマート・ボディ・セットアップを使用する。 Gemini 2.5 Pro 63.8%を記録した。Gemini 2.5 Pro 1行のプロンプトに基づいて実行可能なコードを生成する推論能力を使って、シンプルな恐竜のビデオゲームを作成した。

継承と発展:マルチモーダリティと長い文脈

Gemini 2.5 遺伝性 Gemini このシリーズの核となる強みは、ネイティブのマルチモーダル機能と長いコンテクストウィンドウだ。Gemini 2.5 Pro 発売時に100万人をサポート トークン コンテキスト・ウィンドウ(近日中に200万トークンに拡張予定)で、この長いウィンドウにおいて前任モデルを上回る性能を発揮する。これは、テキスト、音声、画像、ビデオ、さらにはコードベース全体を含む膨大なデータセットを理解し処理できることを意味し、さまざまな情報源からの複雑な問題に対処できる。これは、長いドキュメントの深い理解、複雑なコードプロジェクトの分析、長いビデオコンテンツの処理などを必要とするシナリオへの大きな応用の可能性を秘めている。

Google DeepMind 发布 Gemini 2.5:号称“会思考”的 AI 新里程碑?-2

この表は3月26日に更新され、新しいMRCR(Multi Round Coreference Resolution)評価を含んでいる。

 

入手可能性と将来性

現在Gemini 2.5 Pro Experimental このバージョンは Google AI Studio これは開発者が試用できる。Gemini Advanced ユーザーは、デスクトップとモバイルデバイスのドロップダウンメニューから、このモデルの使用を選択することもできる。このモデルは、今後数週間で Vertex AI グーグルはまた、ユーザーがより高いレート制限でスケーリングされた本番環境で使用できるようにするための価格情報を数週間以内に発表する予定である。

Experimental "タグは、現在のバージョンがまだ急速に改良されている可能性があり、ユーザーが使用中に不安定さを経験する可能性があることを示唆している。Gemini 2.5 この新しい言語モデルのリリースは、特に「思考」を重視し、ベンチマークで強力なパフォーマンスを発揮することから、大規模言語モデリングの分野で新たな一歩を踏み出したことは間違いなく、その後の発展と実用化は注目に値する。

無断転載を禁じます:チーフAIシェアリングサークル " グーグル、Gemini 2.5をリリース:「考える」機能が大幅に向上
ja日本語