グーグルおよびアルファベットCEOのスンダル・ピチャイからの手紙:
情報は人類の進歩の核心である。だからこそ私たちは26年間、世界中の情報を整理し、アクセスしやすく便利なものにすることに取り組んできたのです。また、様々なインプットを通して情報を整理し、実際に役立つアウトプットを通してより有用なものにするために、AIの最前線を常に押し広げているのもそのためです。
それが昨年12月に立ち上げたものだ。 ジェミニ Gemini 1.0は、テキスト、ビデオ、イメージ、オーディオ、コードをマルチモーダリティとロングコンテクストで完全に理解することを可能にし、より多くの情報を扱う初のネイティブ・マルチモーダルモデルである。
今日、何百万人もの開発者がGeminiを使って製品を作っています。notebookLMは、マルチモーダルおよびロングコンテクスト機能の素晴らしい例であり、なぜこれほど人気があるのか。notebookLMは、マルチモーダルかつロングコンテクスト機能の素晴らしい例であり、なぜこれほど人気があるのか。
この1年間、私たちはよりエージェント的なモデルの開発に取り組んできた。つまり、自分の周りの世界をより深く理解し、何歩も先を考え、自分の監督の下で行動を起こすことができるモデルだ。
本日、この新しい時代のエージェントのために作られた次世代のモデル、Gemini 2.0を発表できることを嬉しく思います。マルチモーダル領域(画像や音声のネイティブ出力など)やネイティブツールの使用機能における新たな進歩により、ユニバーサル・アシスタントという私たちのビジョンの実現に一歩近づいた新しいAIエージェントを構築することが可能になります。
本日、私たちは2.0を開発者と信頼できるテスターに公開します。私たちは、GeminiとSearchを皮切りに、製品への統合を加速させています。本日より、Gemini 2.0 Flash実験モデルは、すべてのGeminiユーザーが利用できるようになります。同時に、私たちは新しいサービス ディープ・リサーチ は、複雑なトピックの調査やレポートの集計を代行するリサーチアシスタントとして、高度な推論と長いコンテキストの機能を使用する新機能です。現在、Gemini Advancedで稼働中です。
検索ほどAIの影響を受けた製品はありません。私たちのAI Overviewは、現在10億人のユーザーに利用され、全く新しい質問タイプに答えることができ、急速に最も人気のある検索機能の1つになりました。次に、Gemini 2.0の高度な推論機能をAI Overviewに導入し、高度な数式、マルチモーダルなクエリ、コーディングなど、より複雑なトピックやマルチステップの質問に対応します。今週から限定的なテストを開始し、来年早々にはより広範囲に展開する予定です。また、来年にかけて、より多くの国や言語でAI Overviewの導入を進めていきます。
2.0の進歩は、10年以上にわたるAIへの革新的なフルスタック・アプローチへの投資によって可能になりました。このTPUは、100%上でGemini 2.0のトレーニングと推論をサポートし、今日、Trilliumは、顧客が製品を構築するために完全に利用可能です。
ジェミニ1.0が情報を整理し、意味を持たせることだとすれば、ジェミニ2.0は情報をより便利にすることだ。この新しい時代が何をもたらすのか、楽しみでならない。
Gemini 2.0の発表:エージェント時代のために構築された新しいAIモデル
ジェミニ・チームを代表して、デミス・ハサビス(Google DeepMind CEO)、コレイ・カブクオグル(Google DeepMind CTO)が語る。
この1年間、我々は人工知能の分野で驚くべき進歩を続けてきた。本日、我々はGemini 2.0ファミリーの最初のモデル、Gemini 2.0 Flashの実験版を発表した。これは、低レイテンシーと強化されたパフォーマンスを備えた、我々の技術の最先端を行く効率的なモデルです。
また、Gemini 2.0のネイティブなマルチモーダル機能によってサポートされるエージェント研究の最前線のプロトタイプも紹介する。
ジェミニ2.0フラッシュ
Gemini 2.0 Flashは、開発者の間で圧倒的な人気を誇る1.5 Flashの成功に基づき、同じ高速レスポンスタイムと強化されたパフォーマンスを提供します。驚くべきことに、2.0 Flashは、主要なベンチマークにおいて1.5 Proを上回り、2倍の速度となっています。画像、ビデオ、オーディオなどのマルチモーダル入力のサポートに加え、2.0 Flashは、ネイティブに生成された画像とテキストのミキシング、制御されたテキスト音声合成(TTS)多言語オーディオなどのマルチモーダル出力をサポートします。また、Google検索、コード実行、サードパーティのユーザー定義機能などのツールをネイティブで呼び出すことができます。
我々の目標は、ユーザーが我々のモデルを安全かつ迅速に扱えるようにすることである。この1ヶ月間、私たちはGemini 2.0の初期の実験的バージョンを共有し、開発者の方々から貴重なフィードバックをいただきました。
ジェミニ2.0フラッシュは現在、実験モデルとして、以下の方法で入手可能だ。 グーグルAIスタジオ 歌で応える バーテックスAI のGemini APIを開発者に提供する。マルチモーダル入力とテキスト出力はすべての開発者が利用でき、音声合成とネイティブ画像生成機能は早期アクセスパートナーが利用できる。一般提供は、モデルサイズを追加して1月にリリースされる予定です。
開発者がダイナミックでインタラクティブなアプリケーションを構築できるよう、リアルタイムのオーディオおよびビデオストリーミング入力や、さまざまな組み合わせツールの使用をサポートする新しいリアルタイム・マルチモーダルAPIもリリースしました。2.0Flashとリアルタイム・マルチモーダルAPIの詳細については、以下をご覧ください。 開発者ブログ.
Gemini 2.0は、私たちのAIアシスタントであるGeminiアプリでご利用いただけます。
本日より、世界中のGeminiユーザーは、デスクトップおよびモバイルウェブのモデルドロップダウンメニューから、チャットに最適化されたバージョンの2.0 Flash Experimentにアクセスすることができる。この新しいモデルにより、ユーザーはジェミニ・アシスタントをさらに便利な方法で体験することができる。
来年の初めには、Gemini 2.0をさらに多くのGoogle製品に拡張する予定です。
Gemini 2.0によるエージェントエクスペリエンスの向上
Gemini 2.0 Flashのネイティブユーザーインターフェイスのアクション機能は、マルチモーダル推論、長いコンテキストの理解、複雑な命令のフォローとプランニング、コンビナトリアル関数呼び出し、ネイティブツールの使用、レイテンシの改善などの他の改良点とともに、全く新しいクラスのエージェント体験を可能にする。
AIエージェントの実用化は、エキサイティングな可能性に満ちた研究分野です。私たちは、人々がタスクを完了し、問題を解決するのを助ける一連のプロトタイプで、この新しい分野を探求しています。これらには、汎用AIアシスタントの将来の能力を探求する研究プロトタイプ、プロジェクト・アストラのアップデート版、ブラウザから始まる人間とエージェントの相互作用の未来を探求する新しく立ち上げられたプロジェクト・マリナー、開発者を支援するAIを搭載したコード・エージェント、ジュールズなどが含まれます。
私たちはまだ開発の初期段階にいますが、信頼できるテスターがこれらの新機能をどのように使用し、そこから何を学び、将来より多くの製品で使用できるようになるかを楽しみにしています。
プロジェクト・アストラ:実世界におけるマルチモーダル理解エージェント
I/O会議以来 プロジェクト・アストラを発表 それ以来、私たちはアンドロイド携帯を使用する信頼できるテスターから学んできました。彼らの貴重なフィードバックは、セキュリティや倫理的な意味合いを含め、汎用AIアシスタントが実際にどのように機能するのかをよりよく理解するのに役立っている。最新バージョンのGemini 2.0サポートの改善点は以下の通り:
- 対話能力の向上Project Astraは、アクセントや珍しい語彙をよりよく理解し、多言語や混合言語での会話ができるようになりました。
- 新しいツール使用能力Gemini 2.0により、Project AstraはGoogle検索、Lens、マップにアクセスできるようになり、日常生活でさらに便利になりました。
- 記憶力の向上Project Astraのメモリー機能を改善しました。最大10分のセッション内メモリーをサポートし、過去の会話をより多く記憶することで、よりパーソナルなものになりました。
- レイテンシーの改善新しいストリーミング機能とネイティブの音声理解により、エージェントは人間の対話に近い待ち時間で言語を理解することができます。
私たちは、これらの機能を次のようなグーグル製品に提供するために取り組んでいます。 ジェミニ アプリ(私たちのAIアシスタント)、そしてメガネのような他の形態で。同時に、私たちはTrusted Testerプログラムをより多くの人々に拡大しており、その中にはProject Astraのプロトタイプメガネのテストを間もなく開始するグループも含まれています。
プロジェクト・マリナー:複雑なタスクを支援するインテリジェント・エージェント
Project Marinerは、Gemini 2.0上に構築された初期の研究用プロトタイプで、ブラウザから始まる人間とコンピュータのインタラクションの未来を探求しています。研究用プロトタイプとして、ピクセルや、テキスト、コード、画像、フォームなどのウェブページ要素を含む、ブラウザ画面上の情報を理解し、理由付けを行い、実験的なChromeプラグインを通じて、その情報を使ってタスクを完了させる。
ある WebVoyagerベンチマークこのテストでは、エンド・ツー・エンドの実世界のウェブタスクにおける知的エージェントのパフォーマンスを評価する。 83.51 TP3Tアップデート.
まだ初期段階だが、Project Marinerはブラウザでナビゲートすることの技術的な実現可能性を示している。しかし、タスクを完了する精度とスピードは現時点では低く、今後急速に改善されるだろう。
このプロジェクトを安全かつ責任を持って構築するために、私たちは人間の関与を維持しながら、新しいタイプのリスクとその軽減方法を積極的に研究しています。例えば、Project Marinerは、ブラウザのアクティブなタブ内でのみ入力、スクロール、クリックが可能で、購入などの特定のセンシティブなアクションを実行する前に、ユーザーからの最終確認を要求します。
信頼できるテスターたちは、私たちがウェブ・エコシステムと議論している間、実験的なChromeプラグインを使ってProject Marinerのテストを開始した。
ジュールズ:開発者のためのインテリジェント・エージェント
Julesは、GitHubのワークフローに直接統合された実験的なAI搭載のコード・インテリジェンス・エージェントで、問題を解決し、計画を作成し、それを実行します。この研究は、コーディングを含むすべての分野で役立つAIエージェントを構築するという、私たちの長期的な目標の一部です。
この進行中の実験についての詳細は、以下を参照のこと。 開発者ブログ記事.
ゲームやその他のドメインのためのインテリジェント・エージェント
Google DeepMindは、AIモデルがルール、計画、ロジックに従うことを向上させるためにゲームを使用してきた長い歴史を持っています。例えば、先週私たちは ジーニー2Gemini 2.0は、たった1枚の画像から無限に多様なプレイアブル3D世界を生成できるAIモデルである。この遺産を基に、私たちはGemini 2.0を使って、ビデオゲームの仮想世界をナビゲートする知的エージェントを構築しました。Gemini 2.0は、画面上の行動のみに基づいて推論し、リアルタイムの対話を通じて次のステップを提案します。
Supercellのような一流のゲーム開発者と協力し、Clash of Clansのような戦略ゲームからHay Dayのような農場シミュレーションまで、多様なゲームでルールや課題を解釈するエージェントの能力をテストしています。
バーチャルなゲーム仲間としてだけでなく、これらのエージェントはGoogle検索を使ってウェブ上の豊富なゲーム知識に接続することができる。
仮想世界における知的エージェントの能力を探求するだけでなく、ジェミニ2.0の空間推論能力をロボット工学の分野に応用する方法も試している。まだ初期段階ですが、物理的環境における知的エージェントの可能性に期待しています。
これらの研究プロトタイプや実験については、labs.googleで詳しく知ることができる。
インテリジェント・エージェントの時代における責任あるビルディング
Gemini 2.0フラッシュと私たちの研究プロトタイプは、最終的にGoogle製品をより便利にする最先端のAI研究の新機能をテストし、反復することを可能にします。
このような新技術を開発するにあたり、私たちはその責任を認識し、AIエージェントが安全性とセキュリティの面で提起する多くの問題を懸念しています。その結果、複数のプロトタイプに取り組み、セキュリティ・トレーニングを反復的に実施し、信頼できるテスターや外部の専門家と協力し、広範なリスク評価と安全・セキュリティ評価を実施するなど、探索的かつ段階的な開発アプローチをとってきました。
例
- 安全プロセスの一環として、私たちは社内の常設検討グループである責任・安全委員会(RSC)と協力し、潜在的なリスクの特定と把握に努めています。
- Gemini 2.0の推論機能は、リスクを検出するだけでなく、リスクを軽減するための評価データとトレーニングデータを自動的に生成できるようになるなど、当社のAI支援レッドチームテスト手法に大きな進歩をもたらします。これは、より効率的にモデルの安全性を大規模に最適化できることを意味します。
- Gemini 2.0のマルチモーダルな性質により、潜在的な出力の複雑さが増すため、セキュリティの向上に役立つよう、画像や音声の入出力を処理するモデルの評価と訓練を続けていく。
- Project Astraでは、ユーザーが不用意にエージェントと機密情報を共有することを防ぐ緩和策の可能性を探っており、ユーザーが簡単にセッションを削除できるようにプライバシーコントロールを組み込んでいます。また、AIエージェントが信頼できる情報源として機能し、ユーザーの代わりに意図しない行動を取らないようにする方法も引き続き検討しています。
- Project Marinerでは、サードパーティによるヒント注入の試みよりも、ユーザーの指示に従うことを優先させるモデルを確実にするよう取り組んでおり、外部ソースからの潜在的に悪意のある指示を特定し、悪用を防止できるようにしています。これにより、電子メールや文書、ウェブサイトに隠された悪意のある指示により、ユーザーが詐欺やフィッシング攻撃にさらされることを防ぎます。
私たちは、AIを構築する唯一の方法は、最初から責任を持つことであると強く信じており、モデルやインテリジェント・エージェントの開発を進めるにあたり、モデル開発プロセスの重要な要素として、セキュリティと責任を優先していきます。
ジェミニ2.0、インテリジェント・エージェントと未来
本日のリリースは、我々のジェミニ・モデルの新たな章を示すものである。ジェミニ2.0フラッシュのリリースとエージェントの可能性を探る一連の研究プロトタイプの発表により、我々はジェミニ時代のエキサイティングなマイルストーンに到達した。我々は、汎用人工知能(AGI)を構築するにあたり、あらゆる新しい可能性を安全に探求し続けることを楽しみにしている。