原文ママオープンエンドな世界における一般的な能力を持つエージェント [S62816]
1.反射的知性
- 自分で生成したコードやコンテンツをチェックして修正し、繰り返し最適化する能力
- 自省と修正を通じて、より質の高い結果を生み出すことができる
- 幅広い用途に適した、堅牢で効果的な技術である。
2.道具的知性の活用
- 情報収集、分析、行動のためにさまざまなツールを使いこなし、応用範囲を広げる能力
- ツール使用に関する初期の研究は、主にコンピュータ・ビジョンの分野から始まった。
3.プランニング・インテリジェンス
- タスクの目標に基づき、自律的に計画を立案・実行する優れた能力を発揮する。
- ステップに失敗した場合、ある程度の自律性と適応性をもって、失敗を避けるためにルートを変更する能力。
- まだ完全に信頼できるものではないが、機能したときはかなり素晴らしい。
4.協調的マルチインテリジェンス
- 異なる役割を持つ知能を設定し、協力してタスクを完了させることで、単一の知能よりも強い能力を発揮することができる。
- マルチ・インテリジェント・シアは、複雑な開発や創造的な仕事を成し遂げるために、深い対話と分業を行うことができる。
- また、複数のインテリジェンスが議論することも可能であり、これはモデルのパフォーマンスを向上させる効果的な方法である。
AI開発に携わる人なら誰もが注目しておくべきエキサイティングなトレンドだと思うAIインテリジェンスについて、私の知見を披露できることを楽しみにしている。また、発表される「未来のトレンド」も楽しみだ。
では、AIインテリジェントについて話そう。ビッグ・ランゲージ・モデリングは、インテリゲンチャを使わないワークフローで、プロンプトを入力し、答えを生成します。あるトピックについて誰かに記事を書いてもらうとき、キーボードの前に座って、バックスペースも許されないような一発勝負でそれを打ち込むようなものだ。このタスクの難しさにもかかわらず、大規模な言語モデルは驚くほどよく機能している。
対照的に、AIインテリジェンスを使ったワークフローは次のようになるかもしれない。AIや大きな言語モデルに記事のアウトラインを書かせる。オンラインで何かを調べる必要があるか?必要なら調べればいい。それから初稿を書き、自分で書いた初稿を読んで、どの部分を変えるべきか考える。そして初稿を修正し、次に進む。つまり、このワークフローは反復的なもので、大きな言語モデルを使って少し考え、それから記事を修正し、さらに考え、といった具合だ。この方法がより良い結果をもたらすことに気づいている人はほとんどいない。私は、こうしたAIインテリジェンスのワークフローの結果に自分でも驚いている。
私はケーススタディをするつもりだ。私のチームは、数年前にOpenAIによって公開されたHuman Evaluation Benchmarkと呼ばれるプログラミングベンチマークを使って、いくつかのデータを分析した。このベンチマークは、整数の空でないリストが与えられたときに、すべての奇数要素または奇数位置にある要素の和を求めるといったプログラミング問題で構成されている。答えはこのようなコード・スニペットかもしれない。さて、私たちの多くはゼロサンプル・ヒントを使うだろう。つまり、AIにコードを書くように指示し、それを一度に実行させるのだ。誰がそんなプログラミングをするだろうか?誰もそんなことはしない。ただコードを書いて、それを実行するだけだ。あなたならできるかもしれない。私にはできない。
しかし、GPT3.5の上にAIインテリジェンスのワークフローを構築すれば、GPT-4よりもさらに良い結果を出すことができる。このワークフローをGPT-4に適用しても、結果は非常に良い。GPT3.5とAIインテリジェンシアのワークフローがGPT-4よりも実際に優れていることにお気づきだろう。つまり、アプリケーションの構築方法に大きな影響を与えることになる。
AIインテリジェンシアという言葉は広く議論されており、AIインテリジェンシアやAIの未来などについて論じたコンサルティング・レポートも数多くある。ここでは、私がAIインテリジェンスで目にする一般的なデザイン・パターンについて、より本質的なことをお話ししたいと思います。この分野は複雑で混乱しており、多くの研究やオープンソースプロジェクトが存在する。いろいろなことが行われている。しかし、私はAIインテリジェンスで何が起こっているのか、より適切な概要を説明しようとしている。
反省はほとんどの人が使うべきツールだと思う。それは機能する。もっと広く使われるべきだと思う。実にロバストなテクニックだ。私が使うと、いつもうまくいく。プランニングとマルチ・インテリジェンス・コラボレーションに関しては、新しい分野だと思う。使ってみると、その効果の高さに驚かされることがある。しかし、少なくとも現時点では、常に安定して機能させることができるかどうかはわからない。それでは、次の数枚のスライドで、これら4つのデザインパターンについて詳しく説明しよう。もし皆さんの中で、これらのパターンを自分で試してみたり、エンジニアにこれらのパターンを使わせたりする人がいれば、生産性の向上がすぐに実感できると思います。
では、リフレクションについて、例を挙げてみよう。私があるシステムにタスクをコーディングするように頼んだとしよう。すると、プログラミング・インテリジェンスが、タスクをコーディングするように促すだけで、例えば、タスクを実行する関数を定義する、そのような関数を書く、といったことができる。自己反省の例として、大きな言語モデルにこのように促すことができます。これはあるタスクのために書かれたコードです。次に、先ほど生成したコードとまったく同じものをもう一度提示する。そしてこのコードが正しいかどうか、効率的かどうか、うまく構造化されているかどうか、このような質問をしながら精査するように求める。その結果、前にコードに対して促したのと同じ大きな言語モデルが、5行目のバグのような問題を発見して修正できるかもしれないことがわかる。といった具合だ。もし今、あなたが再び独自のフィードバックを提示すれば、それはコードのバージョン2を作成し、最初のバージョンよりも良いパフォーマンスを発揮するかもしれない。保証はないが、ほとんどの場合、このアプローチは多くのアプリケーションで試す価値がある。事前にこのことを明らかにしておけば、もしユニットテストを実行するように要求し、ユニットテストに合格しなかったら、なぜユニットテストに合格しなかったのかを尋ねることができる。この対話をすることで、もしかしたら単体テストをパスしなかった理由がわかるかもしれないので、何かを変更してV3バージョンのコードを生成してみてほしい。ところで、これらのテクニックをもっと学びたい人のために、私はとても興奮している。プレゼンテーションの各パートについて、もっと参考になればと思い、お勧めの読み物を下の方に載せておいた。
繰り返しになるが、マルチ・インテリジェント・ボディ・システムをプレビューするために、私はプログラミング・インテリジェント・ボディについて述べている。このアイデアの自然な発展形として、プログラミング知能を1つだけ持つのではなく、プログラミング知能とレビュー知能の2つの知能を設定することができる。これらはすべて同じ大きな言語モデルに基づいていますが、私たちが提供するキューが異なるだけです。一方には、あなたはプログラミングの専門家だからコードを書きなさいと言う。もう一方には、あなたはコードレビューの専門家です、このコードをレビューしてください、と言う。このワークフローを実装するのはとても簡単だ。様々なワークフローに適応できる、非常に汎用性の高いテクニックだと思います。大きな言語モデルのパフォーマンスを大幅に向上させるだろう。
つ目のデザインパターンは、ツールの使用である。大規模な言語モデルをベースにしたシステムがツールをどのように使っているか、ご覧になった方も多いだろう。左はコ・パイロットのスクリーンショットで、右はGPT-4から取り出したものの一部だ。しかし、今日の大きな言語モデルに、ウェブ検索に最適なコピー機はどれかというような質問に答えるよう求めると、コードを生成して実行することになる。実際、分析を行い、情報を集め、行動を起こし、個人の効率を向上させるために、多くの人がさまざまなツールを使っている。
ツールの使用に関する初期の研究の多くは、コンピューター・ビジョンのコミュニティからもたらされた。というのも、大きな言語モデルが登場する前は、画像を処理することができなかったからだ。そのため、唯一の選択肢は、大きな言語モデルに、画像を生成したり物体検出を実行したりといった、画像を操作できる関数を生成させることだった。GPT-4やLLaVAなどの登場以前は、大きな言語モデルは画像について何も知らなかったからだ。そこでツールの利用が登場し、ビッグ言語モデルの応用範囲を広げている。
次はプランニングだ。まだプランニングのアルゴリズムについて掘り下げていない人にとっては、多くの人が チャットGPT 衝撃的な瞬間、行ったことのない感覚。皆さんはおそらく、プランニング・アルゴリズムを使ったことがないと思います。AI知能がここまでできるとは思わなかった。何かが失敗したとき、AIインテリジェンスが失敗を避けるために経路を再計画するような実演をしたことがある。実際、私自身のAIシステムの自律性に驚かされたことが何度かある。
GPTモデルに関する論文から、例えばexample.jpegのような画像に写っている男の子と同じポーズで、本を読んでいる女の子の画像を生成させ、新しい画像に写っている男の子を描写させるという例を適応してみた。既存のAIインテリジェンスを使用すると、まず少年のポーズを決定し、そのポーズを抽出するために、おそらくHuggingFaceプラットフォーム上で適切なモデルを見つけることができます。次に、画像を後処理し、指示に従って女の子の画像を合成し、画像からテキストに変換し、最後にテキストから音声に変換する技術を使用するモデルを見つける必要があります。
現在、我々には数多くのAIインテリジェンスがあり、常に信頼できるわけではなく、時には少々面倒で常に機能するとは限らないが、機能した時の結果はかなり素晴らしい。このようなインテリジェントなボディサイクル・デザインを使えば、時には以前の失敗から立ち直ることさえできる。私はこのようなリサーチ・インテリジェンスを仕事の一部で使い始めている。リサーチ・インテリジェンスに仕事を任せ、しばらくしてから戻ってくると、リサーチ・インテリジェンスが何を見つけたかを確認する。有効な結果が見つかることもあれば、そうでないこともある。しかし、いずれにせよ、これは私の個人的なワークフローの一部になっている。
最後のデザインパターンは「マルチインテリジェンス・コラボレーション」だ。このパターンは奇妙に見えるかもしれないが、思った以上にうまくいく。左は「Chat Dev」と呼ばれる論文のスクリーンショットで、完全にオープンで実際にオープンソースとなっているプロジェクトだ。Devin's」のデモの派手なソーシャル・メディアへの投稿を見たことがある人も多いかもしれないが、私は自分のラップトップで「Chat Dev」を実行することができた。Chat Dev」はマルチ・インテリジェンス・システムの一例で、Large Language Model(LLM)をセットアップすることで、ソフトウェア・エンジニアリング会社のCEO、デザイナー、プロダクト・マネージャー、あるいはテスターの役割を担うことができる。LLMに「あなたはCEOになった」「あなたはソフトウェア・エンジニアになった」と伝えるだけで、彼らは共同作業を始め、深い対話をするようになる。GoMokiゲームのようなゲームを開発するように言えば、彼らは数分かけてコーディングし、テストし、反復し、そして驚くほど複雑なプログラムを生み出すだろう。いつもうまくいくとは限らないし、私も失敗したことがあるが、時には驚くほどうまくいくこともあるし、技術は日進月歩で向上している。また、別のデザインパターンとして、異なる知性にディベートをさせることもできます。 ジェミニ ディベートを持つことも、パフォーマンスを向上させる効果的なパターンだ。つまり、複数のシミュレートされたAIインテリジェンスを一緒に働かせることは、非常に強力なデザインパターンであることが証明されている。
全体として、これらは私が観察したデザインパターンであり、私たちの仕事に応用することができれば、AIの成果をより早く向上させることができると思う。知的身体推論のデザインパターンは重要な発展になると思います。
これが最後のスライドです。インテリジェント・ボディ・ワークフローの影響により、AIができるタスクは今年劇的に拡大すると予想しています。人々にとって受け入れがたいことかもしれませんが、私たちがLLMに合図を送ると、即座に反応が返ってくることを期待しているということです。実際、10年前にグーグルで行った「ビッグボックスサーチ」という議論では、非常に長いプロンプトを入力した。というのも、ウェブ検索をするときには、半秒以内に反応が欲しいというのが人間の本性だからだ。私たちは即座のフィードバックを好む。しかし、多くのインテリジェントなボディ・ワークフローでは、AIインテリジェンスにタスクを委ね、忍耐強く数分、もしかしたら数時間、返答を待つことを学ぶ必要があると思う。タスクを委任して5分後にチェックインする初心者のマネジャーを多く見かけるように、効率的ではありません。笑いが聞こえたような気がした。
加えて、このような急速な トークン LLMは自分自身のためにトークンを読み、トークンを生成します。誰よりも速くトークンを生成できることは素晴らしいことです。多少質の低いLLMからでも、より多くのトークンを素早く生成できることは、質の高いLLMからゆっくりトークンを生成するのとは対照的に、良い結果をもたらすかもしれないと思います。GPT-3とスマートボディアーキテクチャーの最初のスライドで示した結果のように、このアイデアは少し議論の余地があるかもしれません。
正直、楽しみだよ。 クロード 4、GPT-5、Gemini 2.0、そして建設中の他のすべての素晴らしいモデル。GPT-5のゼロサンプル学習でプロジェクトを実行することを楽しみにしているのであれば、初期のモデルでインテリジェンシアと推論を使用することで、予想よりも早くGPT-5のパフォーマンスレベルに近づける可能性があることに気づくかもしれない。これは重要な傾向だと思います。
正直なところ、一般化されたAIへの道のりは、目的地というよりも旅路に近い。しかし、このインテリジェント・ボディ・ワークフローは、その非常に長い旅路の小さな一歩を踏み出す手助けをしてくれるかもしれない。
ありがとう。