OpenAIチーフ・プロダクト・オフィサー1万字インタビュー：AI時代にプロダクトマネージャーが優れた製品を作る方法

1.9K 00

Zハイライト

直感が働く仕事は約半分。 直感は、例えば製品の方向性が明確で、最終的な微調整を行い、ターゲットユーザーと解決すべき問題を正確に理解しようとする場合に役立つ。しかし、プロジェクトの初期段階では、そんなことはまったくない。未知の能力を持っているだけのこともある。
しかし、ここでは2ヶ月に一度、コンピューターが歴史上達成されたことのない新しいことを行うことができる。 このような技術的変化が製品にどのような影響を与えるかを理解する必要がある。 だから、AIが内部からどのように進化しているかを見るのは本当に興味深い。
クロードは評価を書いたり採点したりするのが得意です。ですから、そのプロセスの多くを自動化することができます。ただし、何が成功したかを教えていただければ、実際に時間をかけて改善していくことができます。
モデルは加速度的に賢くなっていくだろうし、それがすべてを可能にする部分でもある。もうひとつ非常にエキサイティングなことは、モデルが我々人間のように相互作用できるようになることだ。

AIにおける新たな役割と課題：対話と探求

サラ皆さん、こんにちは！

ケビン サラ、あなたはAI投資の女王よ。

サラもう二度と使うことのない言葉だが、こうしてお二人と一緒にいられることをうれしく思う。最後の話し合いには2つの異なるアイデアがあります。まず1つ目は、プロダクトローンチ対決です。お二人とも「公開」ボタンを押すだけのアクセス権を持っているので、私は「さあ、今後6～12ヶ月の間にローンチする予定のすべてを公開しましょう。

もう1つは、2人とも実際にインスタグラムを運営していたため、一緒にインスタグラムをデザインし直すというものだが、その計画はその後、完全にキャンセルされた。だから、友人として見識を共有しましょう。つまらない話に聞こえるかもしれませんが、皆さんの意見を聞くのがとても楽しみです。ケヴィンさんは、これまでにも本当にいろいろな面白いことをやってきたわけですが、この役割を引き継いだとき、友人やチームの反応はどうでしたか？

ケビン 全体的にエキサイティングで、最も興味深く影響力のあるポジションのひとつで、探求することがたくさんあります。これほどやりがいがあり、興味深く、眠れない製品職は初めてです。ユーザーは誰か、どんな問題を解決できるかなど、一般的な製品職の課題をすべて網羅しています。しかし、通常、製品を開発するときは、比較的固定された技術的基盤のもとで作業し、利用可能なリソースを把握し、可能な限り最高の製品を開発します。

しかしここでは、2カ月ごとにコンピューターが歴史上実現したことのないような新しいことをできるようになり、こうした技術的な変化が自社の製品にどのような影響を及ぼすのかを理解する必要がある。その答えはおそらくかなり大きな影響を与えるだろうから、AIのプロセスを内側から見るのは本当に面白いし、私はそれを楽しんでいる。

サラマイク、あなたは？私はこのニュースを聞いて、インスタグラムの創設者がすでに存在するプロジェクトに携わるとは驚きだと思ったことを覚えている。

マイクだ： 僕を知っている人は、理にかなっているし、きっと楽しいよと言ってくれる。それから、働く必要はない、なぜこんなことで悩むんだと言う人もいる。私のことを本当に知っている人なら、やめられないんだ、自分ではどうしようもないんだ、と言うだろう。3つ目の反応は、インスタグラムの創設者がいるのはおかしいというものだ。確かに、私に興味を持たせるようなことができる企業は多くないが、私が興味を持つような企業はおそらく3つあるだろう。だから、私のことをどれだけ知っているかによって、反応はさまざまだ。特に、6週間ほど続いた半引退状態の私を目の当たりにしたことがある人なら、「次はどうしよう？

ケビン 最近、友人たちと食事をしていて、あなたが子供のような興奮を漂わせていて、企業的な側面についていろいろ学んでいると言っていたのが印象的でした。普段インスタグラムでやっているようなユーザーベースとは違って、今は他のクライアントにサービスを提供したり、リサーチ主導の組織で働いたりすることです。これまでで一番驚いたことは何ですか？

マイクだ： 18歳のとき、私は「毎年違う年にしよう」「同じ年は繰り返したくない」と、18歳らしい誓いを立てた。そのせいで、ときどき「また社会派商品を作りたいのか」と思うことがある。あまりに繰り返しが多いと感じるし、第一に基準が曖昧になるし、第二に同じことを何度も繰り返すような感じもする。だから、企業向けコンテンツは本当に新鮮です。あなたの経験についても興味があります。フィードバックはリアルタイムで得られますし、実際のところ、投資に近いと思います。最初のコミュニケーションがあって、「彼らは私のことを気に入ってくれているようだ」と思って、それからプロジェクトが承認プロセスに入っていることがわかる。だから違うタイムラインに慣れる必要がある。

マイク、君はここに来てまだ2カ月しか経っていない。この異なるペースに慣れる必要がある。しかし、面白いのは、いったん製品が稼動すれば、顧客と直接コンタクトを取ることができ、顧客はあなたのところに来て、経験について話し、結果を確認することができるということだ。一方、ユーザーの場合は、データ・サイエンスを通じて一般的に分析することしかできません。もちろん、1人か2人を招待して話を聞くことはできますが、彼らはあなたの長所や短所について詳細なフィードバックをくれるほど金銭的な意欲はないでしょう。だから、このアプローチは他とは違うが、非常に充実したものでもある。

サラケビン、あなたはこれまで多くの種類の製品開発に携わってきましたが、これらのプロジェクトであなたの直感はどの程度役立っていますか？

ケビン そうですね、ご質問にお答えする前に、企業側についても補足しておきたいと思います。企業スペースでは、焦点は必ずしも製品そのものにあるわけではありません。自分たちの目標を持つバイヤーもいます。世界最高の製品を作れば、社内の全員が喜んで使うかもしれませんが、それは必ずしも重要ではありません。以前、ある大企業のクライアントとミーティングをしたとき、彼らはこう言った。でも、新製品が稼働する60日前に知りたいという要件があるんだ "と。私も60日前に知りたい。

オープンAIでは、消費者向け、企業向け、開発者向けの製品を同時に提供しているため、ほとんどすべての面で実験を行っているのです。 直感という点では、直感が働く仕事のおよそ半分がそうだ。 例えば、Advanced Speech PatternsやCanvasのリリース間近のように、製品の方向性が明確で、最終的な微調整を行い、ターゲットユーザーや解決すべき問題を正確に理解しようとしているときは、従来の製品リリースプロセスに近い状況であるため、直感が役立ちます。

まだ プロジェクトの初期段階では、そんなことはまったくない。未知の能力を持っていることもある。 例えば、新しいモデルをトレーニングしていて、それがある能力を持っていると思うかもしれないが、あなたには確信がなく、研究チームにも確信がなく、誰も確信がない。霧の中から彫像がゆっくりと浮かび上がってくるように、うまくいくかもしれないが、その能力はモデルの創発的な特性である。つまり、それが実際に機能するのか、60%の効果があるのか、90%の効果があるのか、99%の効果があるのかはわからない。また、60%が有効なモデル、90%が有効なモデル、99%が有効なモデルでは、対応する製品形態がまったく異なります。研究チームに時折話を聞きに行き、どうなっているのか、モデルのトレーニングはどうなっているのか、何か新しい洞察はあるのか、と尋ねると、研究だから、まだやっている最中だ、わからない、探索的なプロセスだ、と言われる。でも、みんなで一緒に新しいことを発見するのは楽しいし、ある種のランダム性もある。

AI製品開発における不確実性と適応：プロトタイプからユーザーフィードバックまで

マイクだ： インスタグラムの頃を思い出すと、WWDCでのアップルの発表のようなものだ。そして今、それは似たようなものだが、自分の会社が社内を破壊している。それはクールだと感じると同時に、製品ロードマップが完全に破壊されているように感じる。

サラこのサイクルはあなたにとってどのようなものですか？あなたはそれを、次の機能を見つけるために「霧の中を探す」と表現しています。では、何が起こるかを正確に知らなくても計画は立てられるのでしょうか？また、新機能を発見し、製品に統合するための反復サイクルはどのようなものですか？

マイクだ： インテリジェンスという点では、"この方向に進んでいる "ということを少しざっと見ることができる。だから、それを軸に製品を作り、それに応じて決断を下すことができる。全体として、これには3つのアプローチの仕方がある。まず一つ目。 知能の進歩は予測不可能だが、少なくとも一般的な傾向は見られる。 もうひとつは、製品の観点から投資すべき能力を決定し、研究チームと一緒に微調整を行うことです。この会社で働けること、ここでデザインに携われることは、本当に光栄なことです。そして、今週発表したOpenAIのスピーチ・モード（コンピュータ音声処理）のような能力入力もあります。よし、60%だ、いいぞ、その調子だ。

だから私たちが心がけているのは、プロセスの早い段階でデザイナーに参加してもらうことだが、同時に、最終的な賭けをしているわけではないことも知っておくことだ。実験の結果は学習であるべきで、毎回完璧な製品であってはならない。研究チームと仕事をするときも同じで、その結果は、製品のアイデアをかき立てるデモや何か刺激的なものであるべきで、予測可能な製品プロセスであってはならない。これでリスクがなくなったから、研究が始まったらこうなるはずだ」とは考えない。

ケビン もうひとつ私が気に入っているのは、マイクが言うように、特にトレーニング後の段階において、研究の一部が少なくとも製品志向になっていることだ。そしてもうひとつは、より学術的な研究です。だから、カンファレンスである能力の話を聞いて、自分もこれをやりたいと思うことがある。すると私たちは驚いて、本当に？どうしたんだ？と尋ねると、研究者たちは、それは重要なことだとは思っていなかったので、今は別のことをやっている、と言うだろう。でも時々、本当に魔法のような瞬間が訪れるんだ。

サラ投資する際によく考えることのひとつに、あるタスクの成功率が99%ではなく60%だった場合に何ができるかということがある。60%に近づく多くのタスクとは異なり、タスク自体は依然として非常に重要で価値があります。では、社内でミッションの進捗状況をどのように評価していますか？そして、製品において失敗を優雅にすること、あるいはユーザーがこの「移行」を乗り切れるようにすることをどう考えているのでしょうか。モデルが良くなるのを待つ必要があるからというわけではありませんが、どのように対処しているのでしょうか？

ケビン モデルの正しさが60%でできることは、特別に設計する必要があることを除けば、実際にはたくさんある。そのためには システムへの手動介入が増える オートメーションに全面的に依存するのではなく 例えば、Github Copilotを見てみよう。これは、AIがQ&Aのためだけでなく、経済的に価値のある実際の仕事に使えることを人々に実感させた最初の製品だ。これがリリースされた当時、どのモデルに基づいていたのか正確には知らないが、数世代前のものであることは確かだ。だから、そのモデルがコーディングに関連するいかなる点においても完璧ではなかったことは保証できる。

サラ GPT2をベースにしたモデルで、ちょっと小さいんだ。

ケビン 完璧なコードではないかもしれないが、少なくともほとんどのことはやってくれる。だから、このような体験は十分に可能なのだ。特にAGENTや長いタスク形式へのシフトの中で、同じようなものが出てくるだろう。完璧ではないかもしれないが、5分から10分の時間を節約できるのであれば、それはまだ価値がある。さらに、もしモデルが自分の不明な点を理解し、あなたに手を差し伸べて、「これについてよくわからないのですが、助けてもらえますか？そうしたら。ヒト-モデル結合は60%よりはるかに高いだろう。

マイクだ： このパーセンテージは、AIの閾値ラインのようなもので、メンドーサ・ラインのように、通常は非常にばらつきがあり、あるテストでは非常に良い結果を出すこともあれば、そうでないこともある。また、パイロット・プロジェクトでクライアントと協力しているときにも役立ちます。特に、同じ日に2社からフィードバックを得るような場合には、クライアントが「これですべての問題が解決した！

しかし、だからといって他のモデルより優れているというわけではない。また、他のモデルよりも悪い状況に出くわすこともある。ですから、それを理解することが不可欠です。社内でたくさんの評価をすることはできますが、実際にモデルを実世界のアプリケーションに投入するとなると、デザインをするときのように、最初は完璧だと思っていても、ユーザーの前に置かれると、自分が間違っていたことに気づくことになります。モデルには似たような感触があり、私たちは賢明な判断を下そうと最善を尽くしますが、クライアントにはそれぞれ特注のデータセットや内部のニーズがあり、何らかの形でモデルを促します。そのため、モデルが実際に世に出されると、まるで二重の衝撃のように、異なる結果をもたらすのです。

ケビン あなたが同じように感じているのか気になります。最近のモデルは知性によって制限されるのではなく、評価によって制限されるんだ。モデルは実際にはもっと多くのことができ、より幅広い分野でより正確であるが、現在の性能はその潜在能力をフルに発揮するには程遠い。重要なのは、特定のテーマについて何かを学ぶために必要な知性を与えるために、どのように彼らを教えるか、である。これらは最初のトレーニングセットには入っていないかもしれないが、教えればできるようになる。

マイクだ： そう、これはよくあることだ。数年前にはエキサイティングなAIアプリがたくさんありましたが、当時は誰もがクールなAI機能を発表することだけに集中しており、評価をまったく行っていませんでした。今でこそ、新しいモデルはより良いはずだと誰もが考えていますが、私たちはAI機能のリリースを急ぐばかりで、実際には評価を行っていませんでした。一番大変だったのは、成功とは何なのか、立ち止まって考える必要があることに気づかせることだった。実際にどのような問題を解決しているのか？多くの場合、プロダクト・マネジャーが交代し、新しいプロダクト・マネジャーが引き継いで、成功とはどのようなものかを問い始めます。評価を書いてみよう。

クロードは評価を書いたり採点したりするのが得意です。ですから、私たちはこのプロセスの多くを自動化することができます。ただし、実際に段階的な改善を行う前に、成功とは何かを教えていただければの話ですが。このプロセスは、しばしばミッションを60%から85%に引き上げる鍵となります。ある日、Anthropicに面接に来たら、悪い評価を良い評価に改善するよう求める面接プロセスの一部を見ることができるかもしれません。私たちは、あなたがどのように考えるかを見たいのです。そのような才能は他では得られないかもしれませんが、私たちはそのようなスキルを身につけるために努力しています。私たちが誰かに教えられることがあるとすれば、それはこれです。

ケビン これは本当に重要なポイントだ。タイムリーに伝えるためにメールを書くことは、これからのプロダクトマネージャーのコアスキルのひとつになるだろう。

マイクだ： 私たちは実際に社内でこのことについて話し合いました。これはちょっとした内部情報かもしれませんが、興味深いことです。私たちには、モデル機能やモデル開発を専門とするリサーチ・プロダクト・マネージャーと、製品インターフェースやAPIをより担当するプロダクト・マネージャーがいます。そして、2024年、2025年にAI主導の機能を構築するプロダクトマネージャーの役割は、前者のようになりつつあり、後者のようにはなりつつないことに気づいたのです。例えば、クロードが実際にCSVを解析してコードを書いてくれるコード解析機能をリリースしました。このプロダクト・マネージャーは、80%を良いものにし、評価を書いて微調整やプロンプトを出せるプロダクト・マネージャーに引き渡す役割を担っています。この役割は事実上同じであり、機能の質は現在、あなたが評価とヒントについて行う作業にかかっています。ですから、これら2つのプロダクトマネージャーの役割は、現在徐々に融合しつつあります。

ケビン はい、その通りです。私たちはブートキャンプを立ち上げ、すべてのプロダクトマネージャーが良い評価と悪い評価の違いについてEメールを書いて学びました。私たちはまだこのプロセスを終えておらず、反復と改善を続ける必要がありますが、これは本当に優れたAI製品を作るための重要な部分なのです。

サラこの採用の一環として、今後AI製品の構築や製品研究でうまくやっていきたい人たちにとって、ケビンさんのブートキャンプに参加することはできません。では、サイクルを通して評価し、反復することが得意になるための直観力を養うにはどうすればいいのでしょうか？

ケビン そのためにモデルそのものを使うことができます。例えば、あなたがモデルに直接「どのような評価が良いか」あるいは「いくつかの評価例を教えてください」と尋ねれば、モデルは良い答えを出すでしょう。

マイクだ： これは非常に重要なことで、アンドレア・カルパティやこの分野で多くの時間を費やしてきた人たちの話を聞けば、彼らは皆、データを見ることに勝るものはないと言うだろう。評価ツールがあり、新しいモデルはその評価ツールによって80%優れたものであると評価されるが、新しいモデルは完璧ではないと考え、発表するのが怖いというジレンマに陥ることがよくある。しかし実際には、過去の事例を参考にすれば、モデルは十分に優れているが、評価ツールが十分に標準的でないだけだということがわかるだろう。

すべてのモデルリリースにモデルカードがあるようなもので、金色の答えさえ見られるような評価もあって、人間がそう言うのか、それともその数学の問題が実はちょっと間違っているのかわからないようなものまであるのが面白い。100%を完璧にするのは、採点自体も非常に難しいからです。ですから、直感を養う方法としては、実際の解答を見たり、あるいはサンプルを見たりして、"評価方法を進化させるべきかもしれない、あるいは評価結果は厳しくても全体の雰囲気は良いのかもしれない "と考えることをお勧めします。だからこそ、データを掘り下げて本当に触れることが重要なのだ。

ケビン また、より長いタスクやエージェント的なタスクに向かうにつれて、このプロセスがどのように進化していくのかも興味深い。というのも、「この数学の問題を出すから、4桁の数字を足して正しい答えを導き出せ」というようなタスクの場合、何が優れているかがわかるし、判断も非常にシンプルだからだ。このモデルが、ニューヨークのホテルを探してくれるような、より長くてファジーなことをするようになると、何が正しいかわかるようになる。しかし、多くの場合、それはパーソナライズされたものです。だから、もっと緩やかな基準で判断することになる。私たちにとっては興味深いプロセスになるだろう。私たちはまた進化し、評価基準を再定義しなければならないでしょう。

マイクだ： 考えてみれば、ラボの両側には、"やりながら能力を伸ばすとはどういうことか "という考え方が実際にある。それは、より大きく長期的な仕事を扱うキャリアラダーに少し似ている。もしかしたら、アセスメントが人事考課に似てくるかもしれない。私は今、人事考課の時期なので、その比喩が頭の片隅にあります。そのモデルは、有能な人材が達成すべきことについての期待に応えているか？期待以上か？例えば、より早く達成できたかとか、あなたが知らなかったレストランを発見できたかとか、その場合は通常の善悪の基準よりも複雑で微妙なものだ。

ケビン 言うまでもなく、人間がまだこれらの評価を書いている一方で、あるタスクではモデルが人間のパフォーマンスに近づいたり上回ったりしている。時には、人間よりもモデルの答えを好む人さえいる。では、人間が評価を書いている場合、これは何を意味するのでしょうか？

サラ評価が重要なのは明らかです。私たちは、これらのモデルに多くの時間を費やし、アセスメントの書き方を独学するつもりです。では、プロダクトマネージャーはどのようなスキルを学ぶべきなのでしょうか？今現在、あなた方はこの学習の道を歩んでいます。

マイクだ： このようなモデルを使ったプロトタイピングは、過小評価されているスキルです。デザイナーがFigmaを手に取る前に、プロダクト・マネージャーや時にはエンジニアが、「OK、クロードでA/Bテストをして、この2つのUIがそれぞれどのように見えるか試してみました。" そして、より多くの選択肢を短時間でプロトタイプ化し、より迅速に評価できるようになります。ですから、このようなツールを使ってプロトタイプを作成できるスキルはとても役に立ちます。

ケビン それは素晴らしい指摘だ。また、プロダクト・マネジャーがテクノロジー・スタックをより深く掘り下げるようになり、その要件が時代とともに変化していくという点にも同意します。例えば、2005年にデータベース技術に携わっていたのであれば、全く異なる方法でより深く学ぶ必要があったかもしれません。すべてのプロダクトマネジャーが研究者になる必要があると言っているわけではない。これらのテクノロジーを理解し、時間をかけてその言語を学び、これらのものがどのように機能するかについての直感を養うことは、プロダクトマネジャーにとってすべて長い道のりを歩むことになる。

マイクだ： もうひとつの側面は、確率的で非決定論的なシステムを扱っているということです。電子メールのように、私たちは最善を尽くそうとしていますが、モデルの出力をコントロールできない世界での製品設計では、最善を尽くすしかありません。では、ループを閉じるためにはどのようなフィードバック・メカニズムが必要なのでしょうか？モデルが正しい方向から外れたとき、どうやって判断するのか？フィードバックを素早く集めるには？どのようなセーフガードを設けるのか？大規模な出力でモデルがどのように機能するかをどのように知るのか？これらの質問には、一人のユーザーだけでなく、一日に多数のユーザーを対象としたスケールでのモデルのアウトプットを理解することが必要です。以前は、ボタンがクリックされたときにユーザーのアクションが実行されなかったというエラーレポートがあり、この種の問題を特定し、解決するのは簡単だった。

ケビン もしかしたら、5年後、人々がすべてに慣れるころには変わっているかもしれない。しかし、私たちはまだこの非決定論的なユーザー・インターフェースに慣れていない段階であり、特に技術者でなく、技術製品を使う際にこれに慣れていない人々にとってはそうである。この状況は、過去25年間コンピューターを使ってきた私たちの直感に完全に反している。コンピューターは、入力が同じなら同じ結果を出力するものだったが、もはやそれは通用しない。そして、製品を作る際にこの変化に適応する必要があるだけでなく、製品を使うユーザーの立場に立って、これが彼らにとって何を意味するのかを考える必要がある。これにはいくつかのマイナス面もありますが、本当に素晴らしいプラス面もあります。だから、これをさまざまな方法で有利に使う方法を考えるのは本当に面白い。

マイクだ： インスタグラムでは、多くのローリングユーザーリサーチを行ったことを覚えている。研究者は毎週違う人を連れてきて、毎回プロトタイプをテストしていました。しかし興味深いことに、このようなセッションでよく驚かされるのは、ユーザーのインスタグラムの使い方です。新機能やその使用例に対するユーザーの反応を見るのはいつも興味深い。そして今、この研究の半分はユーザーがどのように反応するかについてであり、もう半分はその文脈でモデルがどのように振る舞うかについてです。そして、それが非常にうまくいっていることがわかるだろう。

ですから、特にユーザー・リサーチの環境でモデルがうまく反応したときは、誇らしい気持ちになります。また、モデルが意図を誤解し、答えの10ページ目まで行ってしまったことに気づいたときは、フラストレーションが溜まります。だから、この環境での不確実性に対して「禅」のマインドセットを持つこと、コントロールの感覚を手放し、何が起こるかを受け入れることをある意味学ぶことなのかもしれない。

AI技術の急速な適応と教育：消費者からビジネスユーザーへ

サラお二人とも、こうした消費者体験のデザインに携わり、何億人もの人々に新しい行動を急速に教えてきました。このようなAI製品が当時よりもさらにユビキタスになってきている今、また、プロダクトマネージャーや技術者自身がこれらのテクノロジーの使い方についてあまり直感的でないとしたら、エンドユーザーをどのように教育していこうと考えているのでしょうか？あなたが扱っているものの規模は非常に大きく、これらのテクノロジーは非常に直感に反している。

ケビン 私たちの適応の早さには驚かされる。先日、ある人とウェイモ（無人運転車）に初めて乗った経験について話したんだ。ウェイモに乗ったことがある人はいますか？もしウェイモに乗ったことがないのなら、ここを出たら、サンフランシスコでウェイモに乗ってどこへでも行ってください。素晴らしい体験ができますよ。でも、最初の30秒間は "大変だ、自転車に気をつけろ "と思い、5分後には "大変だ、未来に生きている "と思うらしい。でも、その10分後には退屈で携帯電話に向かっている。

私たちは、この絶対的なマジックにどれほど早く慣れてしまったことだろう。この現象は2年も前に登場したChatGPTでも起こり、当時は本当に衝撃的でした。今、戻ってオリジナルのGPTバージョン3.5を使ったら、誰もがひどい思いをするでしょう。

サラ誰もがバカだと言うだろう。

ケビン 私たちが今日していること、そしてあなた方がしていること、そのすべてが魔法のように感じられるなんて、以前は考えられなかったでしょう。12ヵ月後には、私たちがそんなくだらないものを使っていたなんて信じられなくなるでしょう。さらに驚かされるのは、人々の適応の早さだ。私たちが人々にペースを維持するよう懸命に働きかけているにもかかわらず、多くの興奮がある。世界はそのような方向に進んでいることを人々は理解している。それは起きていることであり、非常に速いスピードで進んでいる。

マイクだ： 今、私たちが改善しようとしていることのひとつは、製品を文字通り教育ツールにすることです。これは、私たちが初期にやらなかったことで、今は、クロードが自分自身について学ぶという方向性に変わってきています。以前は、Anthropicが作成したAIであること、トレーニングセットに何が含まれているかなどを説明するだけでしたが、今は文字通り、"この機能の使い方はこうです "と説明しています。というのも、ユーザー調査の結果、人々は "これはどうやって使えばいいのですか？"と尋ねることがわかったからです。するとクロードは、"わからない、ネットで調べてみた？"と答えるかもしれない。その答えでは全く役に立たないと思うだろう。

だから今、私たちはそれを実際のアプリケーションに根付かせようとしている。私たちが今できることは、「ここにドキュメントのリンクがあります。私はあなたを助けることができます。"このようなモデルは、UIの問題やユーザーの混乱を解決するのに実はとても効果的で、私たちはこのような問題を解決するためにもっと使うべきなのです。

サラ組織におけるチェンジ・マネジメントとなると、状況は変わってくるに違いない。なぜなら、当時は既存のやり方や組織のプロセスがあったからだ。では、組織全体を教育し、生産性の向上やその他の変化が起こるかもしれないことを支援するにはどうすればいいのでしょうか？

マイクだ： これらの製品には何百万人ものユーザーがいますが、コアユーザーのほとんどはまだアーリーアダプターで、テクノロジーに興味がある人たちです。そして、企業に入ると、製品を組織に導入することになり、通常、技術にあまり精通していない人もいる。そのような非技術的なユーザーが、チャット主導のLLMに初めて触れ、どのような反応を示すかを実際に見ることができるのは素晴らしいことです。ですから、トレーニング・セッションを行い、使い方を教え、教材を提供する機会があるのです。私たちは、こうした実践から学び、次の1億人にこうした技術の使い方を教える方法を結論づける必要があります。

ケビン このようなユーザー・インターフェースには、通常、他のユーザーに使い方を教えることに熱心なコア・ユーザーがいる。例えば、OpenAIにはカスタムGPTがあり、組織は通常何千ものGPTを作成する。これは、コアユーザーがAIをより簡単にし、その使い方を知らない人々にとってより即座に価値のあるものを作る機会を提供します。実際にエバンジェリストになってくれるコア・ユーザー・グループを見つけることができるクールな場所だ。

サラあなたの組織は基本的にコア・ユーザーなので、あなた自身の小さな未来の世界に住んでいるのです。質問があるのですが、答えたくなければ遠慮なく指示してください。マイク、私はコンピューターで何をするのですか？皆さんは何をしていますか？

マイクだ： 社内的には、先ほどケビンが「いつ完成するのか」と言ったように、まだ初期段階であり、失敗もあるだろうが、製品は十分に良いものだと自信を持っていた時期もあった。

最も興味深い使用例のひとつは、テストを実施しているときに、AIがピザを注文できるかどうか試してみたいという人がいたことです。AIは実際にピザを注文し、すべてがスムーズに進み、ピザはオフィスに届けられました。いわば象徴的な瞬間で、ドミノ（特に高級なピザではない）だったにもかかわらず、全体的にはAIがやってのけたクールな瞬間だった。ああいう瞬間は実に興味深い。もちろん、そのピザはちょっと注文しすぎだったし、それを食べるためにお腹が空いていたのかもしれない。

今、私たちは本当に興味深い初期のユースケースをいくつか目にしていますが、そのひとつがUIテストです。インスタグラムでは、UIテストはほとんどありませんでした。なぜなら、UIテストは書くのが難しく、壊れやすく、ボタンの位置が変わるなどの理由で失敗することがよくあり、多くのことを書き直さなければならなかったからです。今、コンピューターは「期待通りに動くか」というUIテストを非常に効果的に行うことができる。それはとても興味深いことだ。

もうひとつの方向性は、多くのデータ処理を必要とするインテリジェント・エージェント・アプリケーションです。例えば、私たちのサポート・チームや財務チームでは、PRフォームの多くはもともと非常に面倒で反復的なもので、あるデータ・ソースからデータを取り出し、それを別のデータ・ソースに入れるという手作業に多くの時間を費やしていました。コンピュータの使用について話すときはいつも、「力仕事」という言葉を使います。私たちは、このような面倒な作業を自動化することで、人々が各操作を30回クリックする代わりに、より創造的なことに集中できるようにしたいと考えています。

サラケビン、GPTのo1モデルを実験しているチームはたくさんある。もちろん、より複雑なことができる。しかし、すでにアプリケーションでGPT-4のようなモデルを使用している場合、単純に1対1の置き換えとして使用することはできません。この点について、ガイダンスをいただけますか？内部ではどのように使っているのですか？

ケビン おそらく多くの人が気づいていないことのひとつに、私たちの最も先進的なクライアントや私たちが社内でやっていることは、実は何かのモデルを使うことではないということがあります。結局、モデルを組み合わせてワークフローや調整メカニズムを形成することになる。GPT o1モデルは推論に非常に優れているが、考えるのに時間がかかるし、マルチモーダルではない。

サラ理性はこのグループにとって根本的な問題だと私は理解している。

ケビン そう、"エクステンデッド・プレトレーニング "のコンセプトはご存知のはずだ。GPT2、3、4、5......といったバージョンから始めて、どんどん大きな事前トレーニングを行う。モデルはより「賢く」なる。というか、より多くのことを知るようになるのだが、システム1の思考に近い。

サラそう、今私が質問すれば、次々と結果を出力して続けるだろう。

ケビン 他人がどう動くかについての人間の直感は、多くのモデルがどう動くかを推測するのに役立つことが多いと思いませんか？あなたが私に質問すると、私は話題を逸らし、間違った文章に入るかもしれない。そういうことは、実際にモデルでも起こりうることなんだ。gpt o1モデルは、実際にはインテリジェンスを拡張する別の方法であり、それはクエリ時に行われます。つまり、システム1が「質問してくれればすぐに答えを返す」と考えているのとは異なり、私が質問した場合のように一時停止するのです。

数独を解いてニューヨーク・タイムズの点つなぎゲームをやれと言ったら、この単語はどのようにグループ分けされているのか、この4つは正しいかもしれないし、正しくないかもしれない、これは......と考え始めるだろう。すでに知っていることから仮説を立て、その仮説を反証したり確認したりして、推論を続ける。それこそが科学的なブレークスルーが生まれる方法であり、難問に答える方法であり、モデルに何をすべきかを教えているんだ。そして今、彼らは30秒から60秒考えて答えを出している。もし彼らが5時間、あるいは5日間考えることができたらどうなるか、想像してみてほしい。

だから、インテリジェンスを拡大するまったく新しい方法であり、今はまだ始まったばかりだと感じている。 私たちは今、この新しいタイプの推論のGPT1の段階にいる。 しかし、いつものことだが、モデルは何にでも使えるわけではないだろう？質問されたときに、60秒も待たずにすぐに答えてほしいこともある。だから私たちは結局、さまざまな方法でモデルを一緒に使うことになる。

例えばサイバーセキュリティは、モデルが適用できないと思われるかもしれない分野だ。しかし、モデルを微調整することで、特定のタスクに適したモデルにすることができる。そして、インプットとアウトプットの種類に関して非常に正確になるようにモデルを微調整し、それらのモデルが一緒に働き始めるようにすることができる。モデルが他のモデルの出力をチェックし、何かが正しくないことに気づき、再試行を求める。つまり最終的には、モデルを一緒に運用し、特定のタスクについて協力することで、大きな価値を引き出す方法なんだ。人間が複雑な仕事をするとき、通常、異なるスキルを持つ人たちが協力して難しい仕事をこなすのと同じです。

AIの未来を予測する：積極性、非同期インタラクション、パーソナライズされた体験

サラあなたたちは将来について、そして何が来るのかについて、私たちに何か教えてくれなければならない。発売日を言う必要はないし、あなたたちが知らないことは理解しているが、ずっと先を見てみると、今、AIのフィールドを見ることができるのは、おそらく一番遠いところだろう......。君たちが未来を見通せるなら、教えてくれ。でも、仮に6ヶ月とか12ヶ月として、皆さんはどんな体験を想像しますか？どんな体験が可能になったり、当たり前になったりしますか？

マイクだ： 私はこのことについていつも考えているが、おそらく誰の心にも種を植え付ける2つの言葉がある。1つ目は「プロアクティブ」、つまり、モデルがよりプロアクティブになるにはどうすればいいかということだ。例えば、彼らがあなたのことを知り、あなたの情報の一部を監視し始めたら（あなたがそうすることを許可したと仮定して）、彼らはあなたのメールをあまり邪魔にならず、役に立つ方法で読み、興味深い傾向を見つけるかもしれない。あるいは、あなたが一日を始めるときに、今日何があったのか、どの会話にあなたが関わっているのか、といった未承諾のサマリーを教えてくれるかもしれない。私はあなたのためにいくつかの調査をしました。次のミーティングを控えているので、あなたが話したいことはこれでしょう。プレゼンテーションが予定されているようですが、これは私が用意した草案の最初のバージョンです。このようなイニシアチブは、将来非常に強力なものになるだろう。

もうひとつの側面は、より "非同期的 "になることだ。o1モデルは現在、この探索段階の初期インターフェイスだが、いろいろなことができるし、その都度、何をしようとしているのかを教えてくれる。ここで待つこともできるが、「しばらく考えるから、他のことをして後で戻ってくるか、終わったら教えてくれる」という選択もできる。それは時間の次元を広げるようなもので、ただ質問しなかったというだけでなく、積極的に何かを教えてくれる。また、質問をすると、"よし、ちょっと考えて、他の人に質問してみよう。

すぐに答えが返ってくるという制約を破る。 そのため、「私はそれを拡大するために、小さなプロジェクトプランを持っている」とか、「画面上の1カ所を変更してほしいだけでなく、このバグを修正させてほしい」とか、「新しい市場条件に合わせてPRDを微調整してほしい」とか、「これら3つの新しい市場条件に基づいて調整をしてほしい」とか、いろいろなことができるようになる。この3つの新しい市場条件に基づいて調整をしてほしい。"このような次元で変化を促すことができることが、個人的に製品に関して最も期待していることだ。

ケビン そうだね、君が指摘したことすべてにまったく同意するよ。 モデルは加速度的に賢くなるだろう。 それがすべてを可能にしている部分だ。 もうひとつ、とてもエキサイティングなことは、モデルが私たち人間と同じように相互作用できるのを見ることだ。 現在、これらのモデルとはほとんどの場合、タイピングでやりとりしており、私もWhatsAppなどで多くの友人とタイピングでやりとりすることが多い。しかし、私は話すこともできるし、ものを見ることもできる。私たちは最近、進化した音声モデルを導入しました。韓国や日本の人たちと話していて、私の言葉がまったく理解できない相手とよく一緒にいた。それまではまったく意思疎通ができなかった。でも今は、"ChatGPT、翻訳者になってほしい。私が英語で話したら、韓国語に訳してほしい。" "韓国語が聞こえたら、英語で教えてほしい。"と言ったんだ。突然、私はお互いのビジネス会話用の世界共通の翻訳者を手に入れた。まるで魔法のように感じた。

この技術によって何ができるかを考えてみてほしい。ビジネスの場面だけでなく、もし言葉が通じなくても心配する必要がなくなり、『スタートレック』のユニバーサル翻訳機のようなものがポケットに入っていたら、人々はどれだけ新しい場所に行きたくなるだろうか。このような体験は将来当たり前のものになるでしょうが、それでも魔法のようなもので、今マイクが言ったことと合わせて、このテクノロジーにとても興奮しています。

サラ TikTokビデオとは、若い人たちが音声モードを使って、あらゆる方法を駆使して心を込めて話しているビデオのことである。デジタルネイティブ」とか「モバイルネイティブ」という古い言葉を思い出す。私自身はAIの大信奉者だが、このような形で交流するとは思ってもみなかった。でも、14歳の子どもたちは、私がAIでこんなことができると思うだろう。

ケビン お子さんに使ったことはありますか？

サラ子供たちはもう5歳と7歳だから、まだなんだ。

ケビン でも、ぜひ試してみるつもりです。私の子供たちは8歳と10歳で、運転中によく "ChatGPTと話せる？"と聞いてきます。とよく聞いてくるんです。それから変な質問をしてきたり、AIと変な会話をしたりするんですが、AIと話すのは全然嫌がりません。

サラ実際、私の好きな体験のひとつに、最近見た最も素晴らしい行動（それが子供であれ、他の誰かであれ）は何かという質問がある。私が本を選ぶことができれば最高ですが、そうでなければ、父は "私が興味のある物理学の本を読むんだ "という感じです。うちの子供たちは、これがベイエリア流の子育てなのかどうかわからないけど、「よし、ママ、正しい絵を作って。ドラゴンとユニコーンの話をしたいんだ。そして、その物語はリアルタイムで作られる。私はそれは大きな要求だと思うし、彼らがそれを信じ、可能だと知っているのは嬉しいが、この方法で自分のエンターテインメント・コンテンツを作るのは本当にクレイジーだ。では、あなたが最近見た製品の中で、最も驚いた動作は何ですか？

マイクだ： それは行動であり、関係性だ。人々はクロードのニュアンスや、今説明した新しいモデルを本当に理解し始めている。彼らはそのニュアンスを理解している。その行動は、ほとんど友達を作るようなものであり、起きていることに双方向の共感を生み出すものだ。そして、"新しいモデルはよりスマートに感じるが、少しよそよそしいかもしれない "と思った。そういうニュアンスなんだ。製品として、私たちの製品を使っているときの人々の考え方に、より共感できるようになりました。あなたは単に製品を発売しているのではなく、知恵と共感を発売しているのです。アップグレードして、数学の点数が2%上がりました。私たちの製品を使う人々の考え方を理解することは、私にとって興味深い旅だった。

ケビン そうだ。 モデルの振る舞いは、間違いなく製品のペルソナの一部である。モデルの個性は非常に重要であり、以下のような興味深い問題がある。 どのようにカスタマイズされるべきかというようなね。 それとも、OpenAIは統一された個性を持ち、クロードは独自の個性を持つべきなのだろうか？これは実はとても人間的な現象で、私たちはさまざまな人を好むからこそ、さまざまな人と友達になるのです。考えてみると面白いテーマだ。私たちは最近あることをしたのですが、それはツイッターで瞬く間に広まりました。人々はモデルに、"あなたが私について知っていること、私たちの過去のすべての交流に基づいて、あなたは私をどのように表現しますか？"と尋ね始めた。そうすると、モデルはそれに答えて、過去のすべてのやりとりに基づくと思われる説明をするんだ。まるでモデルが人間か実体であるかのように、モデルとの対話を始めるのだ。それに対して人々がどう反応するのか、とても興味深い。