コンピューター 新興企業やダークホース、そして巨大企業がひしめくUseコースだが、OpenAIがそれを制した。
フォローできる デスクトップ・オートメーション・インテリジェンス 関連商品を数十点集めました。
人工知能分野の競争はますます激しくなっており、新興企業だけでなく、テクノロジー大手も参入している。最近、OpenAIは、人間のように自律的にコンピュータを操作できる初のAIシステム「Operator」と呼ばれる知的身体システムを正式にリリースした。これは、AIが一般人工知能(AGI)に向かうための重要なステップと考えられている。オープンエイのグレッグ・ブロックマン社長はこう予言する:
2025年は知的身体の年になる。私たちは、知的身体が深く関与する「ハイブリッド・インターネット」(HYBRID INTERNET)の誕生を目撃することになるかもしれない。"
オペレーター:CUAモデルに基づくコンピュータ使用知能
OperatorはOpenAIがリリースした研究用プレビュー製品で、そのコア技術は、GPT-4oの視覚機能と強化学習技術を組み合わせたComputer-Using Agent(CUA)モデルであり、スクリーンショットを分析し、人間がキーボードやマウスなどの周辺機器を使用して様々な複雑なタスクを実行する様子をシミュレートすることで、グラフィカル・ユーザー・インターフェース(GUI)と対話することを可能にします。キーボード、マウス、その他の周辺機器を使用してコンピュータを操作し、さまざまな複雑なタスクを完了する。
事前に構築されたAPIに依存する従来のAIシステムとは異なり、Operatorは、特定のアプリケーションやウェブサイトに特化したAPIを開発する必要なく、グラフィカルユーザーインターフェース(GUI)と直接対話します。つまり、Operatorは、クリック、入力、スクロールなどの基本的なアクションを実行することで、人間のユーザーと同じように、事実上あらゆるコンピュータアプリケーションやウェブページと対話することができ、AIアプリケーションの範囲を大幅に拡大します。これは、AIアプリケーションの範囲を大きく広げます。
オペレーターの機能的ハイライトと応用可能性
デモでは、オペレーターは、ユーザーのコマンドを理解し、日常的なタスクや専門的なタスクなど、さまざまなタスクをこなしながら、自律的に動作する素晴らしい能力を示した:
- ライフサービス予約オペレーターは、レストラン予約、オンラインショッピング、フライト予約、イベントチケット予約、ハウスキーピング予約、持ち帰り注文などを自動化することができる。例えば、ユーザーは手書きの買い物リストの写真をアップロードするだけで、オペレーターはその内容を認識し、Instacartなどのプラットフォームで購入を完了します。
- 情報処理と自動化ファイルの一括ダウンロード、ドキュメントの一括編集、オンラインフォームへの入力など、繰り返しの操作を素早く完了。
具体的には、オペレーターのハイライトは以下の通り:
- 視覚認識CUAモデルは、スクリーンからのピクセルデータを処理し、スクリーンの現在の視覚状態を理解し、インターフェース要素(ボタン、テキストボックスなど)を認識することができます。
- 推論と計画思考の連鎖(CoT)技術により、CUAはタスクのステップを推論し、動作経路を計画し、環境の変化に応じて動的に行動計画を調整し、さらには問題に遭遇したときに自己修正して戦略を調整することができる。
- 操作実行CUAは、仮想マウスとキーボードを使用して、目的のタスクが完了するまで、クリック、スクロール、タイピングなどを行います。OpenTableなどの特定のアプリを使ってレストランを予約させたり、Instacartに買い物リストをアップロードして添付ファイルで注文させたりすることもできます。
CUAテクノロジー・コア:視覚的知覚、推論計画、共通インターフェース
オペレーターの核となる原動力は、CUAモデルの強力な技術力にあり、その核となる技術的要素には次の3つの主要な側面がある:
(1) 視覚的知覚と推論: CUAは、スクリーンショットを処理してインターフェイスの内容を分析し、画面上の要素や情報を理解します。思考連鎖」技術と組み合わせることで、CUAは次のステップを推測し、タスクの流れを追跡・調整するためのスクリーンショットやアクションログを生成することができます。
(2)マルチステップのタスクプランニング: CUAは、複雑なタスクを、ウェブページでの商品検索、仕様の選択、注文の確認など、複数のステップの操作に分解することができる。さらに重要なのは、CUAには次のような機能があるということだ。 変化への適応と自己修正 サイトの内容が期待されたものでない場合に、代替案を見つけようとする能力。
(3) 特定のAPIを必要としない汎用インターフェース: CUAは、従来のAIのAPI依存から脱却し、ユーザー・インターフェースと直接対話することができる。 "デジタル世界のためのユニバーサル・インターフェース"これは、AIが人間が使用するすべてのソフトウェア・ツールと相互作用することを可能にするものである。
CUAのパフォーマンス:ベンチマークと実用的なアプリケーション
CUAは多くのベンチマークテストでブレークスルーを果たし、従来の技術水準をはるかに上回っている:
- OSWorld(オペレーティング・システム・タスク)CUA修了率 38.1%これまでの最高記録を大幅に更新 22.0%.
- WebArena(ブラウザタスク)CUAの合格率 58.1%をはるかに上回る。 36.2%.
- WebVoyager (シンプルなウェブタスク)CUAに到着 87% 成功率は人間のレベルに近い。
それにもかかわらず、CUAはまだ人間のレベルには及ばない(例えば、OSWorldの人間の完走率は72.4%)。実際には、CUAにはいくつかの限界もある:
- 不正確なテキスト編集複雑なテキスト編集作業でエラーを起こしやすい。
- 相互作用の制限未知の複雑なユーザーインターフェイスに直面した場合、何度も試行錯誤を繰り返す必要があります。
- 依存関係の詳細 説明最良の結果を得るためには、ユーザーによる非常に具体的な操作指示が必要です。
セキュリティ:ユーザーのプライバシーとセキュリティを保護する複数のメカニズム
Operatorが支払いやログインといった機密性の高い操作を扱う可能性があることを考慮し、OpenAIはユーザーのプライバシーと操作上のセキュリティを確保するために、設計に複数のレイヤーのセキュリティを組み込んでいる:
- マンデートの確認予約や支払いのような重要な操作を行う前に、システムは積極的にユーザーに確認を求める。例えば、アシスタントがパスワードをリセットするためのメールを作成したり、メールを削除しようとしたりする場合、ユーザーは処理を続行するかどうかの確認を求められます。
- コンテンツ・フィルタリング有害な可能性のあるリクエスト(武器の購入など)を自動的に識別し、ブロックします。
- 行動モニタリング異常動作を検知してタスクを中断する監視機能を内蔵。
- ユーザーはいつでもコントロールを引き継ぐことができるユーザーは作業中いつでもタスクを引き継ぐことができ、引き継ぎ期間中はオペレーターはユーザーの作業記録にアクセスできないため、ユーザーのプライバシーが保護されます。
- 人的監督メカニズム機密性の高いタスク(パスワードの入力など)については、悪用を防ぐため、CUAはユーザに確認を要求する。
- 不正行為対策CUAは、詐欺の可能性があるウェブサイトを認識し、運営を停止することができます。
- 行動の透明性CUAは、操作の各ステップでスクリーンショットを生成し、すべてのアクションが追跡可能であることを保証します。
今後の展望:インテリジェント・ボディの普及とAGIの開発
現在、Operatorは米国のProユーザーにのみテスト公開されている。OpenAIによれば、将来的にはより幅広いユーザーグループに拡大し、開発者が独自のコンピュータ・インテリジェンスを構築できるようにAPIを通じてCUAの機能を公開する予定だという。
Operatorの立ち上げは、AGIの進化における重要な一歩と見なされている。今後、OperatorとCUAテクノロジーは、さまざまな方法で進化し続けるでしょう:
- インテリジェンシアの拡大CUAのアクションスペースはより多くのタスクシナリオに拡張され、OpenAIは開発者がカスタムインテリジェンスを構築し、アプリケーションの境界を広げるのをサポートするオープンAPIを提供する予定です。
- オペレーター グローバルオープン将来的には、オペレーターは、より多くの地域でPlusユーザーへのアクセスを開放し、世界中のユーザーに利益をもたらすことを期待しています。
- AGIの推進オペレーターの出現は、インテリジェンスの時代が加速度的に到来することを告げるものであり、今後数年のうちに、より多くのインテリジェンスが出現し、より広範なデジタル・インタラクションのタスクにおいてAIが人間に取って代わることが予想される。 2025年は真の「スマートボディの年」になるかもしれない。.
結論と反省
OperatorとCUAのリリースは、AIのインタラクションモードに革命的な変化をもたらし、データインタフェースベースのモードから、ヒューマンコンピュータインタフェースベースのユニバーサルオペレーションモードへと移行しつつあり、一般人工知能(AGI)の実現に向けた強固な基盤を築くものである。
問題について深く考える:
- CUA技術は徐々に既存のAPIベースのAI操作に取って代わるのか?産業分野における実際の導入コストとメリットは?
- CUAの能力が向上し続けるにつれ、デジタル・タスクにおける人間の役割はどのように変化していくのだろうか?私たちは「知的体の乗っ取り」に備える必要があるのだろうか?
- ますます複雑化するネットワーク環境と悪用の潜在的リスクに直面する中で、CUAはどのようにすれば効果的にユーザーのセキュリティを確保し続けることができるのだろうか。将来のセキュリティ設計のために、どのような新しい側面を考慮すべきでしょうか?