AutoGLMをガイドとして、デスクトップ操作タスクを実行するAIの製品形態を分析する

1.3K 00

本日、ウィズダムスペクトラムは『AutoGLM Contemplation』をリリースした。マヌスマヌスがディープリサーチの製品、あるいはディープリサーチの製品に分類できるのは事実だと思う。しかし、そのような単純な分類は、開発者とユーザーの双方に多くの認知エラーを生じさせるだろうし、少なくとも私は、多くの人が同じ問題を抱えていると思う。

Think Smart Spectrum、デスクトップ自動化クラスのアプリをリリース( AutoGLM-Webプラグイン )、「AutoGLM Meditations」まで、基本的にSmart Spectrumの全製品ラインのほぼ完全なラインナップを見ることができる。

そこで、本日の話題の中心は「AutoGLM Meditations」である。デスクトップ操作タスクを実行するAI製品の分岐機能を分解する。

ウィズダムスペクトラムの公式発表は、現実的なものである。
AutoGLM Contemplationは、自由形式の質問を探索し、その結果に基づいてアクションを実行できる自律型知的身体（AIエージェント）です。データ検索・分析からレポート作成まで、人間の思考プロセスをシミュレートすることができます。

ユーザーにとって、"AutoGLM熟考 "の正体は開発者の言葉であり、開発者はユーザーが特徴点に集中するのを助け、ユーザーを誘導することはできるが、最終的にはユーザーに代わってそれを自己定義する方法はない。

開発者にとっては、「AutoGLM Contemplations」の議論はManus, Deep Researchである、知恵スペクトル牛AI検索、ブラウザ利用AutoGLMの機能を分解し、その能力の限界について議論する必要がある。AutoGLMの思索を単純に煮詰めると、次のようになる。マヌス例えば、マヌスには計算タスクができるが、"AutoGLM Meditation "にはできないといった明らかな誤りがある。

AutoGLM Meditationの基本的な機能を理解することから始めましょう。

使い古された Clear Words ブラウザ・プラグイン AutoGLMとAutoGLM Contemplationは類似していますが、現在では「AutoGLM」製品ラインとして統一されており、「AutoGLM Contemplation」クライアントを使用する前にプラグインから始めることをお勧めします。両者の機能は同等ではなく、プラグインは（現在のところ）クライアントよりも強力です。

しかし、クライアントは現在、「ホワイトリスト外」のサイトにもアクセスできるのに対し、プラグインは現在、情報の範囲を制限している：

したがって、AutoGLM Contemplation機能の可能性は、それを理解するためにクライアントを使用することで、より良く引き出すことができる。

1.クライアントをダウンロードし、プラグインをインストールする必要があります。

ダウンロード：https://autoglm-research.zhipuai.cn/#get_started

2.最初のタスクを開始する（一緒に操作し、プロセスを観察する）

从 https://aisharenet.com/ 找到所有免费的“AI翻译”工具，仅收集有客户端的AI翻译工具。

以AutoGLM为引，分析AI执行桌面操作任务的产品形态
提示：这并不是一个好的任务描述，因为网站并没有提供站内搜索功能，以及明确的AI翻译工具入口，更好的任务描述是：从https://aisharenet.com/tag/aifanyi/ 开始翻页，从列表信息中找到所有免费且有客户端的AI翻译工具。
3.タスクの実行プロセスを観察する（これは、ツールの実行時に自動的に表示されるページの一部のスクリーンショットです）
反省以AutoGLM为引，分析AI执行桌面操作任务的产品形态

まず、検索ボックスを見つけ、「AI翻訳」と入力して検索を実行する。以AutoGLM为引，分析AI执行桌面操作任务的产品形态

Bingの検索インターフェイス（サイトの検索ボックスはBing検索へのジャンプです）に移動し、リンクを訪問し始める... 以AutoGLM为引，分析AI执行桌面操作任务的产品形态
つ目のリンクにアクセスすると、AI翻訳ツールのカタログが見つかった。
AI翻訳ツールのカテゴリ分けされたリストをリンクごとに閲覧し、自動ページめくりを実行する。
2ページ目にアクセスし、要約タスクを開始する以AutoGLM为引，分析AI执行桌面操作任务的产品形态
研究報告書全文の出力

4.重要なテストリンク "ログイン "の利害関係者が相互作用のプロセスを観察するために自分のタスクを起動するカバーされていない、タスクは、ログインの相互作用のアクションを呼び起こすことができます。(Xiaohongshuの最初のログアウト）。

DEEPSEEKの動画生成に関するLittle Red Bookの知識を集める

見つける

ナレッジ・デプス・リサーチ・ツール、得られた結果から逆算すると、このツールのプロンプトは研究論文の執筆を中心にデザインされており、他のタイプのタスクには適していないことがわかる。

コア・コンピテンシー

保留タスク計画の生成
ブラウザを起動する
ブラウザ内での閲覧（テキストのみ）、クリック、タイピング
タスク判断ノード（一部）：Web閲覧完了、ページを見て次のタスクを判断、ログインの要否を判断、情報取得終了

ブラウザのビジュアル・インタラクションを中心としたオートメーションだが、情報収集と調査レポートの作成に限って言えば、現時点ではすべての機能をリリースしているようには見えない。

一言で言えば、AutoGLM熟考 vs. ウィズダムスペクトラム・ブルの違い

前者はブラウザを視覚的に操作し、情報収集のプロセスを自動化し、検索やページ訪問のための「入力」アクションだけを生成する。

後者はデスクトップを視覚的に操作し、情報収集プロセスの自動化に限定されず、デスクトップを自由に操作してタスクを完了させる。

一文要約 AutoGLM Contemplation vs. ClearSpeak ブラウザープラグインの違い

前者はブラウザを視覚的に操作し、後者はPCクライアントとしてより多くのインターフェイスと相互作用することができる。

後者は、ブラウザの機能を視覚的に操作することに変わりはなく、ブラウザのプラグインとして使用することで、訪問したページの情報をネイティブに操作することができる。

デスクトップ操作を行うAIの話題に戻ろう。

まず質問から始めよう：

AutoGLMの観照的コア・コンピテンシーブラウザ利用どちらも、綿密な調査報告書の作成ストームなぜAutoGLM Contemplationを使うのか？

その答えは以下の通りである：

AutoGLM Contemplationは、情報収集から調査報告書作成までの完全なプロセスで設計された、消費者向けの製品化されたツールです。

複雑なローカル・インストール環境を設定する必要はなく、クラウド・コンピューティングのパワーを活用して、ローカルでのやり取りをコラボレーションすることができる。

STORMは固定的な情報収集源であり、オープンでない情報にはアクセスできないが、AutoGLMはブラウザを使った自動化を考えている。非公開の情報収集.

この頃には、ツール間のいくつかの違いを漠然と認識しているだろうか？実際、問題は非常に単純で、デスクトップ文字自動化ツールをまとめると以下のようになる。

デスクトップタスク自動化のための2種類のソリューション

1.伝統的な固定アンカーポイントを設定し、プロセスごとに実行する。例：マイクロソフトPA、シャドウブレード。

2.純粋に視覚的なインタラクション。Browser-Useを使用して、大規模なモデルの判断を支援し、インタラクションを生成する。例：AutoGLM熟考。

3.ハイブリッド：Shadowbladeはまた、いくつかのノード（特にコンテンツ抽出セッション）は、純粋に視覚的な相互作用を使用して、固定ワークフローに基づいてすることができます。より典型的なのは、マイクロソフトの自動顧客サービススケジューリングツールで、AIの導入後、固定SOP前提の顧客サービスは、より人道的に働くようになる。

純粋に視覚的なインタラクション・ソリューションに焦点を当てて、名前を考えてみよう。デスクトップ・タスク・オートメーション・インテリジェンス

デスクトップ・タスク自動化インテリジェンスには何ができるのか？

一般的な能力：

デスクトップ視覚認識、デスクトップ機能操作

スケーラビリティ：

シングルインテリジェンス、マルチインテリジェンスがタスクを実行する。多重知能は一般的に、タスクの計画、タスクの分岐、タスクの調整、情報の集約をそれぞれ行うために使われる。

特定のタスクに対して、決まった「ツール」や決まった「ワークフロー」を参照してデスクトップ操作を実行する。例えば、計算、プログラミング、質の高い情報源の検索などだ。マヌスを誰にとっても強力にしているのは、いくつかの分岐タスクを実行するプログラミング・ツールを統合していることだ。

ローカル、リモートのデータソースを拡張（アクセス）する。

制限：

デスクトップタスク自動化インテリジェンスは、必ずしもデスクトップを純粋に視覚的に操作する必要はありません。ブランチタスクに「ナレッジ」の検索が含まれている場合、ナレッジの検索結果と直接インターフェイスする方が良い場合もあり、デスクトップ操作はかえって非効率になります。したがって、デスクトップインテリジェンスの価値を実現するには、合理的な拡張機能が役立ちます。

デスクトップ・タスク・オートメーション・インテリジェンスの利点

AutoGLMの熟考は、オープンでない知識の検索に限定されており、知識検索のシナリオには最適だが、より大きな価値を発揮できる点は、インターフェイスに動的な情報が含まれ、反復的な操作を自動化する場合である。このコンバージェンス AIによるタスク実行の自動化をうまく行い、タスク実行プロセスを保存することで、その後に循環させることができる。

要約すると、情報をチェックし、重複作業を行う。