最近、世界初の汎用知能(エージェント)のひとつである マヌス Manusはプレビュー版をリリースしたが、公式結果は驚くべきものだ。提案」レベルにとどまる多くのAIとは異なり、マヌスは強力なタスク計画能力を示すだけでなく、タスクの実行においても質的な飛躍を達成し、まさに計画から実行までのクローズドループを実現している。では、Manusはどのように機能するのか?この記事では、Manusのワークフロー、メモリ、フロントエンドのインタラクションを深く理解し、コンピュータオペレーション、ディープリサーチ、コーディングエージェント、その他のテクノロジーをどのように統合し、"less is more "の目標を達成しているかを分析する。"Less is more" 知的創発。
I. 紙にサヨナラ:マヌスの「計画-実行-更新-納品」ワークフロー
多くのAIアシスタントは、計画を立てるのは得意だが実践するのは難しいが、Manusは異なるアプローチをとり、人間の仕事の習慣に近い方法で計画から実行までシームレスに移行する。その核となるのは、ManusがMarkdown形式のタスクリスト(todo.md)を作成し、このリストを通じてタスクのライフサイクル全体を管理することだ。このアプローチは、計画エージェントのコンテキストを通してタスクを管理する多くのシステムよりも、はるかに直感的で効率的です。
上図のように、これは「7日間の日本旅行と企画書」を計画するためのtodo.mdファイルの例である。完了すべきタスクをリストアップするだけでなく、タスクの完了ステータスを"[ ]"や"[x]"でマークしています。これは、直感的でわかりやすいだけでなく、エージェントが管理・更新しやすく、Manusの「記憶」となっています。
1.計画:すべてはtodo.mdから始まる
Manusのワークフローは、網羅的なToDoリストから始まります。このリストはMarkdownファイルの形で、タスクの出発点であるだけでなく、エージェントの記憶でもあります。ユーザは、Manusに何をすべきかの明確なガイドを提供するために、可能な限り詳細にすべてのタスクをリストする必要があります。
2.実施:コンピュータ操作、綿密な調査、コーディング・エージェント、3つのアプローチ
明確なタスクリストを手にしたマヌスは、ひとつひとつのタスクに取り組み始めた。そうすることで、マヌスはコンピューター操作、綿密なリサーチ、コーディング・エージェントの強力なコンビネーションを発揮した。
- 徹底研究Manusは強力な情報検索とウェブページのインタラクション機能を備えています。一度に大量のウェブページを検索することができ(デモでは23ページ)、スクロールやクリックなど、ブラウザ上での様々なユーザーアクションをシミュレートすることができます。各ステップはスクリーンショットに記録されるため、ユーザーは簡単に自分のステップを辿ることができます。
- ブラウズ
- 下にスクロールしてください:
- クリック
- ブラウズ
- コンピュータ操作Manusは、仮想マシンのオペレーティングシステムと対話し、ターミナルコマンドを実行し、ファイルを管理(作成、削除、変更)し、ブラウザを操作し、本当の「コンピュータの使用」を実現することができる。
Manusはターミナルコマンドを実行する
プロジェクト文書の管理
コーディング・エージェントコーディング作業については、マヌスではコーディング専門のエージェントに任せている。その効果は クロード HTML、Pythonなどの高品質なコードを生成できるモデル。
Manusによって生成されたHTMLコード
3.アップデート:リアルタイムのトラッキング、進捗状況の一覧表示
タスクが実行されると、Manusはリアルタイムでtodo.mdファイルを更新し、完了したタスクに"[x]"マークを付けます。こうすることで、タスクの進捗が明確に記録され、ユーザーはManusの作業状況を明確に把握することができる。
Manusがtodo.mdファイルを更新
4.配達:手の届く範囲での結果
Manus は、todo.md ファイル内のすべてのタスクが完了とマークされると、最終成果物を生成します。ユーザーエクスペリエンスを向上させるため、Manusはユーザーが生成されたファイルを表示および管理できる専用のセッション ファイル管理インターフェイスも提供しています。
マヌスで作成された納品書
マヌス・セッションのファイル管理
記憶する」以上のもの:マヌスの自己学習型記憶メカニズム
Manusはユーザーのコマンドを記憶するだけでなく、そこから学習します。そのユニークな知識と記憶メカニズムにより、特定のタスクに対するユーザーの好みやベストプラクティスを学習し、同様のタスクに遭遇したときに自動的にその教訓を適用します。
つまり、特定のタスクの処理方法をManusに「教える」ことで、生産性と精度を継続的に向上させることができます。例えば、履歴書を処理する際、結果を表にまとめるようManusに指示することができます。Manusは次に同じようなタスクに遭遇した際、指示を繰り返すことなく、自動的にこれを行います。この "Learning by doing "の能力こそが、Manusを非常にスマートにしているのです。
単なる「作品」ではない:マヌスの究極のインタラクティブ体験
Manusはパワフルなだけでなく、ユーザーエクスペリエンスにも優れている。セッション再生のスムーズな出力効果と右側のリアルタイムの進捗追跡により、ユーザーはいつでもManusの作業状況を知ることができ、まるで「見える」AIアシスタントがいるかのようだ。このデザインはユーザーエクスペリエンスを高めるだけでなく、Manusに対するユーザーの信頼も強めている。
リアルタイムの進捗状況を追跡できるマヌス・セッション・インターフェイス
IV.まとめ:少ないことはより多く、知性が現れる
つまり、質の高いデータ、強力なモデル、柔軟なアーキテクチャ、堅実なエンジニアリングを通じて、コンピューターオペレーション、深いリサーチ、コーディングエージェント、その他の能力が、単に機能を積み重ねるのではなく、自然に生まれてくるということだ。
Manusは、コンピュータオペレーション、綿密なリサーチ、コーディングエージェント、その他のテクノロジーを組み合わせ、シンプルで効率的なMarkdownタスク管理と優れたフロントエンドのインタラクションデザインにより、タスクの計画から実行までの真のクローズドループを実現しています。この "less is more "の設計哲学と汎用エージェントの分野におけるブレークスルーが、Manusがあえて「汎用エージェントの再定義」を謳う理由なのかもしれない。
この記事は、主に分析するために公式デモに基づいており、偏差の理解があるかもしれません、読者は修正を交換し、共同で共通のエージェントの将来の発展を模索するために歓迎されている。
マヌスについてですが、昨夜も多くの兄が議論していましたが、実際には、問題は非常に単純で、マヌスは最初の練習をリリースした原則的に説明されています:マヌス ユニバーサル・インテリジェンスとは何ですか?とAIGCLINKの答えは基本的に同じである。
エージェントに対するAIGCLINKの見解