マヌスのような汎用タスク・インテリジェンスはどのように機能するのか？

58.3K 00

Manusのような汎用タスクインテリジェンスは、ユーザーの意図を理解し、複雑なタスクを分解し、目標を達成するために協力することで、人間の問題解決能力を模倣するように設計されている。Manusの中核は、マルチエージェントベースのアーキテクチャであり、複数のインテリジェントエージェントがユーザーによって提案された汎用タスクで協力することを可能にする。ワークフローは以下の主要ステップに要約される：

インテント認識：ユーザーニーズを理解する第一歩

インテリジェントなタスク実行の出発点は、ユーザーのニーズを正確に理解することです。Manusのインテント認識モジュールは、まず、テキスト命令などのユーザー入力を受け取ります。次にシステムは、入力に対して必要な意図認識とキーワード抽出を行います。例えば、ユーザーが「日本に旅行したい、旅行プランが必要」と入力した場合、Manusはキーワード「japan-trip」を解析し、タスクタイプを「?travel "と認識する。

ユーザーがより一般的な要件を入力し、システムがユーザーの意図を正確に認識することが困難な場合、Manusはガイド戦略を採用し、ユーザーと複数回の対話を開始し、要件の詳細を段階的に明確にします。また、ユーザーの意図をより包括的に理解するために、ユーザーが文書や写真などの多様な情報をアップロードし、意図認識の補助資料とすることもサポートする。

タスクの初期化：分離された実行環境の構築

ユーザーの意図を正確に把握した後、Manusはタスクの初期化フェーズに入る。システムは識別されたタスクキーワード、例えば "japan-trip "を使用して、タスクに関連する別のフォルダを自動的に作成し、タスク実行中のすべての中間生成物と最終結果を保存するために使用される。

さらに、Manusはタスクごとに個別のDockerコンテナを起動し、分離を保証します。つまり、各タスクはクリーンで分離された環境で実行され、タスク実行の独立性を保証し、異なるタスク間の干渉を回避します。また、タスク完了後は自動的にDockerコンテナをクリーンアップし、システムをクリーンかつ効率的に保ちます。

ステップ・バイ・ステップのプランニング：複雑なタスクを解体する推論モデル

タスクの初期化における次のステップは、ステップ計画である。マヌス Manusは、複雑なタスクを自動化するための重要な要素である、タスクを詳細なステップに分解するための強力な推論モデルを使用します。推論モデルは、インテント認識の結果とタスクに関するコンテキスト情報を組み合わせることで、大規模なゴールタスクを一連の実行可能なサブタスクにインテリジェントに分解します。

例えば、「日本旅行の計画を立てる」という要求に対して、推論モデルは、「日本旅行のヒントを検索する」、「航空券やホテルの情報をチェックする」など、複数のステップに分けることができる、「詳細な旅行手配をする "といったように。分割されたステップの情報は、タスクフォルダの [todo.md](https://t.co/tYosIUPa9o) ファイルで、後続タスクの実行を導く構造化されたタスクリストを形成する。

タスク実行：効率的な運用のためのマルチエージェント連携

タスク実行フェーズは、Manusの中核となるオペレーションである。システムは [todo.md](https://t.co/tYosIUPa9o) このファイルにはタスクのリストがMarkdown形式で書かれている。[ ] は実行すべきタスクを示す。[x] であれば、それは完了したタスクを意味する。

Manusのタスクスケジューリングセンター（メインスレッドとも呼ばれる）は、実行されるタスクを1つずつ読み込み、タスクコンテキスト情報を組み合わせて、いわゆる「ファンクションコール」を開始する。ここで言う "ファンクションコール "とは、システムがタスクの要求に応じて、あらかじめ定義されたファンクションモジュール、つまり様々な種類のエージェントを呼び出すことを意味する。Manusには、検索エージェント、コードエージェント、データ分析エージェントなど、様々な種類のエージェントが組み込まれており、それぞれが特定のタイプのタスクに焦点を当てている。

関数呼び出し」の結果に基づいて、Manusはタスクを実行するために対応するエージェントをスケジュールし、検索結果、コードファイル、分析レポートなど、エージェントが実行中に生成したあらゆるコンテンツ製品は、データの統一的な管理と保存を実現するために、Dockerコンテナのタスクフォルダに書き込まれます。エージェントはDockerコンテナのタスクフォルダに書き込まれ、データの一元管理と保存を実現する。タスク実行後、メインスレッドは [todo.md](https://t.co/tYosIUPa9o) ファイルを作成し、完了したタスクに印をつけ、すべてのステップが完了するまで、リストの次のタスクに移る。

まとめ：結果の出力とユーザーフィードバックの収集

(落とす [todo.md](https://t.co/tYosIUPa9o) ファイル内のすべてのタスクが完了とマークされると、Manusは要約の最終段階に入ります。メインスレッドは、タスクの実行中に生成されたすべてのコンテンツ製品を統合および体系化し、ユーザーの初期要件に従って最終的な構造化出力を形成します。

タスクの最終結果は、ドキュメント、コード、画像、リンクなど様々な形で提示され、ユーザーが閲覧またはダウンロードできるようになります。システムのパフォーマンスとユーザーエクスペリエンスを継続的に最適化するため、Manusは完了したタスクの品質と最終結果に対するユーザーの満足度も収集し、その後の反復とアップグレードの貴重な参考資料とします。

検索エージェントのワークフロー解説：人間のブラウジング行動を模倣する

Manusソリューションの核心は、タスクを実行するエージェントとメインスレッドのスケジューリングプロセスの設計にある。検索エージェントを例にとると、「日本旅行プラン」のようなタスクの実行ステップをより深く理解することで、Manusがどのように機能するかをよりよく理解することができる。

キーワード抽出と検索：検索エージェントは、まず "japan-trip "のようなキーワード情報を取得し、GoogleのようなサードパーティAPIを呼び出して検索リクエストを開始し、10-20の関連する検索結果を取得する。
ウェブ閲覧のシミュレーション：次に、検索エージェントは、ウェブページを閲覧するユーザーの行動をシミュレートする。検索結果の最初のリンクを「クリック」し、ヘッドレス・ブラウザ・テクノロジーを使ってウェブページのコンテンツを閲覧し、ウェブページのテキストをキャプチャし、視覚情報を得るためにウェブページのスクリーンショットを撮る。(注：ヘッドレス・ブラウザとは、グラフィカル・ユーザー・インターフェイスなしで動作するブラウザのことで、ウェブ操作やデータ・クロールの自動化によく使われる)
マルチモーダルな情報抽出：次に、検索エージェントはマルチモーダルな入力をサポートするモデルを呼び出す*(注：マルチモーダルなモデルとは、テキストや画像など複数のタイプのデータを同時に扱うことができるモデルのこと)。現在のタスク要件とウェブページ情報を入力として、エージェントは現在表示されているウェブページから有効な情報を抽出し、例えば、ウェブページのコンテンツに旅行計画要件を満たす結果が含まれているかどうかを判断する。現在のウェブページに十分な情報がない場合、エージェントはまた次のことを行う。ウェブページの構造を分析する* 有用な情報を含んでいるかもしれない次のボタン要素を探して返す。
反復的な情報収集：サーチエージェントは、ユーザーのクリックやスクロールをシミュレートし、追加のウェブコンテンツや視覚情報を取得します。このプロセスは、収集された情報がタスクの要求を満たすまで何度か繰り返される。
コンテンツの保存：最後に、SEARCH AGENTは収集したすべての情報をタスクフォルダに保存し、後続ステップのデータサポートを提供する。

サーチエージェントの核心は、ウェブページを閲覧するユーザの実際の行動をシミュレートすることであり、これによって、人間のようにインターネット上の膨大な情報から必要な情報を正確に探し出し、抽出することを可能にする。ヘッドレスブラウザとマルチモーダルモデルの応用は、この目標を達成するための重要な技術支援である。

コード・エージェントとデータ分析エージェント：コード・タスクとデータ分析の合理化

検索エージェントと比べると、コードエージェントとデータ分析エージェントは比較的シンプルだが、同様に効率的なワークフローを持っている。

コードエージェントは、主にコードの生成と実行を担当します。コード生成タスクを受け取ると、コードエージェントは、タスクの要求に応じて、PythonコードやHTMLコードなどのローカルコードファイルを作成し、生成されたコードをファイルに書き込む。データ分析タスクの場合、コードエージェントはPythonコードを生成し、結果プレゼンテーションの場合、視覚的プレゼンテーションのためのHTMLコードを生成する。その後、コードエージェントはシステムコールを介してコードを実行し、結果をタスクフォルダに保存する。コードがどのように実行されるかをユーザーが簡単に確認できるように、ManusはHTMLファイルのコンテンツをプレビューするコードプレビューサービスも提供しています。

データ分析エージェントは、データ処理と分析タスクに焦点を当てます。そのワークフローはコードエージェントと似ていますが、主な違いは、データ分析エージェントはデータ分析ロジックの実装とデータインサイトのマイニングに重点を置いていることです。

将来の展望：進化し続けるマルチエージェント・インテリジェンス

Manusは汎用タスク・インテリジェンスの分野で強力な能力を発揮しているが、このようなマルチエージェント製品にはまだ改善の余地がある。

第一に、委任依存管理の分野では、現在の [todo.md](https://t.co/tYosIUPa9o) タスクの中のタスクは、より直線的な依存関係を示している。将来的には、DAG（有向非循環グラフ）が導入される可能性がある (注：DAG(Directed Acyclic Graph)は、タスクの依存関係や実行順序を表現するためのグラフィカルモデルで、より複雑なタスクフローを表現することができる) より複雑で柔軟なタスク依存関係を可能にし、より複雑な実世界のシナリオ要件に対応できるようにする。

第二に、タスク実行の正確性と信頼性の観点から、自動テストエージェントを導入することができる。自動テストエージェントは、タスクの結果を自動的に評価・判断することができ、あるステップの評価が低すぎる場合、システムは前のタスクノードに戻り、該当するステップを再実行することで、タスクの自動修正と最適化を実現することができる。

manusは、完全自動化とユーザー介入のハイブリッドモードを可能にする。例えば、あるステップが実行された後、システムはまずユーザーからのフィードバックを求め、一定時間内にユーザーからのフィードバックがなければ、自動的に実行を継続することで、自動化と柔軟性の最適なバランスを見つけることができる。

まとめと課題

全体として、Manusはエンジニアリングの実装において大きな進歩を遂げ、その全体的なインタラクション体験は他の類似製品と比べても遜色ない。しかし、技術的な観点から見ると、Manusはまだ基礎となるモデルの能力に大きく依存している。Manusは意図認識に軽量モデルを使用し、タスクのプランニングと推論にはディープシーク-R1 このような大規模言語モデル。画像認識やコード生成では、Claude-3.7-Sonnetのような高度なモデルもマヌス社のテクノロジーとして選ばれている。

高いトークン消費は、コスト管理がManusのようなアプリケーションの普及にとって重要な課題になることを示している。将来的には、トークンのコストをいかに効果的に削減し、タスクの実行精度とユーザーの満足度を向上させるかが、Manusを含むすべてのマルチエージェント製品が探求と最適化を続ける必要のある重要な方向性となるだろう。 Manusが大規模に使用され、市場で広く認知されるかどうかは、より実用的なアプリケーションで確認する必要がある。