Comment fonctionnent les intelligences polyvalentes, telles que Manus ?

Les intelligences génériques, telles que Manus, sont conçues pour imiter les capacités humaines de résolution de problèmes en comprenant l'intention de l'utilisateur, en décomposant les tâches complexes et en collaborant pour atteindre les objectifs fixés.Le cœur de Manus est son architecture multi-agents, qui permet à plusieurs agents intelligents de travailler ensemble sur des tâches génériques proposées par l'utilisateur. Le flux de travail peut être résumé par les étapes clés suivantes :

Reconnaissance de l'intention : la première étape pour comprendre les besoins des utilisateurs

Le point de départ de l'exécution intelligente d'une tâche est une compréhension précise des besoins de l'utilisateur ; le module de reconnaissance d'intention de Manus prend d'abord l'entrée de l'utilisateur, par exemple une instruction textuelle. Le système procède ensuite à la reconnaissance de l'intention et à l'extraction des mots-clés nécessaires. Par exemple, si l'utilisateur saisit "Je veux voyager au Japon et j'ai besoin d'un plan de voyage", Manus analysera le mot-clé "japan-trip" et identifiera le type de tâche comme étant " voyage".

Lorsque l'utilisateur saisit une exigence plus générale et qu'il est difficile pour le système d'identifier avec précision son intention, Manus adoptera une stratégie de guidage et entamera plusieurs cycles de dialogue avec l'utilisateur pour clarifier les détails de l'exigence étape par étape. En outre, le système permet également aux utilisateurs de télécharger des documents, des images et d'autres informations diversifiées en tant que matériel auxiliaire pour la reconnaissance de l'intention, afin de comprendre l'intention de l'utilisateur de manière plus complète.

 

Initialisation des tâches : construction d'un environnement d'exécution isolé

Après avoir saisi avec précision l'intention de l'utilisateur, Manus entrera dans la phase d'initialisation de la tâche. Le système utilisera les mots-clés identifiés pour la tâche, par exemple "japan-trip", pour créer automatiquement un dossier distinct lié à la tâche, qui sera utilisé pour stocker tous les produits intermédiaires et les résultats finaux au cours de l'exécution de la tâche.

De plus, Manus démarre un conteneur Docker distinct pour chaque tâche, ce qui garantit l'isolation, c'est-à-dire que chaque tâche s'exécute dans un environnement propre et isolé, garantissant l'indépendance de l'exécution des tâches et évitant les interférences entre les différentes tâches. Le système nettoie également automatiquement le conteneur Docker une fois les tâches terminées, ce qui permet de conserver un système propre et efficace.

 

Planification étape par étape : modèles de raisonnement pour démanteler des tâches complexes

L'étape suivante de l'initialisation des tâches est la planification des étapes, qui consiste à Manus Manus utilise un puissant modèle de raisonnement pour décomposer les tâches en étapes détaillées, un élément clé de l'automatisation des tâches complexes. Le modèle d'inférence décompose intelligemment une grande tâche en une série de sous-tâches exécutables en combinant les résultats de la reconnaissance d'intention et les informations contextuelles sur la tâche.

Par exemple, pour l'exigence "Planification d'un voyage au Japon", le modèle d'inférence peut la décomposer en plusieurs étapes telles que "recherche de conseils de voyage au Japon", "recherche d'informations sur les billets d'avion et les hôtels", "Prendre des dispositions détaillées pour le voyage", etc. Les informations relatives aux étapes fractionnées seront écrites dans le dossier de la tâche sous l'onglet [todo.md](https://t.co/tYosIUPa9o) pour former une liste de tâches structurée qui guide l'exécution des tâches suivantes.

 

Exécution des tâches : collaboration multi-agents pour un fonctionnement efficace

La phase d'exécution des tâches est le cœur de l'activité de Manus. Le système traverse le [todo.md](https://t.co/tYosIUPa9o) qui contient une liste de tâches au format Markdown.[ ] indique une tâche à effectuer.[x] il s'agit alors d'une tâche accomplie.

Le centre de planification des tâches de Manus, ou le fil principal comme on peut l'appeler, lit les tâches à exécuter une par une et lance ce que l'on appelle "l'appel de fonction" en combinant les informations sur le contexte de la tâche. L'"appel de fonction" signifie en fait que le système appelle les modules de fonction prédéfinis, c'est-à-dire divers types d'agents, en fonction des exigences de la tâche. Manus dispose d'une variété d'agents intégrés, tels que l'agent de recherche, l'agent de code, l'agent d'analyse de données, etc.

Sur la base du résultat de l'"appel de fonction", Manus planifie l'agent correspondant pour exécuter la tâche, et tous les produits de contenu générés par l'agent pendant l'exécution, tels que les résultats de la recherche, les fichiers de code, les rapports d'analyse, etc. sont écrits dans le dossier des tâches du conteneur Docker pour réaliser une gestion et un stockage unifiés des données. L'agent est écrit dans le dossier de tâches du conteneur Docker afin d'unifier la gestion et le stockage des données. Après l'exécution de la tâche, le thread principal met à jour le fichier [todo.md](https://t.co/tYosIUPa9o) marquer la tâche terminée et passer à la tâche suivante de la liste jusqu'à ce que toutes les étapes soient terminées.

 

Synthèse : produire des résultats et recueillir les commentaires des utilisateurs

(coll.) échouer (un étudiant) [todo.md](https://t.co/tYosIUPa9o) Une fois que toutes les tâches du fichier sont marquées comme terminées, Manus entre dans l'étape finale de la synthèse. Le fil conducteur consolide et systématise tous les produits de contenu générés au cours de l'exécution des tâches pour former la sortie structurée finale conformément aux exigences initiales de l'utilisateur.

Les résultats finaux des tâches seront présentés sous diverses formes telles que des documents, du code, des images, des liens, etc. et seront mis à la disposition des utilisateurs pour qu'ils les consultent ou les téléchargent. Afin d'optimiser en permanence les performances du système et l'expérience des utilisateurs, Manus recueille également la satisfaction des utilisateurs quant à la qualité des tâches accomplies et des résultats finaux, ce qui constitue une référence précieuse pour les itérations et les mises à jour ultérieures.

 

Le flux de travail des agents de recherche expliqué : imiter le comportement de navigation humain

Le cœur de la solution Manus réside dans la conception de l'agent qui exécute les tâches et dans le processus d'ordonnancement du fil d'exécution principal. En prenant l'agent de recherche comme exemple, une compréhension plus approfondie de ses étapes d'exécution pour des tâches telles que "Plan de voyage au Japon" peut nous aider à mieux comprendre le fonctionnement de Manus.

  1. Extraction de mots-clés et recherche : l'agent de recherche commence par obtenir des informations sur le mot-clé, par exemple "japan-trip", et appelle Google et d'autres API tierces pour lancer une requête de recherche afin d'obtenir 10 à 20 résultats de recherche pertinents.
  2. Simulation de navigation sur le web : l'agent de recherche simule ensuite le comportement d'un utilisateur naviguant sur une page web. Il "clique" sur le premier lien des résultats de la recherche, utilise la technologie du navigateur sans tête pour parcourir le contenu de la page web, capture le texte de la page web et fait une capture d'écran de la page web pour obtenir des informations visuelles.(Remarque : un navigateur sans tête est un navigateur qui fonctionne sans interface graphique et qui est couramment utilisé pour automatiser la manipulation du web et l'exploration des données).
  3. Extraction d'informations multimodales : ensuite, l'agent de recherche appelle le modèle qui prend en charge les entrées multimodales* (Remarque : les modèles multimodaux sont capables de traiter simultanément plusieurs types de données tels que du texte, des images, etc.)En se basant sur les exigences de la tâche en cours et les informations de la page web, l'agent extrait des informations valables de la page web actuellement consultée, par exemple en déterminant si le contenu de la page web contient des résultats qui répondent aux exigences du plan de voyage. S'il n'y a pas suffisamment d'informations sur la page web en cours, l'agent peut égalementAnalyser la structure d'une page web* pour trouver et renvoyer le prochain élément de bouton susceptible de contenir des informations utiles.
  4. Collecte itérative d'informations : l'agent de recherche simule les clics et les défilements de l'utilisateur pour obtenir du contenu web et des informations visuelles supplémentaires. Ce processus est répété plusieurs fois jusqu'à ce que les informations collectées répondent aux exigences de la tâche.
  5. Sauvegarde du contenu : enfin, le SEARCH AGENT sauvegarde toutes les informations collectées dans le dossier de la tâche afin de fournir une base de données pour les étapes suivantes.

Le cœur de l'agent de recherche est de simuler le comportement réel des utilisateurs qui naviguent sur les pages web, ce qui lui permet de localiser et d'extraire avec précision les informations requises à partir de l'énorme quantité d'informations sur l'internet, tout comme les êtres humains. L'application de navigateurs sans tête et de modèles multimodaux est le support technique clé pour atteindre cet objectif.

 

Agent de code et agent d'analyse de données : rationalisation des tâches de code et d'analyse de données

Par rapport à l'agent de recherche, l'agent de codage et l'agent d'analyse des données ont un flux de travail relativement simple mais tout aussi efficace.

L'agent de code est principalement responsable de la génération et de l'exécution du code. Lorsqu'il reçoit une tâche d'écriture de code, l'agent de code crée un fichier de code local, par exemple un code Python ou un code HTML, en fonction des exigences de la tâche, et écrit le code généré dans le fichier. Pour les tâches d'analyse de données, l'agent de code peut générer du code Python, tandis que pour la présentation des résultats, il peut générer du code HTML pour la présentation visuelle. L'agent de code exécute ensuite le code par le biais d'appels système et enregistre les résultats dans le dossier de la tâche. Pour permettre aux utilisateurs de voir plus facilement comment le code est exécuté, Manus fournit également un service de prévisualisation du code qui permet d'avoir un aperçu du contenu du fichier HTML.

L'agent d'analyse de données se concentre sur les tâches de traitement et d'analyse des données. Son flux de travail est similaire à celui d'un agent de code, mais la principale différence est qu'un agent d'analyse de données se concentre davantage sur la mise en œuvre de la logique d'analyse des données et sur l'exploration des données.

 

Perspectives d'avenir : une intelligence multi-agents en constante évolution

Bien que Manus ait démontré de fortes capacités dans le domaine des intelligences de tâches à usage général, il y a encore beaucoup de place pour l'amélioration de ce type de produits multi-agents.

Premièrement, dans le domaine de la gestion de la dépendance à l'égard d'un mandat, l'actuelle [todo.md](https://t.co/tYosIUPa9o) Les tâches de la tâche présentent des dépendances plus linéaires. À l'avenir, les DAG (graphes acycliques dirigés) pourront être introduits. (Note : DAG, Directed Acyclic Graph, un modèle graphique pour représenter les dépendances des tâches et les séquences d'exécution, permet de représenter des flux de tâches plus complexes). pour permettre des dépendances de tâches plus complexes et plus souples afin de répondre aux exigences de scénarios plus complexes dans le monde réel.

Deuxièmement, en ce qui concerne la précision et la fiabilité de l'exécution des tâches, il est possible d'introduire un agent de test automatisé capable d'évaluer et de juger automatiquement les résultats de la tâche. Si l'évaluation d'une certaine étape est trop faible, le système peut revenir à un nœud de tâche précédent et réexécuter l'étape concernée, de manière à réaliser une correction et une optimisation automatiques de la tâche.

En outre, la convergence des modes de collaboration entre l'homme et l'ordinateur est également un développement important. manus peut permettre des modes hybrides d'automatisation complète et d'intervention de l'utilisateur. Par exemple, après l'exécution d'une étape, le système peut d'abord demander l'avis de l'utilisateur, et si ce dernier ne donne pas d'avis dans un certain délai, il continuera automatiquement à fonctionner, trouvant ainsi un équilibre optimal entre l'automatisation et la flexibilité.

 

Résumé et défis

Dans l'ensemble, Manus a fait des progrès significatifs dans sa mise en œuvre technique, et son expérience d'interaction globale se compare favorablement à d'autres produits similaires. Cependant, d'un point de vue technique, Manus dépend encore fortement de la capacité du modèle sous-jacent. On suppose que Manus peut utiliser des modèles légers pour la reconnaissance des intentions, tandis que la planification des tâches et le raisonnement peuvent s'appuyer sur les modèles Profondeur de l'eau-R1 Ces modèles linguistiques à grande échelle. Pour la reconnaissance d'images et la génération de codes, des modèles avancés tels que Claude-3.7-Sonnet sont également la technologie de choix de Manus.

élevé jeton La consommation indique que le contrôle des coûts deviendra un défi majeur pour la popularité d'applications telles que Manus. À l'avenir, la manière de réduire efficacement les coûts des jetons et d'améliorer la précision de l'exécution des tâches et la satisfaction des utilisateurs sera la direction clé que tous les produits multi-agents, y compris Manus, devront continuer à explorer et à optimiser. Il reste à voir si Manus peut être utilisé à grande échelle et être largement reconnu sur le marché dans des applications plus pratiques.

通用任务智能体,例如 Manus,是如何工作的?
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...