L'auteur principal d'OpenManus partage : Comment compléter le cadre de l'agent en trois heures !
La technologie des agents (corps intelligents) s'est répandue cette semaine dans le monde de la technologie à une vitesse sans précédent, et derrière ce boom se cache un bond en avant dans les capacités de modélisation du raisonnement.
Le 5 mars au soir, Manus a fait une entrée fracassante avec une démo puissante qui a instantanément enflammé l'internet. Deux jours plus tard, l'équipe nationale DeepWisdom MetaGPT et CAMEL AI ont chacun lancé les projets open source OpenManus et OWL, reproduisant ainsi rapidement le système de gestion de l'information de l'entreprise. Manus ont une fois de plus enflammé le web et la communauté GitHub, suscitant une discussion large et profonde.
Il est particulièrement remarquable que l'équipe d'OpenManus, avec l'expérience technique accumulée depuis longtemps par MetaGPT, ait achevé la construction du système central en une heure seulement et mis le projet en ligne en trois heures. Cette rapidité étonnante a non seulement permis à OpenManus d'obtenir plus de 10 000 étoiles sur GitHub, mais elle a également attiré l'attention à l'intérieur et à l'extérieur de l'industrie.
Le 8 mars au matin, JQF a invité trois membres principaux de l'équipe OpenManus à donner une session de partage approfondie, visant à analyser les principes de la mise en œuvre technique d'OpenManus et à discuter de la tendance future du développement de la technologie de l'agent.
Les trois invités sont tous des experts chevronnés dans le domaine de l'agent : Siren Hong, premier auteur de l'article MetaGPT (ICLR 2024 Oral) et de l'article Data Interpreter, et l'un des auteurs de l'article AFLOW (ICLR 2025 Oral), dont les résultats de recherche ont été publiés à de nombreuses reprises dans les meilleures conférences universitaires internationales, telles que TPAMI et ICLR, Les résultats de ses recherches ont été publiés dans TPAMI, ICLR et d'autres conférences et revues internationales de premier plan. Liang Xinbing, le principal développeur d'OpenManus. Jinyu Xiang est coauteur d'OpenManus et premier auteur d'AFlow et de SPO.
Dans leurs échanges, les trois invités ont présenté les réflexions prospectives suivantes sur l'orientation future de la technologie des agents, ainsi que sur les défis auxquels l'industrie est confrontée :
- À mesure que les capacités des grands modèles linguistiques (LLM) se développent, le taux de réussite des applications d'agents augmentera considérablement dans de nombreux domaines, en particulier dans des tâches relativement standardisées telles que les quiz d'assurance qualité, les évaluations de compétence en matière de code HumanEval et les problèmes de programmation Python MBPP, pour lesquels un modèle unique a démontré d'excellentes capacités de résolution.
- Cependant, un grand nombre de problèmes réels sont complexes et ont des effets de longue traîne, comme les tâches complexes d'apprentissage automatique, les corrections de bogues de code et les problèmes combinatoires de recherche qui nécessitent l'intégration de plusieurs éléments d'information afin de fournir des réponses efficaces aux utilisateurs. Ces problèmes nécessitent encore une innovation technologique importante pour améliorer les performances des agents, en particulier pour résoudre les problèmes d'"illusion" des modèles.
- Les progrès de l'agent en matière de capacité de planification des tâches dépendent à la fois de l'amélioration de la capacité propre du modèle et de l'assistance d'une architecture externe. Une conception architecturale plus sophistiquée peut aider les agents à mieux comprendre et décomposer les tâches complexes.
- Avec la diversité croissante des outils mis à la disposition des agents, permettre à ces derniers de prendre des décisions précises à partir d'un grand nombre d'outils aux fonctions similaires lorsqu'ils sont confrontés à la même tâche, de choisir l'outil le plus approprié et d'éviter les mauvais choix deviendra un nouveau défi technique.
- La question centrale de la gestion de la mémoire pour les agents est de trouver un équilibre entre le coût et l'efficacité. L'utilisation directe d'informations complètes sur la mémoire, bien qu'elle puisse être gérée par les modèles actuels, entraîne une augmentation significative du temps de traitement et du coût, ce qui affecte sérieusement l'expérience de l'utilisateur plutôt que la dégradation des performances.
- Actuellement, une approche efficace pour résoudre le problème de la gestion de la mémoire consiste à adopter une architecture de corps multi-intelligents ou une stratégie assistée par des outils. Par exemple, les cadres tels qu'OpenManus utilisent généralement des outils de planification pour pré-générer un plan de tâches, décomposer une tâche complexe en plusieurs sous-tâches, avec un partage incomplet de la mémoire entre chaque sous-tâche, et résumer ou compresser le processus après l'exécution de la tâche, réduisant ainsi les coûts de calcul.
- Bien que nous puissions clairement déterminer si l'agent a accompli la tâche correctement dans le test de référence, il reste difficile d'évaluer quantitativement la précision ou la qualité de l'agent dans l'accomplissement de la tâche dans des scénarios d'application réels.
- La clé de la commercialisation d'un agent est de maximiser les tâches et les besoins des utilisateurs dans des scénarios réels, y compris en fournissant des fonctionnalités hautement personnalisées, ce qui est le seul moyen d'inciter les utilisateurs à continuer à utiliser l'agent.
- Un grand nombre de développeurs d'applications étudient activement la possibilité de mettre en place un système de gestion de l'information. Jeton Des schémas d'optimisation de la consommation, tels que des mécanismes de mise en cache ou des techniques de compression de la mémoire au niveau de l'ingénierie, afin de minimiser la longueur du contexte qui doit être transmis pour chaque appel à l'API et de réduire les coûts.
- À l'avenir, l'intégration des capacités de plusieurs petits modèles devrait permettre d'obtenir des résultats comparables, voire supérieurs, à ceux des grands modèles, et d'obtenir des avantages significatifs en termes de vitesse d'inférence, de consommation de jetons et de coût.
Vous trouverez ci-dessous une explication détaillée du contenu de ce partage.
01 Une nuit sur GitHub, la voie rapide technique d'OpenManus
Liang Xinbing : "Après la réunion du groupe du 6 mars, juste après 17 heures, Xiang Jinyu a suggéré qu'avec quelques mesures clés, nous pourrions être en mesure de reproduire l'effet de Manus".
Se souvenant de l'opportunité de lancer le projet OpenManus, Liang Xinbing a déclaré : "Lorsqu'il a vu pour la première fois la vidéo de démonstration de Manus, il a été impressionné par la fluidité de l'expérience d'interaction. Lorsqu'il a vu pour la première fois la vidéo de démonstration de Manus, il a été impressionné par la fluidité de l'interaction dans la vidéo et a jugé intuitivement que Manus devait être un système à intelligence unique. "Comment un corps intelligent unique peut-il obtenir d'aussi bons résultats, et comment planifie-t-il et réalise-t-il des tâches ? C'est très choquant pour moi.
Au cours de la conversation qui a suivi, l'équipe a commencé à explorer la solution technique pour Manus, un produit polyvalent de corps intelligent doté d'une IA et d'une expérience utilisateur impressionnante. Cependant, d'un point de vue technique, Manus est en fait une intégration intelligente de nombreuses technologies fondamentales qui ont été approuvées par l'industrie. En fin de compte, l'équipe a déduit que Manus utilise un mécanisme de planification externe pour coordonner le travail de plusieurs intelligences.
Après le dîner, le développement d'OpenManus a été officiellement lancé et l'ensemble du processus a duré environ trois heures. "À l'époque, nous n'avions pas prévu qu'OpenManus deviendrait aussi populaire aussi rapidement". Liang Xinbing admet.
L'architecture multi-intelligence de Manus expliquée : la délicate synergie de la planification et de l'exécution
Le cœur de Manus est son architecture de système multi-intelligence. Il commence par une décomposition des exigences de l'utilisateur à l'aide de l'outil de planification PlanningTool, qui génère un plan détaillé avec de multiples sous-tâches linéaires. Le système exécute ensuite chaque sous-tâche de manière séquentielle et l'assigne dynamiquement à l'agent le plus approprié, qui exécute la sous-tâche à l'aide de l'outil de planification PlanningTool. ReAct Un modèle cyclique (raisonner et agir) qui fait continuellement appel à l'outil pour accomplir la tâche.
La capacité de planification et la capacité d'utilisation des outils sont les deux piliers de Manus. L'innovation de Manus consistant à intégrer l'outil de planification PlanningTool dans le cadre d'intelligence multiple a été déterminante. Comme le montre la percée du modèle Claude-3.7 dans l'évaluation des compétences du code SWEBench, l'amélioration des performances est en partie due aux progrès du modèle lui-même, et en partie à une planification plus efficace des tâches, et les recherches antérieures de l'équipe MetaGPT dans le projet Data Interpreter ont montré que la planification est essentielle et efficace pour résoudre des problèmes complexes dans le monde réel. Les recherches antérieures de l'équipe MetaGPT dans le cadre du projet Data Interpreter ont également montré que la planification est essentielle et efficace pour résoudre des problèmes complexes dans le monde réel. Par conséquent, l'intégration de capacités de planification dans des cadres multi-intelligence et même mono-intelligence est devenue une orientation importante dans le développement de la technologie des agents.
L'équipe suppose que Manus a peut-être utilisé Claude combiné à son propre modèle de post-formation et à un certain nombre d'optimisations au niveau de l'ingénierie, ce qui améliore considérablement sa capacité à utiliser l'outil dans différents scénarios.
Philosophie de conception d'OpenManus : minimalisme, possibilité de branchement et puissantes capacités de planification
Le concept de conception d'OpenManus peut être résumé par deux mots clés : "minimaliste" et "enfichable". Selon Liang Xinbing, le concept initial consistait à construire un cadre d'agent extrêmement simple, grâce à la combinaison flexible d'outils et d'invites enfichables, afin de réaliser les différentes fonctions de l'agent. Sur la base de cette idée, l'équipe a rapidement développé un mini-cadre d'agent complet.
Les conseils de la Prompt et l'utilisation des outils sont des facteurs clés pour déterminer l'efficacité de l'agent ReAct. Dans OpenManus, Prompt est responsable du contrôle de la logique comportementale globale de l'agent, tandis que les outils définissent l'espace d'action de l'agent. En plus de l'agent ReAct, l'équipe d'OpenManus a mis en place un agent ToolCall léger basé sur la technologie Function Call, qui permet de sélectionner et d'exécuter des outils de manière plus structurée. OpenManus est construit sur l'agent ToolCall.
La conception "pluggable" apporte une grande flexibilité et une grande extensibilité, permettant aux développeurs de combiner des outils de différents scénarios pour créer rapidement de nouveaux agents. Les développeurs peuvent rapidement créer de nouveaux agents en combinant librement des outils provenant de différents scénarios. La définition des outils est très facile, il n'est pas nécessaire d'écrire une logique interne complexe, il suffit de modifier l'espace d'action de l'agent (outils), et les outils eux-mêmes doivent avoir une bonne combinabilité, et OpenManus vise à rendre la couche d'abstraction plus concise et plus claire. En fournissant un riche ensemble d'outils et en permettant à plusieurs agents d'être équipés de différentes combinaisons d'outils, OpenManus est capable d'étendre facilement ses capacités dans divers scénarios d'application.
Les capacités de planification sont également essentielles. OpenManus s'appuie sur les points forts de Manus en matière de planification en permettant la décomposition des tâches grâce à l'outil PlanningTool afin d'aborder efficacement les complexités du monde réel.

OpenManus Workflow : Tâches dynamiques et exécution collaborative
Le flux de travail d'OpenManus est clair et efficace. Lorsqu'il reçoit une demande d'un utilisateur, le système utilise d'abord l'outil PlanningTool pour générer un plan avec des sous-tâches linéaires et écrit le plan dans un fichier markdown. OpenManus analyse ensuite le plan et exécute chaque sous-tâche à tour de rôle. Au fur et à mesure de l'exécution de chaque sous-tâche, le système affecte dynamiquement la tâche à l'agent le plus apte à la gérer, équipé d'un ensemble d'outils différents pour traiter les différents types de tâches.
L'allocation dynamique des agents est l'un des points forts d'OpenManus. Ce mécanisme d'allocation flexible permet au système de sélectionner l'agent le plus approprié pour exécuter la tâche en fonction des besoins spécifiques et du contexte de la tâche, améliorant ainsi l'efficacité et la qualité du traitement de la tâche. Actuellement, OpenManus utilise des expressions régulières pour attribuer les tâches aux agents. Si une tâche ne peut pas être attribuée à un agent spécifique, elle sera exécutée en utilisant l'agent configuré par défaut.
À l'avenir, l'équipe d'OpenManus envisage également d'introduire un grand modèle de langage (LLM) pour s'occuper de l'affectation des tâches aux agents. Cependant, l'utilisation du LLM pour la reconnaissance de l'intention et l'affectation de l'agent pour chaque exécution de tâche augmentera sans aucun doute le coût de calcul et la latence.
L'avenir d'OpenManus : Optimisation continue et développement de la communauté
Afin d'améliorer encore les performances et l'expérience utilisateur d'OpenManus, l'équipe prévoit de travailler sur les priorités suivantes :
- Capacités de planification améliorées : PlanningTool est continuellement optimisé pour gérer des scénarios de décomposition des tâches et de planification plus complexes.
- Introduction d'examens normalisés : des ensembles d'analyses comparatives de l'industrie tels que GAIA/TAU-Bench/SWE-Bench sont utilisés pour évaluer et optimiser en permanence les performances d'OpenManus.
- Adaptation élargie du modèle : étendre le soutien du modèle de Claude-3-5 à DeepSeek V2.5 et de nombreux autres modèles pour optimiser les scénarios d'application à faible coût.
- Permet le déploiement en conteneur : simplifie l'installation et l'utilisation d'OpenManus, réduisant ainsi la barrière à l'entrée pour les utilisateurs.
- Riche bibliothèque d'exemples : davantage d'exemples pratiques et d'analyses approfondies des réussites et des échecs ont été ajoutés pour aider les utilisateurs à mieux comprendre et utiliser OpenManus.
- Développement des applications frontales et dorsales : développement d'une interface utilisateur conviviale afin d'améliorer l'interaction avec l'utilisateur.
- RAG Intégration du module : intégrer le module RAG (Retrieval Augmentation Generation) pour fournir à l'agent une base de connaissances externe afin d'améliorer ses capacités d'acquisition de connaissances et de raisonnement.
Liang Xinbing a déclaré que Manus avait fait un très bon travail en matière d'interaction avec les produits et qu'il y avait beaucoup de choses à apprendre de lui. À l'heure actuelle, l'effet d'OpenManus est encore relativement limité et l'équipe n'a pas procédé à un réglage des effets spéciaux.
L'objectif initial d'OpenManus est d'obtenir les mêmes résultats que le Manus original. À long terme, l'équipe espère pouvoir s'appuyer sur la vaste communauté des logiciels libres pour optimiser en permanence le système Manus. Ordinateur Les capacités de base telles que l'utilisation de l'ordinateur, l'utilisation du navigateur et l'utilisation de la planification, ainsi que les capacités d'invocation d'outils, permettent à OpenManus d'atteindre des niveaux plus élevés d'émergence de l'intelligence.
02 MetaGPT Team : des années de précipitations techniques, trois heures pour reproduire Manus.
Siren Hong : "En fait, notre équipe a accumulé des années d'expérience technique dans le domaine de l'automatisation et des cadres de corps intelligents pour les scénarios d'IA."
L'équipe MetaGPT est depuis longtemps engagée dans la recherche sur la technologie des agents et l'open source. Au cours des deux dernières années, elle a continué à mettre en open source les résultats de ses recherches et a rédigé des articles universitaires et des rapports techniques de grande qualité, contribuant ainsi activement à la communauté. Ces résultats incluent :
- MetaGPT : un cadre de métaprogrammation multi-intelligence pionnier qui expose l'idée centrale de la collaboration multi-intelligence.
- Data Interpreter : un puissant agent de science des données qui démontre le grand potentiel du LLM dans le domaine de l'analyse des données.
- AFlow : un cadre de génération automatisée de flux de travail d'agents qui permet d'explorer et d'optimiser automatiquement les combinaisons d'agents.
- FACT : Technologie de réécriture du contexte, qui améliore efficacement la précision de la recherche multifactorielle.
- SELA : un agent LLM amélioré par la recherche arborescente pour l'apprentissage automatique des machines qui améliore considérablement les performances d'AutoML.
- Self-Supervised Prompt Optimization : une méthode d'optimisation de l'invite auto-supervisée qui améliore l'efficacité et l'efficience de l'ingénierie de l'invite.
- SPO (https://www.modelscope.cn/studios/AI-ModelScope/SPO) : outil open source d'optimisation des mots repères pour les scénarios avec peu d'échantillons ou sans notation explicite.
- Atom of Thoughts for Markov LLM Test-Time Scaling : an Atomic Thinking Approach to Enhance LLM Reasoning in Markov Decision Processes (approche de la pensée atomique pour améliorer le raisonnement LLM dans les processus décisionnels de Markov).
Le cadre MetaGPT : une pierre angulaire pour la collaboration multi-intelligence
L'équipe de MetaGPT a estimé que si les modèles à grande échelle de l'époque avaient fait preuve d'une grande puissance pour les tâches générales, la résolution efficace de problèmes complexes dans la société humaine nécessitait toujours un démantèlement atomistique du problème et l'incorporation d'un processus plus conforme aux habitudes humaines de résolution des problèmes.
"Vous connaissez peut-être le concept des procédures opérationnelles standard (POS). En attribuant des SOP à différents rôles et en tirant parti de l'expertise et des capacités des outils de chaque rôle, nous pouvons améliorer de manière significative les performances des grands modèles sur des problèmes complexes". Le cadre MetaGPT est basé sur ce concept et propose une architecture corporelle multi-intelligente avec des SOP intégrées, visant à réaliser les capacités de méta-apprentissage ou de métaprogrammation des intelligences", explique Siren Hong.
Cette approche a permis d'obtenir des améliorations significatives dans des benchmarks tels que HumanEval et MBPP, surpassant le modèle GPT-4 de l'époque. L'équipe de MetaGPT a également validé cette idée dans certains scénarios de développement de logiciels typiques, tels que le mini-jeu classique 2048 et le jeu Snake. Le taux de réussite global de MetaGPT est nettement supérieur à celui d'autres frameworks open source au cours de la même période.
Data Interpreter : un assistant intelligent pour la science des données
En s'appuyant sur le cadre MetaGPT et la conception des intelligences, l'équipe a réalisé que les intelligences nécessitaient également des capacités de planification et d'utilisation d'outils plus robustes, en particulier pour résoudre des problèmes d'apprentissage automatique ou de modélisation de données.
D'une part, les processus d'apprentissage automatique/de modélisation des données peuvent souvent être planifiés avec les capacités des grands modèles, qui peuvent se concentrer davantage sur l'exécution des tâches et la mise en œuvre. D'autre part, lorsqu'on travaille avec des données tabulaires volumineuses, il n'est pas possible de saisir directement toutes les données en raison de la limitation de la longueur du contexte des grands modèles. Il est donc nécessaire que les intelligences interagissent avec les données par le biais de formulaires de code. En gardant ces considérations à l'esprit, l'équipe MetaGPT a commencé à explorer les capacités de planification et d'utilisation des outils au cours du second semestre 2023 avec l'innovation Data Interpreter.
existent Devin À l'époque où des projets comme celui-ci attiraient l'attention, l'équipe de MetaGPT a découvert que Data Interpreter avait atteint le niveau d'un analyste de données junior dans des tâches telles que la modélisation de données ou l'apprentissage automatique. Les utilisateurs n'ont qu'à fournir des données à Data Interpreter, et celui-ci peut accomplir de manière autonome des tâches complexes d'intelligence artificielle, du prétraitement des données à l'entraînement de modèles NLP/CV.
SELA : Amélioration des capacités de débogage et de retour d'information des agents
Afin d'améliorer encore les performances de Data Interpreter, l'équipe MetaGPT a ressenti le besoin de renforcer la capacité de débogage des intelligences et le mécanisme de retour d'information sur les résultats expérimentaux. À cette fin, l'équipe a développé un travail appelé "SELA", qui introduit la méthode Monte Carlo Tree Search (MCTS) au-dessus de Data Interpreter, ce qui permet au corps intelligent d'effectuer de l'apprentissage automatique par le biais d'expériences autonomes. SELA permet à l'organisme intelligent de faire de l'apprentissage automatique par le biais d'expériences autonomes.
Grâce à SELA, les capacités de Data Interpreter en matière d'apprentissage automatique ont été considérablement améliorées, atteignant un niveau comparable à celui des outils d'apprentissage automatique (AutoML) et surpassant les meilleurs projets open source de l'époque (par exemple, AIDE).
AFlow : Génération automatisée de flux de travail pour les agents
Parallèlement, l'équipe MetaGPT a également cherché à améliorer la capacité de raisonnement des grands modèles sur la base de la technologie Monte Carlo Tree Search (MCTS) et a développé le travail AFlow. Contrairement aux solutions avec des SOPs fixes, AFlow est capable de rechercher automatiquement le flux de solutions le plus approprié pour différentes tâches.
AFlow vise à permettre au système d'explorer la combinaison optimale d'intelligences (topologie) sur la base du retour d'information du problème et, en fin de compte, à rendre la combinaison d'intelligences pour résoudre le problème plus dynamique et sans qu'il soit nécessaire de définir l'échelle à l'avance.
AFlow explore et optimise la topologie combinatoire des intelligences multiples en définissant un espace de recherche pour l'atomisation des problèmes et en utilisant des méthodes de Monte Carlo. Ce travail a obtenu des résultats SOTA (State-of-the-art) sur les six ensembles de données et a été reconnu par l'ICLR 2025 comme Oral, ce qui témoigne de son leadership technologique.
FACT : Amélioration des capacités de gestion de la mémoire de l'agent
L'équipe MetaGPT a également remarqué qu'à mesure que le nombre d'étapes de résolution de problèmes d'un corps intelligent augmente, le volume de sa mémoire augmente également. Par conséquent, la question de savoir comment gérer efficacement les informations contextuelles du corps intelligent tout au long du processus de résolution de problèmes devient pressante.
À cette fin, l'équipe présente un travail appelé "FACT" qui améliore la précision des grands modèles dans la recherche de faits grâce à un mécanisme de recherche à plusieurs aiguilles, et montre des résultats significatifs dans les tâches de questions et réponses (QA). Ces travaux ont également été acceptés par l'ANACT.
En outre, vers le mois de septembre de l'année dernière, l'équipe MetaGPT a également exploré la plateforme d'évaluation des capacités de codage SWE-Bench. Elle a constaté que dans des problèmes tels que la réparation de code, les agents doivent s'appuyer sur la localisation et la recherche de fichiers, ainsi que sur les capacités d'utilisation de l'ordinateur, tout en exigeant davantage des capacités d'utilisation et de planification de l'outil. De nombreux efforts de recherche ont utilisé une approche multi-intelligence pour résoudre ces longues chaînes de processus de raisonnement complexes. Par conséquent, l'équipe MetaGPT a également ajouté et optimisé les capacités de localisation et de recherche de fichiers aux tâches SWE-Bench, qui constituent la base du code OpenManus. Un examen du code d'OpenManus montre que de nombreux outils sont liés à la réparation et à la localisation du code.
SPO : un outil puissant pour l'optimisation des mots-clés
SPO est un ensemble d'outils puissants pour l'optimisation des mots clés. Contrairement aux méthodes d'optimisation traditionnelles qui nécessitent de grands ensembles de données, SPO est adapté aux scénarios dans lesquels des évaluations précises ne sont pas disponibles ou l'ensemble de données est limité. Par exemple, lors de la rédaction d'un texte Xiaohongshu ou de l'optimisation du référencement, les utilisateurs peuvent ne disposer que d'un petit nombre d'échantillons satisfaisants ; SPO est capable d'effectuer une optimisation efficace des mots clés dans ces conditions d'échantillons limités. L'outil a été mis en libre accès et a reçu de bons commentaires de la part des utilisateurs sur la plateforme Magic Hitch et Hugging Face en Chine.
AOT : La pensée atomique alimente le raisonnement informationnel
L'approche AOT (Atomic Thinking) est principalement utilisée pour les tâches de raisonnement et d'intégration d'informations sous forme de questions et de réponses, telles que l'intégration d'informations provenant de différents passages pour la compréhension de la lecture. Ce travail a été consulté 350 000 fois jusqu'à présent et sera intégré dans le cadre MetaGPT à l'avenir afin d'améliorer encore ses capacités de traitement de l'information.
03 Le véritable défi des agents : Anatomie de dix questions fondamentales
Q1 : Est-il possible de résoudre entièrement des problèmes complexes après l'amélioration des capacités de modélisation à grande échelle ?
Siren Hong : "Il est vrai que le taux de réussite de la résolution de nombreux problèmes augmente à mesure que les capacités des grands modèles s'accroissent, mais les problèmes eux-mêmes ne disparaissent pas". Par exemple, sur des problèmes relativement standardisés de génération de code à fonction unique tels que QA Q&A, HumanEval et MBPP, un seul modèle est désormais capable d'obtenir d'excellents résultats.
De l'année dernière à cette année, le taux de réussite des modèles à grande échelle sur ces problèmes s'est rapproché du niveau d'application pratique. Dans le même temps, il convient toutefois de noter que la société humaine a encore un grand nombre de problèmes extrêmement complexes avec des effets de longue traîne, y compris l'apprentissage automatique, la correction de codes et les problèmes qui nécessitent la recherche de combinaisons de résultats avant qu'ils ne puissent être mis à la disposition des utilisateurs. Ces domaines nécessitent encore beaucoup d'innovation technologique pour améliorer les performances des modèles à grande échelle, en particulier pour résoudre les problèmes d'"illusion" des modèles.
Q2 : Quelle est la relation entre l'amélioration de la capacité des modèles à grande échelle et les progrès de la technologie des agents ?
Xiang Jinyu : "Les modèles d'agents et les modèles à grande échelle peuvent avoir une relation verticale ou orthogonale. L'amélioration du cadre lui-même gagnera en fonctionnalité grâce à l'amélioration de la capacité du modèle, et les deux ne sont pas en conflit."
Le cadre de l'agent permet aux grands modèles d'interagir avec le monde physique ou l'environnement au sens large en les dotant d'outils supplémentaires. Parallèlement, les progrès réalisés dans les grands modèles eux-mêmes améliorent leurs capacités de raisonnement et de planification. Les deux peuvent être utilisés conjointement ou développés indépendamment l'un de l'autre.
"La relation est complémentaire plutôt que conflictuelle". conclut Xiang Jinyu.
Q3 : Quel est le niveau actuel de développement du modèle de l'agent de fondation ?
Xiang Jinyu : "Il se trouve que j'ai récemment suivi des travaux de recherche connexes, même s'ils n'appartiennent pas exactement à la catégorie des modèles d'agents de fondation."
Il a mentionné les tentatives faites par l'équipe de Pan Jiayi dans le cadre du projet SWE-GYM, qui vise à résoudre le problème de la réparation de la base de code. Ils ont utilisé les données générées après l'exécution de modèles basés sur Claude ou GPT-4o, et ont collecté des données de trajectoire pendant le fonctionnement de l'agent à l'aide de cadres tels que Openhands. Les données de trajectoire contiennent à la fois des cas de réussite et d'échec. Ils ont réutilisé les données de trajectoire collectées pour former le modèle open-source Qwen, et ont observé que la capacité de réparation de code du modèle Qwen était significativement améliorée après cette formation. Les détails de l'étude ont été développés dans le document et la recherche est solide et fiable.
"La difficulté actuelle de généraliser ce type de travail est que, par exemple, dans l'évaluation SWE-Bench, nous pouvons explicitement juger si une tâche a été effectuée correctement, mais dans les scénarios d'application du monde réel, il est très difficile d'évaluer quantitativement la précision ou la qualité de l'achèvement d'une tâche dans de nombreux cas (par exemple, l'écriture d'un roman ou d'une blague)". Xiang Jinyu a souligné : "Tout comme dans les scénarios de travail réels, lorsqu'on demande à des stagiaires et à des employés chevronnés d'accomplir une tâche en même temps et que leur performance doit être évaluée, il est en fait très difficile de juger objectivement et il faut le faire sur la base d'un grand nombre de logiques et de critères commerciaux subjectifs. Ce type de conception automatique du retour d'évaluation dans le cadre de tâches ouvertes est également une direction importante que nous explorerons à l'avenir.
Q4 : Les progrès de l'agent en matière de capacités de planification dépendent-ils en grande partie du modèle à grande échelle lui-même ?
Xiang Jinyu : "Les progrès actuels en matière de planification dépendent, d'une part, de l'amélioration des capacités propres du modèle et, d'autre part, ils sont indissociables de l'assistance de structures externes, c'est-à-dire de l'inclusion de structures plus complexes au niveau de l'agent pour aider à la planification." Par exemple, les premiers travaux sur les arbres de pensée (TOT, thinking trees) ont considérablement amélioré les performances des modèles pendant le raisonnement de la tâche en introduisant une structure supplémentaire. Des travaux de recherche similaires liés aux aides structurelles externes existent également dans le domaine de la planification.
Q5 : Quelles sont les difficultés liées à l'utilisation d'outils externes pour les agents ?
Xinbing Liang : "Actuellement, dans OpenManus, nous utilisons encore principalement certains outils open source existants, tels que Cloud Computer et Browser. Les recherches menées par d'autres équipes sur l'utilisation de Browser ont montré que ces deux outils peuvent à eux seuls accomplir de nombreuses tâches, et ont initialement constitué le prototype de Manus."
En outre, à la question de savoir "si un agent veut utiliser un outil, mais que cet outil n'existe pas actuellement", Liang a déclaré que l'équipe envisageait également la possibilité d'ajouter une capacité future qui permettrait aux agents de créer des outils par eux-mêmes. "Lorsqu'un agent a besoin d'un outil pour accomplir une tâche, il peut le créer et l'utiliser lui-même s'il n'existe pas d'outil approprié dans l'environnement actuel. Cela renforcera l'autonomie de l'agent.
Siren Hong : "Je pense que l'utilisation d'outils pour les grands modèles ou les agents n'est pas une nouveauté en soi. Cependant, avec l'augmentation progressive du nombre d'outils, des difficultés techniques apparaissent : s'il y a un grand nombre d'outils avec des fonctions similaires, comment un agent peut-il prendre des décisions précises, choisir l'outil le plus approprié et éviter les erreurs de décision lorsqu'il résout la même tâche ?"
En outre, si au lieu d'utiliser une interface d'outil standardisée, on utilise un outil personnalisé, un autre problème peut se poser : les paramètres de l'outil ne sont pas raisonnablement ou clairement définis, ce qui conduira à ce que les grands modèles soient sujets à des erreurs dans la génération de décisions sur l'appel de l'outil, ce qui à son tour affectera l'efficacité de la mise en œuvre de l'outil. Il s'agit là de questions clés qui doivent être abordées dans la chaîne d'utilisation de l'outil.
"Une autre difficulté réside dans le fait qu'il ne s'agit pas seulement de la sélection et de l'utilisation de l'outil lui-même, mais aussi du contexte qui peut contenir beaucoup d'informations détaillées. Par exemple, lorsqu'un utilisateur ouvre plusieurs pages web en même temps, les informations et les données contenues dans ces pages (par exemple, l'heure d'un CV particulier, l'heure de début d'un événement mentionné dans une autre page web) peuvent prêter à confusion ou être incorrectes lorsque l'agent les intègre pour générer le résultat final. Comment s'assurer que l'agent traite correctement ces informations détaillées lors de l'utilisation de l'outil est également un problème sur lequel il faut se concentrer dans les applications pratiques". a ajouté Hong Sirui.
Q6 : Les protocoles tels que le MCP vont-ils se généraliser en termes d'utilisation des outils ?
Liang Xinbing : "Le protocole MCP est en train de se généraliser".
La capacité à utiliser l'outil dépend en fait de la capacité du modèle lui-même à utiliser l'outil. Comme certains modèles n'ont pas la capacité d'utiliser des outils ou sont faibles à cet égard, leur efficacité dans l'utilisation d'outils sera limitée. Par conséquent, la popularité des protocoles d'outillage est étroitement liée aux fortes capacités d'outillage des modèles eux-mêmes.
Q7 : Quelles sont les avancées et les difficultés rencontrées par les agents dans la gestion des contextes massifs (gestion de la mémoire) ?
Siren Hong : "Vous connaissez peut-être déjà certains travaux de recherche connexes, tels que MemoryGPT ou le projet open source Mem0, qui proposent tous deux des optimisations et des traitements pour les contextes plus longs et la gestion de la mémoire pour les agents".
Par exemple, MemoryGPT résume les contextes d'une certaine longueur, ce qui est une façon très simple mais efficace de penser, et Mem0 utilise activement des outils dans le processus de mise à jour de la mémoire, ce qui implique des opérations telles que la suppression de la mémoire, la mise à jour de la mémoire et l'ajout.
"Actuellement, c'est un problème difficile pour les agents de compresser le contexte et de le stocker dans la mémoire lorsqu'il s'agit de tâches complexes et de longue portée (par exemple, lors de la navigation sur des pages web, qui peuvent être très longues en termes d'informations) et de s'assurer que les informations critiques ne sont pas modifiées ou omises après la compression". Siren Hong note que "certains travaux antérieurs ont montré que la mémoire s'estompe avec le temps ou les étapes de la tâche".
D'autre part, il existe différents types de mémoire humaine, non seulement la mémoire des informations sémantiques, mais aussi la mémoire procédurale générée par l'utilisation d'outils, ainsi que la mémoire des relations associées à des événements. Les universitaires ont également optimisé les différents types de mémoire séparément.
La discussion ci-dessus porte sur la gestion de la mémoire dans un seul agent. Dans un système multi-intelligent, cependant, la mémoire peut être utilisée plus habilement. En plus d'isoler les mémoires dans une certaine mesure, on aimerait réutiliser les mémoires générées par d'autres agents dans le processus de résolution de problèmes afin d'améliorer sa propre expérience dans le traitement de tâches spécifiques. En outre, les agents peuvent évoluer pour réutiliser l'expérience du groupe en matière de résolution de problèmes, formant ainsi une sorte d'intelligence de groupe.
Xinbing Liang : "Le problème central de la gestion de la mémoire est le coût". Si la gestion de la mémoire n'est pas prise en compte, sans compression ni traitement, et que la totalité de la mémoire est utilisée directement, les modèles actuels à grande échelle peuvent encore être traités, mais le problème qui en découle n'est pas une dégradation des performances, mais une augmentation significative du temps de traitement et du coût, ce qui affecte sérieusement l'expérience de l'utilisateur.
Le problème de la gestion de la mémoire implique donc une optimisation au niveau de l'ingénierie. Il existe déjà un certain nombre d'entreprises ou d'organisations qui tentent d'optimiser les solutions de gestion de la mémoire.
"L'une des approches actuelles pour résoudre le problème de la gestion de la mémoire consiste à utiliser une approche multi-intelligence ou assistée par des outils. Par exemple, dans des cadres tels qu'OpenManus, un plan de tâches est généralement généré en premier lieu par un outil de planification, qui décompose une tâche complexe en plusieurs sous-tâches, avec un partage incomplet des mémoires entre chaque sous-tâche, et résume ou comprime le processus après l'exécution de la tâche". Liang Xinbing a expliqué.
Q8 : Quelle sera la concurrence finale de l'agent en termes de commercialisation sur le terrain ?
Siren Hong : "Je pense que le plus important est de tirer le meilleur parti des tâches et des effets dans des scénarios réels, y compris des fonctions de personnalisation." De nombreux efforts de recherche actuels dans les universités, que ce soit pour SWEBench, GAIA ou d'autres tâches de test d'agents, ont encore des taux de réussite limités. Si l'on applique cette norme de tâche relativement restreinte à des scénarios d'entreprise réels, le taux de réussite actuel des agents reste très limité face à des utilisateurs différents et à des problèmes de difficulté différents.
"Qu'il s'agisse de tâches de programmation, de collecte de données ou de génération de rapports, si nous parvenons à tirer le meilleur parti d'un large éventail de problèmes et de scénarios d'utilisation, à porter le taux de réussite à un niveau satisfaisant et à réaliser réellement que l'agent est capable de réaliser les actions que les gens attendent aujourd'hui, je pense que les utilisateurs continueront à se servir de l'agent comme d'un assistant et d'un outil au quotidien. " a souligné Hong Si Rui.
Q9 : Le coût actuel de Manus, OpenManus et d'autres agents est élevé, comment pouvons-nous encore réduire le coût et améliorer l'efficacité ?
Siren Hong : "Tout d'abord, un grand nombre de fournisseurs d'applications, dont nous faisons partie, optimisent la consommation de tokens. Que ce soit au niveau de l'ingénierie par le biais de la mise en cache ou de techniques de compression de la mémoire, l'objectif est de minimiser la longueur du contexte de chaque appel à l'API, et c'est l'orientation de l'optimisation en cours au niveau de l'application."
"En outre, à l'avenir, il est probable que les gens déploieront un grand nombre de petits modèles pour affiner ou renforcer l'apprentissage sur la base de données existantes, en se concentrant sur l'optimisation de la capacité à utiliser certains nœuds ou outils spécifiques. L'intégration des capacités de plusieurs petits modèles devrait permettre de compléter, voire de surpasser, les grands modèles. Cela peut conduire à des avantages significatifs en termes de vitesse d'inférence, de consommation de jetons et de dépenses". a ajouté Siren Hong.
Q10 : Comment évaluer les perspectives commerciales de la multi-intelligence ?
Siren Hong : "Tout d'abord, nous pensons que dans le domaine de la génération de codes, les systèmes corporels à agent unique et à intelligence multiple devraient être commercialement viables plus tôt".
"Nous avons constaté qu'un grand nombre d'utilisateurs, qui ont un niveau de programmation moyen mais comprennent certains concepts de base, ont un grand besoin de l'assistance de l'intelligentsia ou de grands modèles lorsqu'ils veulent créer un site web personnel ou une application simple par eux-mêmes. Si les utilisateurs recourent directement aux grands modèles, cela peut nécessiter plusieurs cycles d'interaction et un processus de débogage fastidieux. Mais avec un système d'intelligences produit, le processus est beaucoup plus facile. Les utilisateurs n'ont besoin que de 15 minutes ou d'une demi-heure, même en tenant compte des modifications ultérieures des exigences, pour obtenir rapidement un site web ou une application satisfaisants.
"Par conséquent, je pense que les perspectives commerciales de la multi-intelligentsia sont claires et solides en termes de résolution efficace des besoins réels des utilisateurs, et la génération de codes est également un scénario que la technologie de l'agent est actuellement capable de mieux résoudre. À l'heure actuelle, le consentement à payer des utilisateurs à cet égard est également relativement élevé". a conclu Hong Sirui.
04 Commercialisation des agents : la génération de codes ouvre la voie
Q1 : Pouvez-vous présenter brièvement MGX, un produit de multi-intelligence ?
Siren Hong : "Si les gens connaissent la MetaGPT, ils comprendront la MGX Il s'agit d'un produit où des intelligences multiples collaborent en ligne en même temps pour aider les utilisateurs à résoudre des problèmes. Les utilisateurs doivent simplement l'utiliser comme ChatGPT Dès qu'un besoin est exprimé, une intelligence puissante désassemble la tâche et la distribue à différentes intelligences pour qu'elles l'exécutent.
"L'ensemble du produit est actuellement axé sur le domaine de la génération de code. Par exemple, si un utilisateur souhaite créer un site web personnel, un jeu ou une application d'analyse de données, notre corps intelligent peut très bien s'acquitter de cette tâche. Au cours du processus de développement, les utilisateurs peuvent modifier leurs exigences à tout moment, par exemple en ajustant le style, la typographie ou la présentation du projet frontal, ce que nos intelligences sont également capables de faire naturellement, réduisant ainsi considérablement les coûts de développement."
Contrairement à des produits tels que Manus et OpenManus, MGX dispose de capacités de déploiement automatique. Pendant le processus de développement, le logiciel est automatiquement déployé et les utilisateurs peuvent prévisualiser et ajuster les résultats en temps réel. En outre, chacune des intelligences du produit MGX dispose des appels d'outils informatiques, des appels d'outils de navigation et des capacités de planification et d'exécution de code mentionnés précédemment.
"Nous étudions également en interne l'évaluation esthétique des effets de la conception ou de la visualisation des données et, à l'avenir, nous pourrions créer un critère de référence correspondant pour aider les grands modèles ou agents à évaluer si les pages ou les tableaux de bord générés répondent aux attentes des utilisateurs et aux normes esthétiques". a déclaré Hong Sirui.
Vous trouverez ci-dessous quelques exemples de sites web générés par MGX :
Site web personnel :
- https://alex-portfolio-yhx5c3-v1.mgx.world/
- https://photographer-portfolio-myuf2t-v1.mgx.world


Blog personnel :
- https://personal-blog-v7amdv-v2.mgx.world
- https://cute-cartoon-blog-p58801-v1.mgx.world


Cartes de visite personnelles :
- https://portfolio-dveerm-v1.mgx.world
- https://emma-anderson-homepage-8rnqm6-v1.mgx.world


Q2 : MGX DEV va-t-il proposer de nouveaux types d'agents ?
Siren Hong : "MGX continuera d'ajouter de nouveaux types d'agents à l'avenir. Nous expérimentons actuellement en interne un nouveau type d'agent appelé User Agent". L'agent utilisateur détectera activement les effets du déploiement du projet, en prenant des captures d'écran de la page, en interagissant activement avec la page web, en testant la faisabilité et l'exécutabilité du logiciel généré, puis en notifiant les autres intelligences responsables du développement pour qu'elles corrigent le problème afin d'achever le projet de manière plus parfaite. "En outre, nous pouvons également précipiter en interne des repères pour l'évaluation esthétique du design ou des effets de visualisation des données, ce qui permet à l'agent de déterminer si la qualité et la performance esthétique d'une page ou d'un tableau de bord de données répondent aux attentes." a ajouté Hong Siren.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...