AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Der Autor des OpenManus-Kerns erzählt: Wie man das Agent-Framework in drei Stunden fertigstellt!

Die Agententechnologie (intelligenter Körper) hat in dieser Woche einen beispiellosen Boom in der Welt der Technik ausgelöst, und hinter diesem Boom steht ein Sprung nach vorn bei den Fähigkeiten zur Modellierung von Schlussfolgerungen.

Am Abend des 5. März debütierte Manus mit einer beeindruckenden Demo, die das Internet sofort in Flammen setzte. Nur zwei Tage später hat das einheimische Team DeepWisdom MetaGPT und CAMEL AI haben jeweils die Open-Source-Projekte OpenManus und OWL ins Leben gerufen und damit die Manus haben die Web- und GitHub-Community wieder einmal in Aufruhr versetzt und eine breite und tiefgreifende Diskussion ausgelöst.


Besonders bemerkenswert ist, dass das OpenManus-Team mit dem langjährigen technischen Hintergrund von MetaGPT den Aufbau des Kernsystems in nur einer Stunde abgeschlossen und das Projekt in nur drei Stunden online gestellt hat. Diese erstaunliche Geschwindigkeit verhalf OpenManus nicht nur zu über 10.000 Sternen auf GitHub, sondern machte es auch zum Mittelpunkt der Aufmerksamkeit innerhalb und außerhalb der Branche.

Am Vormittag des 8. März lud JQF drei Kernmitglieder des OpenManus-Teams zu einem ausführlichen Austausch ein, um die Grundsätze der technischen Umsetzung von OpenManus zu analysieren und den zukünftigen Entwicklungstrend der Agententechnologie zu diskutieren.

 

Die drei Gäste sind allesamt erfahrene Experten auf dem Gebiet der Agenten: Siren Hong, der Erstautor des MetaGPT-Beitrags (ICLR 2024 Oral) und des Data Interpreter-Beitrags sowie einer der Autoren des AFLOW-Beitrags (ICLR 2025 Oral), dessen Forschungsergebnisse bereits mehrfach auf den wichtigsten internationalen akademischen Konferenzen wie TPAMI und ICLR veröffentlicht wurden, Seine Forschungsergebnisse wurden in TPAMI, ICLR und anderen internationalen Spitzenkonferenzen und -zeitschriften veröffentlicht. Liang Xinbing, der Hauptentwickler von OpenManus. Jinyu Xiang ist ein Mitautor von OpenManus und der erste Autor von AFlow und SPO.

 

Die drei Gäste äußerten sich in ihren Vorträgen über die zukünftige Entwicklung der Agententechnologie und die Herausforderungen, denen sich die Branche gegenübersieht:

  • In dem Maße, wie die Fähigkeiten von Large Language Models (LLMs) weiter zunehmen, wird die Erfolgsrate von Agentenanwendungen in vielen Bereichen dramatisch ansteigen, insbesondere bei relativ standardisierten Aufgaben wie QA-Quiz, HumanEval-Code-Bewertungen und MBPP-Python-Programmierproblemen, bei denen ein einzelnes Modell hervorragende Lösungsfähigkeiten gezeigt hat.
  • Es gibt jedoch eine große Anzahl von Problemen in der realen Welt, die komplex sind und lange Auswirkungen haben, wie z. B. komplexe Aufgaben des maschinellen Lernens, die Behebung von Codefehlern und kombinatorische Suchprobleme, die die Integration mehrerer Informationen erfordern, um den Benutzern effektive Antworten zu geben. Diese Probleme erfordern immer noch erhebliche technologische Innovationen, um die Leistung der Agenten zu verbessern, insbesondere bei der Lösung von Modell-"Illusions"-Problemen.
  • Die Fortschritte der Agenten bei der Aufgabenplanung hängen sowohl von der Verbesserung der eigenen Fähigkeiten des Modells als auch von der Unterstützung durch eine externe Architektur ab. Ein ausgefeilteres Architekturdesign kann den Agenten helfen, komplexe Aufgaben besser zu verstehen und zu zerlegen.
  • Mit der zunehmenden Vielfalt an Werkzeugen, die den Agenten zur Verfügung stehen, wird es zu einer neuen technischen Herausforderung, die Agenten in die Lage zu versetzen, bei der gleichen Aufgabe aus einer großen Anzahl von Werkzeugen mit ähnlichen Funktionen richtige Entscheidungen zu treffen, das am besten geeignete Werkzeug auszuwählen und Fehlentscheidungen zu vermeiden.
  • Das Kernproblem der Speicherverwaltung für Agenten besteht darin, ein Gleichgewicht zwischen Kosten und Effizienz zu finden. Die direkte Verwendung vollständiger Speicherinformationen führt, obwohl sie von den derzeitigen Modellen verarbeitet werden kann, zu einem erheblichen Anstieg der Verarbeitungszeit und der Kosten, was sich eher auf die Benutzererfahrung als auf die Leistung auswirkt.
  • Ein wirksamer Ansatz zur Lösung des Speicherverwaltungsproblems besteht derzeit in der Annahme einer Architektur mit mehreren intelligenten Körpern oder einer werkzeuggestützten Strategie. So verwenden Frameworks wie OpenManus in der Regel Planungswerkzeuge zur Vorabgenerierung eines Aufgabenplans, zur Zerlegung einer komplexen Aufgabe in mehrere Teilaufgaben mit unvollständiger gemeinsamer Nutzung des Speichers zwischen den einzelnen Teilaufgaben und zur Zusammenfassung oder Komprimierung des Prozesses nach der Ausführung der Aufgabe, um die Rechenkosten zu senken.
  • Obwohl wir beim Benchmarking eindeutig feststellen können, ob der Agent die Aufgabe korrekt erledigt hat, ist es immer noch eine Herausforderung, die Genauigkeit oder Qualität der Aufgabenerledigung durch den Agenten in realen Anwendungsszenarien quantitativ zu bewerten.
  • Der Schlüssel zur Kommerzialisierung eines Agenten liegt in der Maximierung der Aufgaben und der Benutzerbedürfnisse in realen Szenarien, einschließlich der Bereitstellung hochgradig personalisierter Funktionen, die der einzige Weg sind, die Benutzer dazu zu bringen, den Agenten weiterhin zu nutzen.
  • Eine große Anzahl von App-Entwicklern erforscht aktiv Token Verbrauchsoptimierungsverfahren, wie Caching-Mechanismen oder Speicherkomprimierungstechniken auf technischer Ebene, um die Länge des Kontexts, der für jeden API-Aufruf übergeben werden muss, zu minimieren und die Kosten zu senken.
  • Es wird erwartet, dass in Zukunft durch die Integration der Fähigkeiten mehrerer kleiner Modelle Ergebnisse erzielt werden, die mit denen großer Modelle vergleichbar sind oder diese sogar übertreffen, und dass signifikante Vorteile in Bezug auf Inferenzgeschwindigkeit, Tokenverbrauch und Kosten erzielt werden.

Nachstehend finden Sie eine ausführliche Erläuterung des Inhalts dieser Mitteilung.

 

01 One Night GitHub Hit, OpenManus' Technical Fastlane

Liang Xinbing: "Nach der Gruppensitzung am 6. März, kurz nach 17 Uhr, schlug Xiang Jinyu vor, dass wir mit ein paar wichtigen Schritten in der Lage sein könnten, den Effekt von Manus zu wiederholen."

Liang Xinbing erinnert sich an die Gelegenheit, das OpenManus-Projekt zu starten: "Als er das erste Mal das Demo-Video von Manus sah, war er von der reibungslosen Interaktion beeindruckt. Als er zum ersten Mal das Demo-Video von Manus sah, war er von der reibungslosen Interaktion im Video beeindruckt und entschied intuitiv, dass Manus ein System mit einer einzigen Intelligenz sein sollte. "Wie kann ein einzelner intelligenter Körper so hervorragende Ergebnisse erzielen, und wie plant und realisiert er Aufgaben? Das ist sehr schockierend für mich."

In dem anschließenden Gespräch begann das Team, die technische Lösung für Manus zu erkunden, ein universell einsetzbares KI-Produkt für intelligente Körper mit einem beeindruckenden Benutzererlebnis. Aus technischer Sicht ist Manus jedoch tatsächlich eine clevere Integration vieler grundlegender Technologien, auf die sich die Branche geeinigt hat. Letztendlich kam das Team zu dem Schluss, dass Manus einen externen Planungsmechanismus einsetzt, um die Arbeit mehrerer Intelligenzen zu koordinieren.

Nach dem Abendessen wurde die Entwicklung von OpenManus offiziell gestartet und der gesamte Prozess dauerte etwa drei Stunden. "Damals haben wir nicht damit gerechnet, dass OpenManus so schnell so populär werden würde". räumt Liang Xinbing ein.

Manus Multi-Intelligence-Architektur erklärt: Die delikate Synergie von Planung und Ausführung

Das Herzstück von Manus ist seine Multi-Intelligenz-Systemarchitektur. Es beginnt mit einer Aufgabenzerlegung der Benutzeranforderungen mithilfe des Planungswerkzeugs PlanningTool, das einen detaillierten Plan mit mehreren linearen Teilaufgaben erstellt. Das System führt dann jede Teilaufgabe sequentiell aus und weist sie dynamisch dem am besten geeigneten Agenten zu, der die Teilaufgabe mit Hilfe des ReAct Ein zyklisches Modell (Reason and Act), bei dem das Werkzeug kontinuierlich zur Erledigung der Aufgabe herangezogen wird.

Planungsfähigkeit und Werkzeugnutzungsfähigkeit sind die beiden Säulen von Manus. Die Innovation von Manus, das Planungswerkzeug PlanningTool in den Multi-Intelligence-Rahmen einzubringen, war entscheidend. Wie der Durchbruch des Claude-3.7-Modells bei der Bewertung der SWEBench-Codekompetenz zeigt, sind die Leistungsverbesserungen zum Teil auf Fortschritte im Modell selbst und zum Teil auf eine effektivere Aufgabenplanung zurückzuführen, und die früheren Forschungsarbeiten des MetaGPT-Teams im Rahmen des Data-Interpreter-Projekts haben gezeigt, dass Planung für die Lösung komplexer Probleme in der realen Welt entscheidend und effektiv ist. Die frühere Forschung des MetaGPT-Teams im Rahmen des Data Interpreter-Projekts hat ebenfalls gezeigt, dass die Planung für die Lösung komplexer Probleme in der realen Welt entscheidend und effektiv ist. Infolgedessen ist die Integration von Planungsfähigkeiten in Multiintelligenz- und sogar Einzelintelligenz-Frameworks eine wichtige Richtung in der Entwicklung der Agententechnologie geworden.

Das Team spekuliert, dass Manus möglicherweise die Claude Modell, kombiniert mit einem eigenen Post-Trainingsmodell und einer Reihe von Optimierungen auf technischer Ebene, was die Fähigkeit, das Tool in verschiedenen Szenarien einzusetzen, deutlich verbessert.

OpenManus-Designphilosophie: Minimalismus, Steckbarkeit und leistungsstarke Planungsfunktionen

Das Designkonzept von OpenManus lässt sich mit zwei Stichworten zusammenfassen: "minimalistisch" und "steckbar". Laut Liang Xinbing bestand das ursprüngliche Konzept darin, ein extrem einfaches Agenten-Framework durch die flexible Kombination von steckbaren Tools und Prompts zu erstellen, um die verschiedenen Funktionen des Agenten zu realisieren. Auf der Grundlage dieser Idee entwickelte das Team schnell ein komplettes Agent-Mini-Framework.

Die Prompt-Anleitung und der Einsatz von Tools sind Schlüsselfaktoren für die Effektivität des ReAct-Agenten. In OpenManus ist Prompt für die Steuerung der gesamten Verhaltenslogik des Agenten verantwortlich, während Tools den Aktionsraum des Agenten definieren. Zusätzlich zum ReAct-Agenten hat das OpenManus-Team einen leichtgewichtigen ToolCall-Agenten implementiert, der auf der Function-Call-Technologie basiert und die Auswahl und Ausführung von Tools auf strukturiertere Weise ermöglicht. OpenManus baut auf dem ToolCall Agent auf.

Das "steckbare" Design sorgt für große Flexibilität und Erweiterbarkeit und ermöglicht es Entwicklern, Tools aus verschiedenen Szenarien zu kombinieren, um schnell neue Agenten zu erstellen. Entwickler können schnell neue Agenten erstellen, indem sie Werkzeuge aus verschiedenen Szenarien frei kombinieren. Die Definition von Werkzeugen ist sehr einfach, es muss keine komplexe interne Logik geschrieben werden, sondern es genügt, den Aktionsraum des Agenten (Werkzeuge) zu modifizieren, und die Werkzeuge selbst sollten gut kombinierbar sein. Durch die Bereitstellung eines umfangreichen Satzes von Werkzeugen und die Unterstützung mehrerer Agenten, die flexibel mit unterschiedlichen Kombinationen von Werkzeugen ausgestattet werden können, ist OpenManus in der Lage, seine Fähigkeiten in verschiedenen Anwendungsszenarien leicht zu erweitern.

Auch die Planungsfähigkeiten sind entscheidend. OpenManus baut auf den Planungsstärken von Manus auf, indem es die Aufgabenzerlegung durch das PlanningTool ermöglicht, um die Komplexität der realen Welt effektiv anzugehen.

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt-1

OpenManus Workflow: Dynamische Aufgabenverteilung und kollaborative Ausführung

Der Arbeitsablauf von OpenManus ist klar und effizient. Nach Erhalt einer Benutzeranfrage verwendet das System zunächst das PlanningTool, um einen Plan mit linearen Teilaufgaben zu erstellen, und schreibt den Plan in eine Markdown-Datei. OpenManus analysiert dann den Plan und nimmt jede Teilaufgabe der Reihe nach heraus. Bei der Ausführung jeder Teilaufgabe weist das System die Aufgabe dynamisch dem Agenten zu, der am besten für die Bearbeitung geeignet ist und über unterschiedliche Werkzeuge für die Bearbeitung verschiedener Aufgabentypen verfügt.

Die dynamische Zuweisung von Agenten ist einer der Höhepunkte von OpenManus. Dieser flexible Zuweisungsmechanismus ermöglicht es dem System, den am besten geeigneten Agenten für die Ausführung der Aufgabe je nach den spezifischen Anforderungen und dem Kontext der Aufgabe auszuwählen und so die Effizienz und Qualität der Aufgabenbearbeitung zu verbessern. Derzeit verwendet OpenManus den Abgleich regulärer Ausdrücke, um den Agenten Aufgaben zuzuweisen. Wenn eine Aufgabe keinem bestimmten Agenten zugeordnet werden kann, wird sie mit dem standardmäßig konfigurierten Agenten ausgeführt.

Für die Zukunft erwägt das OpenManus-Team auch die Einführung eines Large Language Model (LLM), das die Zuordnung von Aufgaben zu Agenten übernimmt. Die Verwendung des LLM für die Absichtserkennung und die Agentenzuweisung für jede Aufgabenausführung wird jedoch zweifellos die Rechenkosten und die Latenzzeit erhöhen.

Die Zukunft von OpenManus: Kontinuierliche Optimierung und Aufbau einer Gemeinschaft

Um die Leistung und die Benutzerfreundlichkeit von OpenManus weiter zu verbessern, plant das Team, an den folgenden Prioritäten zu arbeiten:

  • Erweiterte Planungsfunktionen: PlanningTool wird kontinuierlich optimiert, um komplexere Aufgabenzerlegungen und Planungsszenarien zu bewältigen.
  • Einführung von standardisierten Reviews: Industrie-Benchmarking-Sets wie GAIA/TAU-Bench/SWE-Bench werden eingesetzt, um die Leistung von OpenManus kontinuierlich zu evaluieren und zu optimieren.
  • Erweiterte Modellanpassung: Erweiterte Modellunterstützung von Claude-3-5 auf DeepSeek V2.5 und viele weitere Modelle zur Optimierung von kostengünstigen Anwendungsszenarien.
  • Ermöglicht die Bereitstellung in Containern: Vereinfacht die Installation und Nutzung von OpenManus und senkt die Einstiegshürde für Benutzer.
  • Umfangreiche Beispielsammlung: Mehr praktische Beispiele und detaillierte Analysen von Erfolgen und Misserfolgen helfen den Benutzern, OpenManus besser zu verstehen und einzusetzen.
  • Front-End- und Back-End-Entwicklung: Entwicklung einer benutzerfreundlichen Web-UI-Schnittstelle zur Verbesserung der Benutzerinteraktion.
  • RAG Modulintegration: Integration des Moduls Retrieval Augmentation Generation (RAG), um dem Agenten eine externe Wissensbasis zur Verfügung zu stellen, die seine Wissenserwerbs- und Schlussfolgerungsfähigkeiten verbessert.

Liang Xinbing sagte, Manus habe bei der Produktinteraktion sehr gute Arbeit geleistet, und man könne viel von ihm lernen. Gegenwärtig ist die Wirkung von OpenManus noch relativ begrenzt, und das Team hat keine spezielle Effektoptimierung vorgenommen.

Das anfängliche Ziel von OpenManus ist es, die gleichen Ergebnisse zu erzielen wie das ursprüngliche Manus. Langfristig hofft das Team, sich auf die große Open-Source-Gemeinschaft verlassen zu können, um die Software kontinuierlich zu optimieren. Computer Kernfunktionen wie Computernutzung, Browsernutzung und Planungsnutzung sowie Werkzeugaufrufe tragen dazu bei, dass OpenManus ein höheres Maß an Intelligenz entwickelt.

 

02 MetaGPT Team: Jahrelanger technischer Niederschlag, drei Stunden, um Manus zu replizieren.

Siren Hong: "In der Tat hat unser Team jahrelange technische Erfahrung im Bereich der Automatisierung und der intelligenten Körper-Frameworks für KI-Szenarien gesammelt."

Das MetaGPT-Team engagiert sich seit langem für die Forschung im Bereich der Agententechnologie und für Open Source. In den letzten zwei Jahren hat das Team seine Forschungsergebnisse als Open Source zur Verfügung gestellt und hochwertige akademische Arbeiten und technische Berichte verfasst, die einen aktiven Beitrag zur Gemeinschaft leisten. Diese Ergebnisse umfassen:

  • MetaGPT: Ein bahnbrechender Multiintelligenz-Metaprogrammierungsrahmen, der die Kernideen der Multiintelligenz-Zusammenarbeit darlegt.
  • Data Interpreter: Ein leistungsfähiger Data Science Agent, der das große Potenzial von LLM im Bereich der Datenanalyse demonstriert.
  • AFlow: Ein Framework zur automatischen Generierung von Agenten-Workflows, das die automatische Erkundung und Optimierung von Agenten-Kombinationen ermöglicht.
  • FACT: Context Rewriting Technologie, die die Genauigkeit der Multi-Fact Retrieval effektiv verbessert.
  • SELA: Ein durch Baumsuche erweiterter LLM-Agent für automatisiertes maschinelles Lernen, der die AutoML-Leistung erheblich verbessert.
  • Selbstüberwachte Prompt-Optimierung: Eine selbstüberwachte Prompt-Optimierungsmethode, die die Effizienz und Effektivität der Prompt-Technik verbessert.
  • SPO (https://www.modelscope.cn/studios/AI-ModelScope/SPO): Open-Source-Tool zur Optimierung von Stichwörtern für Szenarien mit wenigen Stichproben oder ohne explizites Scoring.
  • Atom of Thoughts for Markov LLM Test-Time Scaling: an Atomic Thinking Approach to Enhance LLM Reasoning in Markov Decision Processes.

Der MetaGPT-Rahmen: ein Eckpfeiler der Multiintelligenz-Zusammenarbeit

Das MetaGPT-Framework, das 2023 veröffentlicht wurde, war ein Pionier auf dem Gebiet der Metaprogrammierung von multi-intelligenten Körpern. Das MetaGPT-Team war der Ansicht, dass groß angelegte Modelle zu dieser Zeit zwar eine große Leistungsfähigkeit für allgemeine Aufgaben bewiesen hatten, dass aber die effektive Lösung komplexer Probleme in der menschlichen Gesellschaft immer noch eine atomistische Zerlegung des Problems und die Einbeziehung eines Prozesses erforderte, der den menschlichen Problemlösungsgewohnheiten besser entsprach.

"Sie sind vielleicht mit dem Konzept der Standardarbeitsanweisungen (SOPs) vertraut. Durch die Zuweisung von SOPs an verschiedene Rollen und die Nutzung des Fachwissens und der Werkzeugkapazitäten der einzelnen Rollen können wir die Leistung großer Modelle bei komplexen Problemen erheblich verbessern." Der MetaGPT-Rahmen basiert auf diesem Konzept und schlägt eine multi-intelligente Körperarchitektur mit eingebetteten SOPs vor, die darauf abzielt, die Meta-Lern- oder Meta-Programmierungsfähigkeiten der Intelligenzen zu realisieren", erklärt Siren Hong.

Mit diesem Ansatz wurden bei Benchmarks wie HumanEval und MBPP erhebliche Verbesserungen erzielt, die das damalige GPT-4-Modell übertrafen. Das MetaGPT-Team validierte diese Idee auch in einigen typischen Softwareentwicklungsszenarien wie dem klassischen Minispiel 2048 und dem Spiel Snake. Die Gesamterfolgsrate von MetaGPT ist deutlich höher als die anderer Open-Source-Frameworks im gleichen Zeitraum.

Data Interpreter: Ein intelligenter Assistent für die Datenwissenschaft

Aufbauend auf dem MetaGPT-Rahmen und dem Design der Intelligenzen erkannte das Team, dass die Intelligenzen auch robustere Planungsfähigkeiten und die Verwendung von Tools erfordern würden, insbesondere bei der Lösung von Problemen des maschinellen Lernens oder der Datenmodellierung.

Einerseits können Prozesse des maschinellen Lernens/der Datenmodellierung oft mit den Fähigkeiten großer Modelle geplant werden, die sich mehr auf die Ausführung und Implementierung von Aufgaben konzentrieren können. Andererseits ist es bei der Arbeit mit großen Tabellendaten aufgrund der begrenzten Kontextlänge großer Modelle nicht möglich, alle Daten direkt einzugeben. Daher ist es notwendig, dass die Intelligenzen mit den Daten über Codeformen interagieren. Auf der Grundlage dieser Überlegungen begann das MetaGPT-Team in der zweiten Jahreshälfte 2023 mit der Innovation Data Interpreter mit der Erforschung von Planungs- und Werkzeugnutzungsmöglichkeiten.

existieren Devin In der Zeit, in der Projekte wie dieses große Aufmerksamkeit erregten, entdeckte das MetaGPT-Team, dass Data Interpreter bei Aufgaben wie Datenmodellierung/Maschinelles Lernen das Niveau eines Junior-Datenanalysten erreicht hatte. Die Benutzer müssen Data Interpreter lediglich Daten zur Verfügung stellen, und es kann selbstständig komplexe KI-Aufgaben erledigen, von der Datenvorverarbeitung bis zum NLP/CV-Modelltraining.

SELA: Verbesserung der Debugging- und Feedback-Fähigkeiten von Agenten

Um die Leistung von Data Interpreter weiter zu verbessern, sah das MetaGPT-Team die Notwendigkeit, die Debugging-Fähigkeit der Intelligenzen und den Feedback-Mechanismus zu den experimentellen Ergebnissen zu verbessern. Zu diesem Zweck entwickelte das Team das Projekt "SELA", das die Monte-Carlo-Baumsuche (MCTS) auf Data Interpreter aufbaut und es dem intelligenten Körper ermöglicht, durch autonome Experimente maschinelles Lernen durchzuführen Es ermöglicht dem intelligenten Körper maschinelles Lernen durch autonome Experimente, die Optimierung von Aufgaben, die Erkundung von Vielfalt im Denkprozess und die Anpassung von Strategien und Lösungsschritten auf der Grundlage von Rückmeldungen aus den Ausführungsergebnissen, wodurch die Gesamtleistung der Aufgabe erheblich verbessert wird.

Durch SELA wurden die Fähigkeiten von Data Interpreter bei Aufgaben des maschinellen Lernens erheblich verbessert und erreichten ein Niveau, das mit den Werkzeugen des automatisierten maschinellen Lernens (AutoML) vergleichbar ist und die besten Open-Source-Projekte der damaligen Zeit (z. B. AIDE) übertrifft.

AFlow: Automatisierte Agenten-Workflow-Generierung

In der Zwischenzeit hat sich das MetaGPT-Team auch mit der Verbesserung der Argumentationsfähigkeit großer Modelle auf der Grundlage der Monte-Carlo-Baumsuche (MCTS) befasst und das AFlow-Projekt entwickelt. Im Gegensatz zu Lösungen mit festen SOPs ist AFlow in der Lage, automatisch nach dem am besten geeigneten Lösungsablauf für verschiedene Aufgaben zu suchen.

AFlow zielt darauf ab, das System in die Lage zu versetzen, die optimale Kombination von Intelligenzen (Topologie) auf der Grundlage des Feedbacks aus dem Problem zu erforschen und schließlich die Kombination von Intelligenzen für die Lösung des Problems dynamischer zu gestalten, ohne dass der Umfang vorher festgelegt werden muss.

AFlow erforscht und optimiert die kombinatorische Topologie multipler Intelligenzen, indem es einen Suchraum für die Atomisierung des Problems definiert und Monte-Carlo-Methoden einsetzt. Diese Arbeit hat bei allen sechs Datensätzen SOTA-Ergebnisse (State-of-the-Art) erzielt und wurde vom ICLR 2025 als mündlich anerkannt, was seine technologische Führungsrolle unterstreicht.

FACT: Verbesserung der Speichermanagement-Fähigkeiten des Agenten

Das MetaGPT-Team hat auch festgestellt, dass mit der Anzahl der Problemlösungsschritte eines intelligenten Körpers auch das Volumen seines Speichers (Memory) zunimmt. Daher wird die Frage, wie die kontextbezogenen Informationen eines intelligenten Körpers während des gesamten Problemlösungsprozesses effektiv verwaltet werden können, zu einem dringenden Problem.

Zu diesem Zweck stellt das Team eine Arbeit mit dem Namen "FACT" vor, die die Genauigkeit großer Modelle bei der Faktensuche durch einen Multi-Nadel-Findungsmechanismus verbessert und signifikante Ergebnisse bei Frage-Antwort-Aufgaben (QA) zeigt. Diese Arbeit wurde auch von der NAACL angenommen.

Darüber hinaus untersuchte das MetaGPT-Team im September letzten Jahres auch die SWE-Bench-Plattform zur Bewertung der Code-Fähigkeiten. Sie fanden heraus, dass sich Agenten bei Problemen wie der Code-Reparatur auf die Dateisuche und -findung sowie auf die Computernutzungsfähigkeiten verlassen müssen, während sie gleichzeitig höhere Anforderungen an die Werkzeugnutzung und die Planungsfähigkeiten stellen. Viele Forschungsarbeiten haben einen Multi-Intelligenz-Ansatz verwendet, um solche langen Ketten komplexer Denkprozesse zu lösen. Infolgedessen hat das MetaGPT-Team die SWE-Bench-Aufgaben, die die Grundlage des OpenManus-Codes bilden, um Dateisuch- und -findungsfunktionen erweitert und optimiert. Ein Blick auf den OpenManus-Code zeigt, dass viele der Werkzeuge mit der Reparatur und dem Auffinden von Code zu tun haben.

SPO: ein leistungsfähiges Instrument zur Optimierung von Stichwörtern

SPO ist ein leistungsfähiges Instrumentarium zur Optimierung von Stichwörtern. Im Gegensatz zu herkömmlichen Optimierungsmethoden, die große Datensätze erfordern, eignet sich SPO für Szenarien, in denen keine genauen Bewertungen verfügbar sind oder der Datensatz begrenzt ist. Zum Beispiel beim Schreiben von Texten für Xiaohongshu oder bei der SEO-Optimierung haben die Benutzer möglicherweise nur eine kleine Anzahl zufriedenstellender Stichproben, und SPO ist in der Lage, eine effektive Stichwortoptimierung unter solchen begrenzten Stichprobenbedingungen durchzuführen. Das Tool wurde als Open Source veröffentlicht und hat auf der Magic Hitch-Plattform und bei Hugging Face in China ein gutes Nutzerfeedback erhalten.

AOT: Atomares Denken fördert das Informationsdenken

Der AOT (Atomic Thinking)-Ansatz wird vor allem für Frage-Antwort-Informations-Schlussfolgerungen und Integrationsaufgaben verwendet, z. B. für die Integration von Informationen aus verschiedenen Passagen zum Leseverständnis. Diese Arbeit hat bisher 350.000 Aufrufe erhalten und wird in Zukunft in das MetaGPT-Framework integriert werden, um dessen Informationsverarbeitungsfähigkeiten weiter zu verbessern.

 

03 Die reale Herausforderung des Agenten: Anatomie von zehn Kernthemen

F1: Ist es möglich, komplexe Probleme vollständig zu lösen, nachdem die Modellierungsmöglichkeiten in großem Maßstab verbessert wurden?

Siren Hong: "Es stimmt, dass die Erfolgsquote bei der Lösung vieler Probleme steigt, wenn die Fähigkeiten größerer Modelle zunehmen, aber die Probleme selbst verschwinden nicht." Bei relativ standardisierten Problemen der Codegenerierung mit nur einer Funktion, wie QA Q&A, HumanEval und MBPP, kann ein einzelnes Modell jetzt sehr gut arbeiten.

Von letztem Jahr bis zu diesem Jahr hat sich die Erfolgsrate groß angelegter Modelle bei diesen Problemen der Ebene der praktischen Anwendung angenähert. Gleichzeitig sollte jedoch beachtet werden, dass die menschliche Gesellschaft immer noch eine große Anzahl äußerst komplexer Probleme mit Long-Tail-Effekten hat, darunter maschinelles Lernen, Code-Fixing und Probleme, bei denen nach Kombinationen von Ergebnissen gesucht werden muss, bevor sie den Nutzern zur Verfügung gestellt werden können. In diesen Bereichen ist noch viel technologische Innovation erforderlich, um die Leistung großer Modelle zu verbessern, insbesondere bei der Lösung von "Illusions"-Problemen.

F2: Welcher Zusammenhang besteht zwischen der Verbesserung der Fähigkeit zur Erstellung von Großmodellen und dem Fortschritt der Agententechnologie?

Xiang Jinyu: "Agenten und große Modelle können eine vertikale oder orthogonale Beziehung haben. Die Verbesserung des Rahmens selbst wird durch die Verbesserung der Modellfähigkeit mehr Funktionalität erhalten, und die beiden stehen nicht im Widerspruch zueinander."

Der Agentenrahmen ermöglicht es großen Modellen, mit der physischen Welt oder der weiteren Umgebung zu interagieren, indem er sie um weitere Werkzeuge erweitert. Gleichzeitig werden durch Fortschritte bei den großen Modellen selbst deren Denk- und Planungsfähigkeiten verbessert. Beide können in Verbindung miteinander verwendet oder unabhängig voneinander entwickelt werden.

"Die Beziehung ist eher komplementär als konfliktreich". schloss Xiang Jinyu.

F3: Wie ist der aktuelle Entwicklungsstand des Foundation Agent Model?

Xiang Jinyu: "In letzter Zeit verfolge ich zufällig einige verwandte Forschungsarbeiten, auch wenn sie nicht unbedingt in die Kategorie des Foundation Agent Model fallen."

Er erwähnte die Versuche des Teams von Pan Jiayi im Rahmen des SWE-GYM-Projekts, das darauf abzielt, das Problem der Codebase-Reparatur zu lösen. Sie verwendeten Daten, die nach der Ausführung von Modellen auf der Grundlage von Claude oder GPT-4o erzeugt wurden, und sammelten Trajektoriendaten während des Agentenbetriebs mit Hilfe von Frameworks wie Openhands. Die Trajektoriendaten enthalten sowohl Erfolgs- als auch Misserfolgsfälle. Die gesammelten Trajektoriendaten wurden wiederverwendet, um das Open-Source-Modell Qwen zu trainieren, und es wurde festgestellt, dass die Fähigkeit des Qwen-Modells zur Code-Reparatur nach diesem Training erheblich verbessert wurde. Die Einzelheiten der Studie wurden in dem Papier erläutert, und die Forschungsergebnisse sind solide und zuverlässig.

"Die derzeitige Schwierigkeit bei der Verallgemeinerung dieser Art von Arbeit besteht darin, dass wir z. B. bei der SWE-Bench-Evaluierung explizit beurteilen können, ob eine Aufgabe korrekt erledigt wurde, aber in realen Anwendungsszenarien ist es in vielen Fällen sehr schwierig, die Genauigkeit oder Qualität der Aufgabenerledigung quantitativ zu bewerten (z. B. beim Schreiben eines Romans oder eines Witzes)." Xiang Jinyu wies darauf hin: "Genau wie in realen Arbeitsszenarien, wenn Praktikanten und leitende Angestellte gleichzeitig eine Aufgabe erledigen und ihre Leistung bewertet werden soll, ist es tatsächlich sehr schwierig, objektiv zu urteilen und muss auf der Grundlage einer Menge subjektiver Geschäftslogik und Kriterien bestimmt werden. Diese Art der automatischen Gestaltung des Bewertungsfeedbacks bei offenen Aufgaben ist auch eine wichtige Richtung, die wir in Zukunft erforschen wollen."

F4: Hängt der Fortschritt des Agenten bei den Planungsfähigkeiten weitgehend von dem groß angelegten Modell selbst ab?

Xiang Jinyu: "Der derzeitige Fortschritt in der Planung hängt einerseits von der Verbesserung der eigenen Fähigkeiten des Modells ab, andererseits kann er nicht von der Unterstützung durch externe Strukturen getrennt werden, d. h. von der Einbeziehung komplexerer Strukturen auf der Ebene des Agenten zur Unterstützung der Planung." So hat beispielsweise die frühe Arbeit an Denkbäumen (Tree of Thought, TOT) die Leistung von Modellen bei der Lösung von Aufgaben durch die Einführung zusätzlicher Strukturen erheblich verbessert. Ähnliche Forschungsarbeiten im Zusammenhang mit externen Strukturhilfen gibt es auch im Bereich der Planung.

F5: Welche Schwierigkeiten gibt es bei der Verwendung externer Tools für Agenten?

Xinbing Liang: "Derzeit verwenden wir bei OpenManus noch hauptsächlich einige bestehende Open-Source-Tools, wie Cloud Computer und Browser. Forschungen anderer Teams über die Verwendung von Browser haben gezeigt, dass diese beiden Tools allein im Grunde viele Aufgaben bewältigen können, und haben zunächst den Prototyp von Manus gebildet."

Was die Frage betrifft, "ob ein Agent ein Tool verwenden möchte, das derzeit nicht existiert", so sagte Liang, dass das Team auch die Möglichkeit ins Auge fasst, in Zukunft eine Funktion hinzuzufügen, die Agenten befähigt, selbst Tools zu erstellen. "Wenn ein Agent ein Tool benötigt, um eine Aufgabe zu erledigen, kann er es selbst erstellen und verwenden, wenn es in der aktuellen Umgebung kein geeignetes Tool gibt. Dies wird den Agenten weiter befähigen."

Siren Hong: "Ich denke, die Verwendung von Werkzeugen für große Modelle oder Agenten ist an sich nichts Neues. Mit der allmählichen Zunahme der Zahl der Werkzeuge ergeben sich jedoch technische Schwierigkeiten: Wie kann ein Agent bei einer großen Zahl von Werkzeugen mit ähnlichen Funktionen genaue Entscheidungen treffen, das am besten geeignete Werkzeug auswählen und Entscheidungsfehler bei der Lösung derselben Aufgabe vermeiden?"

Wenn anstelle einer standardisierten Werkzeugschnittstelle ein benutzerdefiniertes Werkzeug verwendet wird, kann ein weiteres Problem auftreten: Die Parameter des Werkzeugs sind nicht vernünftig oder klar definiert, was dazu führt, dass große Modelle bei der Generierung von Entscheidungen über den Aufruf des Werkzeugs fehleranfällig sind, was wiederum die Wirksamkeit der Werkzeugimplementierung beeinträchtigt. Dies sind Schlüsselfragen, die in der Tool-Nutzungskette angegangen werden müssen.

"Eine weitere Schwierigkeit besteht darin, dass nicht nur die Auswahl und Nutzung des Tools selbst, sondern auch der Kontext viele detaillierte Informationen enthalten kann. Wenn ein Benutzer beispielsweise mehrere Webseiten gleichzeitig öffnet, können die Informationen und Daten auf diesen Seiten (z. B. die Uhrzeit eines bestimmten Lebenslaufs, die Startzeit eines auf einer anderen Webseite erwähnten Ereignisses) verwirrend oder falsch sein, wenn der Agent sie integriert, um das Endergebnis zu erzeugen. Wie sichergestellt werden kann, dass der Agent diese detaillierten Informationen bei der Verwendung des Tools korrekt verarbeitet, ist ebenfalls ein Problem, auf das man sich bei praktischen Anwendungen konzentrieren muss". fügte Hong Sirui hinzu.

F6: Werden sich Protokolle wie MCP in Bezug auf die Verwendung von Instrumenten durchsetzen?

Liang Xinbing: "Das MCP-Protokoll wird jetzt mehr und mehr zum Standard".

Die Fähigkeit, das Werkzeug zu nutzen, hängt davon ab, ob das Modell selbst über eine gute Fähigkeit zur Nutzung des Werkzeugs verfügt. Da einige Modelle möglicherweise nicht über die Fähigkeit verfügen, Werkzeuge zu verwenden, oder in dieser Hinsicht schwach sind, ist ihre Effektivität beim Einsatz von Werkzeugen begrenzt. Daher ist die Beliebtheit von Werkzeugprotokollen eng mit den starken Werkzeugfähigkeiten der Modelle selbst verbunden.

F7: Welche Fortschritte und Schwierigkeiten gibt es für Agenten bei der Bewältigung umfangreicher Kontexte (Speicherverwaltung)?

Siren Hong: "Inzwischen kennen Sie vielleicht schon einige verwandte Forschungsarbeiten, wie MemoryGPT oder das Open-Source-Projekt Mem0, die beide einige Optimierungen und Behandlungen für längere Kontexte und Speicherverwaltung für Agenten bieten."

MemoryGPT fasst beispielsweise Kontexte einer bestimmten Länge zusammen, was eine sehr schlichte, aber effektive Denkweise ist, und Mem0 verwendet aktiv Werkzeuge im Prozess der Speicheraktualisierung, die Operationen wie Speicherlöschung, Speicheraktualisierung und -addition umfassen.

"Derzeit ist es für Agenten ein schwieriges Problem, den Kontext zu komprimieren und im Speicher abzulegen, wenn es um komplexe, weitreichende Aufgaben geht (z. B. beim Browsen von Webseiten, die sehr viele Informationen enthalten können), und sicherzustellen, dass kritische Informationen nach der Komprimierung nicht verändert oder ausgelassen werden." Siren Hong merkt an, dass "einige frühe Arbeiten gezeigt haben, dass das Gedächtnis mit der Zeit oder den Aufgabenschritten schwindet".

Andererseits gibt es verschiedene Arten des menschlichen Gedächtnisses, nicht nur das Gedächtnis für semantische Informationen, sondern auch das prozedurale Gedächtnis, das durch den Gebrauch von Werkzeugen entsteht, sowie das Gedächtnis für ereignisbezogene Beziehungen. Auch Wissenschaftler haben die verschiedenen Gedächtnistypen getrennt voneinander optimiert.

Die obige Diskussion bezieht sich auf die Speicherverwaltung in einem einzelnen Agenten. In einem multi-intelligenten System kann das Gedächtnis jedoch geschickter eingesetzt werden. Neben einer gewissen Isolierung von Erinnerungen möchte man die von anderen Agenten im Problemlösungsprozess erzeugten Erinnerungen wiederverwenden, um die eigene Erfahrung bei der Bewältigung bestimmter Aufgaben zu verbessern. Darüber hinaus können sich Agenten so entwickeln, dass sie die Problemlösungserfahrungen der Gruppe wiederverwenden und schließlich eine Art Gruppenintelligenz bilden.

Xinbing Liang: "Das Kernproblem der Speicherverwaltung sind die Kosten." Wenn die Speicherverwaltung nicht berücksichtigt wird, ohne Komprimierung und jegliche Verarbeitung, und der gesamte Speicher direkt verwendet wird, können die aktuellen großen Modelle immer noch verarbeitet werden, aber das Problem, das dies mit sich bringt, ist nicht eine Leistungsverschlechterung, sondern eine erhebliche Zunahme der Verarbeitungszeit und der Kosten, was die Benutzererfahrung ernsthaft beeinträchtigt.

Das Problem der Speicherverwaltung betrifft also die Optimierung auf technischer Ebene. Es gibt bereits eine Reihe von Unternehmen oder Organisationen, die versuchen, Lösungen für die Speicherverwaltung zu optimieren.

"Ein aktueller Ansatz zur Lösung des Speicherverwaltungsproblems ist die Verwendung eines Multi-Intelligenz- oder Tool-gestützten Ansatzes. In Frameworks wie OpenManus beispielsweise wird ein Aufgabenplan in der Regel zunächst von einem Planungswerkzeug erstellt, das eine komplexe Aufgabe in mehrere Teilaufgaben unterteilt, wobei die Speicher zwischen den einzelnen Teilaufgaben unvollständig geteilt werden, und den Prozess nach der Ausführung der Aufgabe zusammenfasst oder komprimiert". erklärte Liang Xinbing.

F8: Womit wird Agent letztendlich bei der Vermarktung vor Ort konkurrieren?

Siren Hong: "Ich denke, das Wichtigste ist, die Aufgaben und Effekte in realen Szenarien zu maximieren, einschließlich Personalisierungsfunktionen." Viele der aktuellen akademischen Forschungsbemühungen, sei es für SWEBench, GAIA oder andere Agententests, haben immer noch begrenzte Erfolgsquoten bei den Aufgaben. Wendet man diesen relativ kleinen Aufgabenstandard auf reale Geschäftsszenarien an, so ist die derzeitige Erfolgsquote von Agenten angesichts unterschiedlicher Benutzer und unterschiedlicher Problemstellungen immer noch recht begrenzt.

"Ob es sich nun um eine Programmieraufgabe oder eine Aufgabe zur Datenerfassung und Berichterstellung handelt, wenn wir für eine Vielzahl von Benutzerproblemen und -szenarien das Beste tun, die Erfolgsquote auf ein zufriedenstellendes Niveau steigern und wirklich erkennen können, dass der Agent zu den Handlungen fähig ist, die die Menschen heute erwarten, glaube ich, dass die Benutzer den Agenten weiterhin als Assistent und Werkzeug in ihrem täglichen Leben verwenden werden. " betonte Hong Si Rui.

F9: Die derzeitigen Kosten für Manus, OpenManus und andere Agenten sind hoch; wie können wir die Kosten weiter senken und die Effizienz verbessern?

Siren Hong: "Erstens optimieren zahlreiche Anwendungsanbieter, darunter auch wir, den Token-Verbrauch. Sei es auf technischer Ebene durch Caching oder Speicherkomprimierungstechniken, das Ziel ist es, die Kontextlänge jedes API-Aufrufs zu minimieren, und das ist die Richtung der laufenden Optimierung auf Anwendungsebene."

"Darüber hinaus ist es wahrscheinlich, dass die Menschen in Zukunft eine große Anzahl kleiner Modelle zur Feinabstimmung oder zum Verstärkungslernen auf der Grundlage vorhandener Daten einsetzen werden, wobei der Schwerpunkt auf der Optimierung der Fähigkeit zur Nutzung bestimmter spezifischer Knotenpunkte oder Tools liegt. Durch die Integration der Fähigkeiten mehrerer kleiner Modelle ist zu erwarten, dass sie große Modelle ergänzen oder sogar übertreffen können. Dies kann zu erheblichen Kostenvorteilen in Bezug auf die Inferenzgeschwindigkeit, den Token-Verbrauch und die Kosten führen." fügte Siren Hong hinzu.

F10: Wie können wir die Geschäftsaussichten von Multi-Intelligenz bewerten?

Siren Hong: "Erstens glauben wir, dass im Bereich der Codegenerierung sowohl Single-Agent- als auch multi-intelligente Körpersysteme früher kommerziell nutzbar sein werden."

"Wir haben festgestellt, dass eine große Anzahl von Nutzern, die über durchschnittliche Programmierkenntnisse verfügen, aber einige grundlegende Konzepte verstehen, die Hilfe von intelligenten oder großen Modellen benötigen, wenn sie eine persönliche Website oder eine einfache Anwendung selbst erstellen wollen. Wenn NutzerInnen große Modelle direkt verwenden, kann dies mehrere Interaktionsrunden und einen langwierigen Debugging-Prozess erfordern. Mit einem produktbasierten System von Intelligenzen ist der Prozess jedoch viel einfacher. Die Nutzer brauchen vielleicht nur 15 Minuten oder eine halbe Stunde, selbst wenn sie spätere Änderungen der Anforderungen berücksichtigen, um schnell eine zufriedenstellende Website oder Anwendung zu erhalten."

"Daher denke ich, dass die Geschäftsaussichten für Multi-Intelligentsia klar und stark sind, wenn es darum geht, die tatsächlichen Bedürfnisse der Nutzer wirklich effektiv zu lösen, und auch die Codegenerierung ist ein Szenario, das die Agententechnologie derzeit besser lösen kann. Derzeit ist die Zahlungsbereitschaft der Nutzer in dieser Hinsicht auch relativ hoch". schloss Hong Sirui.

 

04 Kommerzialisierung von Agenten: Codegenerierung als Wegbereiterin

F1: Können Sie MGX, ein Multi-Intelligence-Produkt, kurz vorstellen?

Hunseri: "Wenn die Menschen mit MetaGPT vertraut sind, verstehen sie die MGX Es ist ein Produkt, bei dem mehrere Intelligenzen gleichzeitig online zusammenarbeiten, um den Nutzern bei der Lösung von Problemen zu helfen. Die Nutzer müssen es nur verwenden wie ChatGPT Sobald eine Anforderung eingegeben wird, zerlegt eine leistungsfähige Intelligenz die Aufgabe und verteilt sie an verschiedene Intelligenzen, die sie ausführen sollen."

"Das gesamte Produkt konzentriert sich derzeit auf den Bereich der Codegenerierung. Wenn ein Nutzer zum Beispiel eine persönliche Website, ein Spiel oder eine Datenanalyseanwendung usw. erstellen möchte, kann unser intelligenter Körper diese Aufgabe sehr gut erledigen. Während des Entwicklungsprozesses können die Nutzer ihre Anforderungen jederzeit ändern, z. B. den Stil, die Typografie oder das Layout des Front-End-Projekts anpassen, was unsere Intelligenz ebenfalls auf natürliche Weise tun kann, wodurch die Entwicklungskosten erheblich gesenkt werden."

Im Gegensatz zu Produkten wie Manus und OpenManus verfügt MGX über automatische Bereitstellungsfunktionen. Während des Entwicklungsprozesses wird die Software automatisch bereitgestellt, und die Benutzer können die Ergebnisse in Echtzeit überprüfen und anpassen. Darüber hinaus verfügt jede der Intelligenzen im MGX-Produkt über die bereits erwähnten Aufrufe von Computer- und Browser-Tools sowie über Planungs- und Code-Ausführungsfunktionen.

"Wir untersuchen auch intern die ästhetische Bewertung von Design- oder Datenvisualisierungseffekten, und in Zukunft werden wir vielleicht eine entsprechende Benchmark entwickeln, um großen Modellen oder Agenten dabei zu helfen, zu beurteilen, ob die generierten Seiten oder Daten-Dashboards den Erwartungen der Nutzer und den ästhetischen Standards entsprechen." verriet Hong Sirui.

Nachstehend finden Sie einige Beispiele für von MGX erstellte Websites:

Persönliche Website:

  • https://alex-portfolio-yhx5c3-v1.mgx.world/
  • https://photographer-portfolio-myuf2t-v1.mgx.world

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt -2

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt-3

Persönlicher Blog:

  • https://personal-blog-v7amdv-v2.mgx.world
  • https://cute-cartoon-blog-p58801-v1.mgx.world

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt-4

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt-5

Persönliche Visitenkarten:

  • https://portfolio-dveerm-v1.mgx.world
  • https://emma-anderson-homepage-8rnqm6-v1.mgx.world

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt-6

Der Autor des OpenManus-Kerns erklärt, wie man das Agent-Framework in drei Stunden fertigstellt-7

F2: Wird MGX DEV mit neuen Agententypen nachziehen?

Siren Hong: "MGX wird auch in Zukunft neue Agententypen hinzufügen. Derzeit experimentieren wir intern mit einer neuen Art von Intelligenz namens User Agent". Wenn das Projekt eines Nutzers bereitgestellt wird, kann es unter Umständen nicht direkt ausgeführt werden oder Fehler aufweisen, die zu leeren Seiten usw. führen. Der User Agent wird die Auswirkungen der Bereitstellung des Projekts aktiv erkennen, z. B. Screenshots der Seite machen, aktiv mit der Webseite interagieren, die Machbarkeit und Ausführbarkeit der generierten Software testen und dann andere für die Entwicklung zuständige Intelligenzen benachrichtigen, um das Problem zu beheben, damit das Projekt perfekter abgeschlossen werden kann. "Außerdem können wir intern Benchmarks für die ästhetische Bewertung von Design- oder Datenvisualisierungseffekten erstellen, mit denen der Agent feststellen kann, ob die Qualität und ästhetische Leistung einer Seite oder eines Daten-Dashboards den Erwartungen entspricht." fügte Hong Siren hinzu.

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Der Autor des OpenManus-Kerns erzählt: Wie man das Agent-Framework in drei Stunden fertigstellt!

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)