Wie funktionieren universelle Aufgabenintelligenzen wie Manus?

AI-AntwortenGeschrieben vor 7 Monaten AI-Austauschkreis

16.3K 00

Das Herzstück von Manus ist seine auf mehreren Agenten basierende Architektur, die es mehreren intelligenten Agenten ermöglicht, gemeinsam an allgemeinen, vom Benutzer vorgeschlagenen Aufgaben zu arbeiten. Der Arbeitsablauf kann in den folgenden Schlüsselschritten zusammengefasst werden:

Absichtserkennung: der erste Schritt zum Verständnis der Nutzerbedürfnisse

Der Ausgangspunkt für eine intelligente Aufgabenausführung ist ein genaues Verständnis der Bedürfnisse des Benutzers; das Intent Recognition Module von Manus nimmt zunächst die Eingabe des Benutzers entgegen, z. B. eine Textanweisung. Das System führt dann die notwendige Absichtserkennung und Schlüsselwortextraktion an der Eingabe durch. Wenn der Benutzer beispielsweise eingibt "Ich möchte nach Japan reisen und brauche einen Reiseplan", analysiert Manus das Schlüsselwort "japan-trip" und identifiziert den Aufgabentyp als " Reise".

Wenn der Benutzer eine allgemeinere Anforderung eingibt und es für das System schwierig ist, seine Absicht genau zu erkennen, wendet Manus eine Führungsstrategie an und leitet mehrere Dialogrunden mit dem Benutzer ein, um die Einzelheiten der Anforderung Schritt für Schritt zu klären. Darüber hinaus unterstützt das System die Nutzer auch beim Hochladen von Dokumenten, Bildern und anderen vielfältigen Informationen als Hilfsmaterial für die Absichtserkennung, um die Absicht des Nutzers umfassender zu verstehen.

Aufgabeninitialisierung: Aufbau einer isolierten Ausführungsumgebung

Nachdem die Absicht des Benutzers genau erfasst wurde, beginnt Manus mit der Initialisierungsphase der Aufgabe. Das System verwendet die identifizierten Schlüsselwörter der Aufgabe, z. B. "japan-trip", um automatisch einen separaten Ordner für die Aufgabe zu erstellen, in dem alle Zwischenprodukte und Endergebnisse während der Ausführung der Aufgabe gespeichert werden.

Darüber hinaus startet Manus für jede Aufgabe einen separaten Docker-Container, der die Isolierung sicherstellt. Das bedeutet, dass jede Aufgabe in einer sauberen und isolierten Umgebung ausgeführt wird, was die Unabhängigkeit der Aufgabenausführung garantiert und Störungen zwischen verschiedenen Aufgaben vermeidet. Das System bereinigt den Docker-Container auch automatisch, nachdem die Aufgaben abgeschlossen sind, damit das System sauber und effizient bleibt.

Schritt-für-Schritt-Planung: Argumentationsmodelle zur Zerlegung komplexer Aufgaben

Der nächste Schritt der Aufgabeninitialisierung ist die Schrittplanung, die Manus Manus verwendet ein leistungsfähiges Schlussfolgerungsmodell, um Aufgaben in detaillierte Schritte zu zerlegen, eine Schlüsselkomponente für die Automatisierung komplexer Aufgaben. Das Schlussfolgerungsmodell zerlegt auf intelligente Weise eine große Zielaufgabe in eine Reihe von ausführbaren Teilaufgaben, indem es die Ergebnisse der Absichtserkennung und Kontextinformationen über die Aufgabe kombiniert.

Zum Beispiel kann das Inferenzmodell die Anforderung "Japan-Reiseplanung" in mehrere Schritte aufteilen, wie "Suche nach Japan-Reisetipps", "Überprüfen von Flugtickets und Hotelinformationen", "Detaillierte Reisevorbereitungen treffen" und so weiter. Die Informationen der aufgeteilten Schritte werden in den Aufgabenordner unter [todo.md](https://t.co/tYosIUPa9o) Datei, um eine strukturierte Aufgabenliste zu erstellen, die die Ausführung der nachfolgenden Aufgaben leitet.

Aufgabenausführung: Multi-Agenten-Zusammenarbeit für einen effizienten Betrieb

Die Phase der Aufgabenausführung ist das Kernstück von Manus. Das System durchläuft die [todo.md](https://t.co/tYosIUPa9o) Datei, die eine Liste von Aufgaben im Markdown-Format enthält.[ ] bezeichnet eine auszuführende Aufgabe.[x] dann handelt es sich um eine abgeschlossene Aufgabe.

Die Aufgabenplanungszentrale von Manus oder der Hauptthread liest die auszuführenden Aufgaben eine nach der anderen ein und leitet den so genannten "Funktionsaufruf" ein, indem sie die Kontextinformationen der Aufgaben kombiniert. Der "Funktionsaufruf" bedeutet in diesem Fall, dass das System die vordefinierten Funktionsmodule, d.h. verschiedene Arten von Agenten, je nach den Anforderungen der Aufgabe aufruft. Manus verfügt über eine Vielzahl eingebauter Agenten, wie z. B. Suchagenten, Code-Agenten, Datenanalyse-Agenten usw., die sich jeweils auf eine bestimmte Art von Aufgaben konzentrieren.

Auf der Grundlage des Ergebnisses des "Funktionsaufrufs" plant Manus den entsprechenden Agenten für die Ausführung der Aufgabe ein, und alle vom Agenten während der Ausführung erzeugten Inhaltsprodukte, wie Suchergebnisse, Codedateien, Analyseberichte usw., werden in den Aufgabenordner des Docker-Containers geschrieben, um eine einheitliche Verwaltung und Speicherung der Daten zu erreichen. Der Agent wird in den Aufgabenordner des Docker-Containers geschrieben, um eine einheitliche Verwaltung und Speicherung der Daten zu erreichen. Nachdem die Aufgabe ausgeführt wurde, aktualisiert der Hauptthread die [todo.md](https://t.co/tYosIUPa9o) Datei, markieren Sie die erledigte Aufgabe und fahren Sie mit der nächsten Aufgabe in der Liste fort, bis alle Schritte abgeschlossen sind.

Zusammenfassen: Ergebnisse ausgeben und Nutzerfeedback sammeln

(coll.) durchfallen (ein Schüler) [todo.md](https://t.co/tYosIUPa9o) Nachdem alle Aufgaben in der Datei als abgeschlossen markiert sind, tritt Manus in die letzte Phase der Zusammenfassung ein. Der Hauptstrang konsolidiert und systematisiert alle Inhaltsprodukte, die während der Ausführung der Aufgaben erzeugt wurden, um die endgültige strukturierte Ausgabe gemäß den ursprünglichen Anforderungen des Benutzers zu bilden.

Die Endergebnisse der Aufgaben werden in verschiedenen Formen präsentiert, z. B. als Dokumente, Code, Bilder, Links usw., und den Nutzern zum Durchsuchen oder Herunterladen zur Verfügung gestellt. Um die Systemleistung und die Nutzererfahrung kontinuierlich zu optimieren, erfasst Manus auch die Zufriedenheit der Nutzer mit der Qualität der erledigten Aufgaben und den Endergebnissen, was wertvolle Hinweise für spätere Iterationen und Upgrades liefert.

Suchagenten-Workflow erklärt: Nachahmung des menschlichen Browsing-Verhaltens

Der Kern der Manus-Lösung liegt im Design des Agenten, der Aufgaben ausführt, und im Planungsprozess des Hauptthreads. Am Beispiel des Suchagenten können wir durch ein tieferes Verständnis seiner Ausführungsschritte für Aufgaben wie "Japan-Reiseplan" besser verstehen, wie Manus funktioniert.

Schlüsselwort-Extraktion und Suche: Der Suchagent erhält zunächst die Schlüsselwort-Informationen, wie z. B. "japan-trip", und ruft Google und andere APIs von Drittanbietern auf, um eine Suchanfrage zu starten und 10-20 relevante Suchergebnisse zu erhalten.
Simuliertes Web-Browsing: Der Suchagent simuliert dann das Verhalten eines Benutzers, der eine Webseite durchsucht. Er "klickt" auf den ersten Link in den Suchergebnissen, nutzt die Headless-Browser-Technologie, um den Inhalt der Webseite zu durchsuchen, erfasst den Text der Webseite und macht einen Screenshot der Webseite, um visuelle Informationen zu erhalten.(Hinweis: Ein Headless Browser ist ein Browser, der ohne grafische Benutzeroberfläche läuft und häufig zur Automatisierung von Webmanipulationen und zum Crawlen von Daten verwendet wird).
Multimodale Informationsextraktion: Als Nächstes ruft der Suchagent Modelle auf, die multimodale Eingaben unterstützen* (Hinweis: Multimodale Modelle sind in der Lage, mehrere Arten von Daten wie Text, Bilder usw. gleichzeitig zu verarbeiten).Ausgehend von den aktuellen Aufgabenanforderungen und den Webseiteninformationen extrahiert der Agent gültige Informationen aus der aktuell angezeigten Webseite, indem er z. B. feststellt, ob der Inhalt der Webseite Ergebnisse enthält, die den Anforderungen des Reiseplans entsprechen. Wenn die Informationen auf der aktuellen Webseite unzureichend sind, wird der Agent auchAnalyse der Struktur einer Webseite* um das nächste Schaltflächenelement zu finden und zurückzugeben, das nützliche Informationen enthalten könnte.
Iteratives Sammeln von Informationen: Der Suchagent simuliert die Klicks und Scrolls des Benutzers, um zusätzliche Webinhalte und visuelle Informationen zu erhalten. Dieser Vorgang wird mehrmals wiederholt, bis die gesammelten Informationen den Anforderungen der Aufgabe entsprechen.
Inhaltsspeicherung: Abschließend speichert der SEARCH AGENT alle gesammelten Informationen im Aufgabenordner, um Daten für die nachfolgenden Schritte bereitzustellen.

Der Kern des Suchagenten besteht darin, das reale Verhalten der Nutzer beim Durchsuchen von Webseiten zu simulieren, was ihn in die Lage versetzt, genau wie ein Mensch die gewünschten Informationen aus der riesigen Menge an Informationen im Internet zu finden und zu extrahieren. Die Anwendung von Headless Browsern und multimodalen Modellen ist die wichtigste technische Unterstützung zur Erreichung dieses Ziels.

Code-Agent und Daten-Analyse-Agent: Rationalisierung von Code-Aufgaben und Datenanalyse

Im Vergleich zum Suchagenten haben der Code-Agent und der Datenanalyse-Agent einen relativ einfachen, aber ebenso effizienten Arbeitsablauf.

Der Code-Agent ist hauptsächlich für die Codegenerierung und -ausführung zuständig. Wenn er eine Aufgabe zum Schreiben von Code erhält, erstellt der Code-Agent je nach den Anforderungen der Aufgabe eine lokale Codedatei, z. B. Python-Code oder HTML-Code, und schreibt den generierten Code in die Datei. Für Datenanalyseaufgaben kann der Code-Agent Python-Code erzeugen, während er für die Ergebnispräsentation HTML-Code für die visuelle Darstellung erzeugen kann. Der Code-Agent führt dann den Code über Systemaufrufe aus und speichert die Ergebnisse im Aufgabenordner. Damit die Benutzer leichter sehen können, wie der Code ausgeführt wird, bietet Manus auch einen Code-Vorschaudienst, um den Inhalt der HTML-Datei in der Vorschau anzuzeigen.

Der Datenanalyse-Agent konzentriert sich auf Datenverarbeitungs- und Analyseaufgaben. Sein Arbeitsablauf ähnelt dem eines Code-Agenten, aber der Hauptunterschied besteht darin, dass sich ein Datenanalyse-Agent mehr auf die Implementierung der Datenanalyselogik und die Gewinnung von Datenerkenntnissen konzentriert.

Zukunftsperspektiven: Multi-Agenten-Intelligenz in ständiger Entwicklung

Obwohl Manus starke Fähigkeiten im Bereich der allgemeinen Aufgabenintelligenz bewiesen hat, gibt es noch viel Raum für Verbesserungen bei solchen Multi-Agenten-Produkten.

Erstens, im Bereich der Verwaltung der Mandatsabhängigkeit, ist die derzeitige [todo.md](https://t.co/tYosIUPa9o) Die Aufgaben in der Aufgabe weisen eher lineare Abhängigkeiten auf. In Zukunft können DAGs (gerichtete azyklische Graphen) eingeführt werden (Anmerkung: DAG, Directed Acyclic Graph, ein grafisches Modell zur Darstellung von Aufgabenabhängigkeiten und Ausführungssequenzen, ermöglicht die Darstellung komplexerer Aufgabenabläufe). komplexere und flexiblere Aufgabenabhängigkeiten zu ermöglichen, um auf komplexere Anforderungen in realen Szenarien zu reagieren.

Zweitens kann im Hinblick auf die Genauigkeit und Zuverlässigkeit der Aufgabenausführung ein automatischer Testagent eingeführt werden, der in der Lage ist, die Ergebnisse der Aufgabe automatisch zu bewerten und zu beurteilen, und wenn die Bewertung eines bestimmten Schritts zu niedrig ist, kann das System zu einem früheren Aufgabenknoten zurückgehen und den betreffenden Schritt erneut ausführen, um so eine automatische Korrektur und Optimierung der Aufgabe zu erreichen.

Darüber hinaus ist auch die Konvergenz der Modi der Mensch-Computer-Zusammenarbeit eine wichtige Entwicklung. manus kann hybride Modi der vollständigen Automatisierung und des Benutzereingriffs ermöglichen. So kann das System beispielsweise nach der Ausführung eines Schritts zunächst eine Rückmeldung des Benutzers einholen, und wenn dieser nicht innerhalb einer bestimmten Zeitspanne eine Rückmeldung gibt, wird der Vorgang automatisch fortgesetzt, so dass ein optimales Gleichgewicht zwischen Automatisierung und Flexibilität gefunden wird.

Zusammenfassung und Herausforderungen

Insgesamt hat Manus erhebliche Fortschritte bei der technischen Umsetzung gemacht, und die Interaktionserfahrung ist im Vergleich zu anderen ähnlichen Produkten insgesamt positiv. Aus technischer Sicht hängt Manus jedoch immer noch stark von den Fähigkeiten des zugrunde liegenden Modells ab. Es wird spekuliert, dass Manus leichtgewichtige Modelle für die Absichtserkennung verwenden könnte, während Aufgabenplanung und Schlussfolgerungen sich auf DeepSeek-R1 Solche groß angelegten Sprachmodelle. Für die Bilderkennung und Codegenerierung sind fortgeschrittene Modelle wie Claude-3.7-Sonnet ebenfalls die Technologie der Wahl von Manus.

hoch Token Der Verbrauch zeigt, dass die Kostenkontrolle eine zentrale Herausforderung für die Popularität von Anwendungen wie Manus sein wird. Die Frage, wie die Token-Kosten effektiv gesenkt und die Genauigkeit der Aufgabenausführung sowie die Benutzerzufriedenheit verbessert werden können, wird in Zukunft die Hauptrichtung sein, die alle Multi-Agenten-Produkte, einschließlich Manus, weiter erforschen und optimieren müssen. Es bleibt abzuwarten, ob Manus in großem Umfang eingesetzt werden kann und auf dem Markt breite Anerkennung findet.