Allgemeine Einführung
AppAgent ist ein multimodales Agenten-Framework, das auf dem Large Language Model (LLM) basiert und für die Bedienung von Smartphone-Anwendungen entwickelt wurde. Das Framework erweitert seine Anwendbarkeit über verschiedene Anwendungen hinweg durch einen vereinfachten Manipulationsraum, der menschliche Interaktionen wie Taps und Swipes nachahmt und so die Notwendigkeit eines Backend-Zugriffs auf das System eliminiert. Der AppAgent lernt, neue Anwendungen durch autonomes Erkunden oder Beobachten menschlicher Demonstrationen zu nutzen, und generiert eine Wissensbasis zur Durchführung komplexer Aufgaben.
Tencent hat AppAgent auf den Markt gebracht, einen multimodalen intelligenten Körper, der die Mobiltelefonschnittstelle direkt bedienen kann, indem er die aktuelle Mobiltelefonschnittstelle und die Benutzerbefehle erkennt, und das Mobiltelefon wie ein echter Benutzer bedienen kann! So kann er zum Beispiel Fotobearbeitungssoftware bedienen, um Bilder zu bearbeiten, Kartenanwendungen öffnen, um zu navigieren, einkaufen und so weiter.
Projekt-Homepage: https://appagent-official.github.io
Link zum Papier: https://arxiv.org/abs/2312.13771
Zusammenfassung der Dissertation
Mit den jüngsten Fortschritten im Bereich der Large Language Models (LLMs) wurden intelligente Körper geschaffen, die komplexe Aufgaben erfüllen können. In diesem Beitrag stellen wir einen neuartigen, multimodalen Rahmen für intelligente Körper vor, der auf Large Language Models basiert und für die Bedienung von Smartphone-Anwendungen konzipiert ist. Unser Framework ermöglicht es intelligenten Körpern, Smartphone-Apps durch einen vereinfachten Manipulationsraum so zu manipulieren, dass es so ist, als ob ein Mensch Klick- und Wischoperationen durchführt. Dieser innovative Ansatz umgeht die Notwendigkeit eines direkten Zugriffs auf das Back-End des Systems und eignet sich daher für eine breite Palette unterschiedlicher Anwendungen. Das Herzstück der Funktionalität unserer Intelligenz ist ihr innovativer Lernansatz. Der Intelligente Körper lernt durch Selbsterkundung oder durch Beobachtung menschlicher Demonstrationen, wie er sich in neuen Anwendungen zurechtfindet und diese nutzt. In diesem Prozess baut er eine Wissensbasis auf, auf die er sich stützt, um komplexe Aufgaben in verschiedenen Anwendungen zu erfüllen. Um die Nützlichkeit unserer Intelligenz zu demonstrieren, haben wir sie gründlich an 50 Aufgaben in 10 verschiedenen Anwendungen getestet, darunter soziale Medien, E-Mail, Karten, Shopping und komplexe Bildbearbeitungsprogramme. Die Testergebnisse zeigen, dass unsere Intelligenz in der Lage ist, ein breites Spektrum an fortgeschrittenen Aufgaben zu bewältigen.
Funktionsliste
- selbstgesteuertes ErkundenAgenten können selbstständig Anwendungen erkunden, interaktive Elemente aufzeichnen und Dokumentationen erstellen.
- Menschliche Demonstration LernenDer Agent lernt die Aufgabe durch Beobachtung einer menschlichen Demonstration und erstellt die entsprechende Dokumentation.
- MandatsumsetzungWährend der Einsatzphase führt der Agent komplexe Aufgaben auf der Grundlage der erstellten Dokumente aus.
- Multimodale EingängeUnterstützt sowohl textuelle als auch visuelle Eingaben, entweder mit den Modellen GPT-4V oder Qwen-VL-Max.
- CAPTCHA-Verarbeitung: Kann durch CAPTCHA authentifiziert werden.
- Erkennung von UI-ElementenRaster-Overlays zur Positionierung von unmarkierten UI-Elementen verwenden.
Hilfe verwenden
Installation und Konfiguration
- Herunterladen und Installieren: Laden Sie die Projektdateien von der GitHub-Seite herunter und installieren Sie die erforderlichen Abhängigkeiten.
- Konfigurationsdatei: Ändern Sie das Wurzelverzeichnis von
config.yaml
Datei, um den API-Schlüssel für das Modell GPT-4V oder Qwen-VL-Max zu konfigurieren. - angeschlossenes GerätVerbinden Sie Ihr Android-Gerät über USB und aktivieren Sie das USB-Debugging in den Entwickleroptionen.
Modell der Selbstexploration
- eine Erkundung starten: Lauf
lernen.py
Datei, wählen Sie Autonomer Erkundungsmodus und geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein. - Interaktionen aufzeichnenDer Agent wird die Anwendung automatisch erkunden, Interaktionselemente aufzeichnen und eine Dokumentation erstellen.
Demonstrationsmodus für Menschen
- Startup-Demo: Lauf
lernen.py
Datei, wählen Sie Human-Demo-Modus und geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein. - Demo für FührungskräfteFolgen Sie den Anweisungen und der Agent wird alle Interaktionen aufzeichnen und eine Dokumentation erstellen.
Mandatsumsetzung
- Aufgaben einleiten: Lauf
run.py
Datei, geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein und wählen Sie die entsprechende Dokumentenbibliothek aus. - betreiben.Der Agent führt Aufgaben aus, um komplexe Vorgänge auf der Grundlage der Dokumentation abzuschließen.
Detaillierte Vorgehensweise
- Projekt herunterladen: Besuchen Sie die GitHub-Seite, laden Sie die Projektdateien herunter und entpacken Sie sie.
- Installation von Abhängigkeiten: In einem Terminal ausführen
pip install -r anforderungen.txt
Installieren Sie alle Abhängigkeiten. - KonfigurationsmodellÄndern nach Bedarf
config.yaml
Datei, um den API-Schlüssel für das Modell GPT-4V oder Qwen-VL-Max zu konfigurieren. - angeschlossenes GerätSchließen Sie Ihr Android-Gerät über USB an und aktivieren Sie den USB-Debug-Modus auf dem Gerät.
- Initiieren Sie eine Erkundung oder Demonstration: Lauf
lernen.py
Datei, wählen Sie den Modus Autonome Erkundung oder Menschliche Demonstration und geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein. - Dokumentation generierenDer Agent zeichnet alle Interaktionen auf und erstellt eine Dokumentation für die spätere Aufgabenausführung.
- betreiben.: Lauf
run.py
Dokument, geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein, wählen Sie die entsprechende Dokumentenbibliothek aus, und der Agent wird die Aufgabe auf der Grundlage des Dokuments ausführen.