AI Personal Learning
und praktische Anleitung

AppAgent: automatisierte Smartphone-Bedienung durch multimodale Intelligenz

Allgemeine Einführung

AppAgent ist ein multimodales Agenten-Framework, das auf dem Large Language Model (LLM) basiert und für die Bedienung von Smartphone-Anwendungen entwickelt wurde. Das Framework erweitert seine Anwendbarkeit über verschiedene Anwendungen hinweg durch einen vereinfachten Manipulationsraum, der menschliche Interaktionen wie Taps und Swipes nachahmt und so die Notwendigkeit eines Backend-Zugriffs auf das System eliminiert. Der AppAgent lernt, neue Anwendungen durch autonomes Erkunden oder Beobachten menschlicher Demonstrationen zu nutzen, und generiert eine Wissensbasis zur Durchführung komplexer Aufgaben.

 


AppAgent: automatisierte Smartphone-Bedienung durch multimodale Intelligenz

 

Tencent hat AppAgent auf den Markt gebracht, einen multimodalen intelligenten Körper, der die Mobiltelefonschnittstelle direkt bedienen kann, indem er die aktuelle Mobiltelefonschnittstelle und die Benutzerbefehle erkennt, und das Mobiltelefon wie ein echter Benutzer bedienen kann! So kann er zum Beispiel Fotobearbeitungssoftware bedienen, um Bilder zu bearbeiten, Kartenanwendungen öffnen, um zu navigieren, einkaufen und so weiter.

Projekt-Homepage: https://appagent-official.github.io
Link zum Papier: https://arxiv.org/abs/2312.13771

Zusammenfassung der Dissertation

Mit den jüngsten Fortschritten im Bereich der Large Language Models (LLMs) wurden intelligente Körper geschaffen, die komplexe Aufgaben erfüllen können. In diesem Beitrag stellen wir einen neuartigen, multimodalen Rahmen für intelligente Körper vor, der auf Large Language Models basiert und für die Bedienung von Smartphone-Anwendungen konzipiert ist. Unser Framework ermöglicht es intelligenten Körpern, Smartphone-Apps durch einen vereinfachten Manipulationsraum so zu manipulieren, dass es so ist, als ob ein Mensch Klick- und Wischoperationen durchführt. Dieser innovative Ansatz umgeht die Notwendigkeit eines direkten Zugriffs auf das Back-End des Systems und eignet sich daher für eine breite Palette unterschiedlicher Anwendungen. Das Herzstück der Funktionalität unserer Intelligenz ist ihr innovativer Lernansatz. Der Intelligente Körper lernt durch Selbsterkundung oder durch Beobachtung menschlicher Demonstrationen, wie er sich in neuen Anwendungen zurechtfindet und diese nutzt. In diesem Prozess baut er eine Wissensbasis auf, auf die er sich stützt, um komplexe Aufgaben in verschiedenen Anwendungen zu erfüllen. Um die Nützlichkeit unserer Intelligenz zu demonstrieren, haben wir sie gründlich an 50 Aufgaben in 10 verschiedenen Anwendungen getestet, darunter soziale Medien, E-Mail, Karten, Shopping und komplexe Bildbearbeitungsprogramme. Die Testergebnisse zeigen, dass unsere Intelligenz in der Lage ist, ein breites Spektrum an fortgeschrittenen Aufgaben zu bewältigen.

 

Funktionsliste

  • selbstgesteuertes ErkundenAgenten können selbstständig Anwendungen erkunden, interaktive Elemente aufzeichnen und Dokumentationen erstellen.
  • Menschliche Demonstration LernenDer Agent lernt die Aufgabe durch Beobachtung einer menschlichen Demonstration und erstellt die entsprechende Dokumentation.
  • MandatsumsetzungWährend der Einsatzphase führt der Agent komplexe Aufgaben auf der Grundlage der erstellten Dokumente aus.
  • Multimodale EingängeUnterstützt sowohl textuelle als auch visuelle Eingaben, entweder mit den Modellen GPT-4V oder Qwen-VL-Max.
  • CAPTCHA-Verarbeitung: Kann durch CAPTCHA authentifiziert werden.
  • Erkennung von UI-ElementenRaster-Overlays zur Positionierung von unmarkierten UI-Elementen verwenden.

 

Hilfe verwenden

Installation und Konfiguration

  1. Herunterladen und Installieren: Laden Sie die Projektdateien von der GitHub-Seite herunter und installieren Sie die erforderlichen Abhängigkeiten.
  2. Konfigurationsdatei: Ändern Sie das Wurzelverzeichnis von config.yaml Datei, um den API-Schlüssel für das Modell GPT-4V oder Qwen-VL-Max zu konfigurieren.
  3. angeschlossenes GerätVerbinden Sie Ihr Android-Gerät über USB und aktivieren Sie das USB-Debugging in den Entwickleroptionen.

Modell der Selbstexploration

  1. eine Erkundung starten: Lauf lernen.py Datei, wählen Sie Autonomer Erkundungsmodus und geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein.
  2. Interaktionen aufzeichnenDer Agent wird die Anwendung automatisch erkunden, Interaktionselemente aufzeichnen und eine Dokumentation erstellen.

Demonstrationsmodus für Menschen

  1. Startup-Demo: Lauf lernen.py Datei, wählen Sie Human-Demo-Modus und geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein.
  2. Demo für FührungskräfteFolgen Sie den Anweisungen und der Agent wird alle Interaktionen aufzeichnen und eine Dokumentation erstellen.

Mandatsumsetzung

  1. Aufgaben einleiten: Lauf run.py Datei, geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein und wählen Sie die entsprechende Dokumentenbibliothek aus.
  2. betreiben.Der Agent führt Aufgaben aus, um komplexe Vorgänge auf der Grundlage der Dokumentation abzuschließen.

Detaillierte Vorgehensweise

  1. Projekt herunterladen: Besuchen Sie die GitHub-Seite, laden Sie die Projektdateien herunter und entpacken Sie sie.
  2. Installation von Abhängigkeiten: In einem Terminal ausführen pip install -r anforderungen.txt Installieren Sie alle Abhängigkeiten.
  3. KonfigurationsmodellÄndern nach Bedarf config.yaml Datei, um den API-Schlüssel für das Modell GPT-4V oder Qwen-VL-Max zu konfigurieren.
  4. angeschlossenes GerätSchließen Sie Ihr Android-Gerät über USB an und aktivieren Sie den USB-Debug-Modus auf dem Gerät.
  5. Initiieren Sie eine Erkundung oder Demonstration: Lauf lernen.py Datei, wählen Sie den Modus Autonome Erkundung oder Menschliche Demonstration und geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein.
  6. Dokumentation generierenDer Agent zeichnet alle Interaktionen auf und erstellt eine Dokumentation für die spätere Aufgabenausführung.
  7. betreiben.: Lauf run.py Dokument, geben Sie den Anwendungsnamen und die Aufgabenbeschreibung ein, wählen Sie die entsprechende Dokumentenbibliothek aus, und der Agent wird die Aufgabe auf der Grundlage des Dokuments ausführen.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " AppAgent: automatisierte Smartphone-Bedienung durch multimodale Intelligenz

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)