AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

Agent S: Ein Open Source Framework für intelligente Körper, die Computer wie Menschen bedienen können

Allgemeine Einführung

Agent S ist ein von Simular AI entwickeltes Open-Source-Framework, mit dem Intelligenzen Computer über eine grafische Benutzeroberfläche (GUI) wie Menschen bedienen können. Es verwendet ein multimodales Makro-Sprachmodell und empirische Lerntechniken, um Aufgaben wie das Surfen im Internet, die Bearbeitung von Dokumenten und die Verwendung von Software auszuführen. Das Projekt wird auf GitHub veröffentlicht und hat eine aktive Entwicklergemeinschaft. Die Arbeit von Agent S1 wurde vom ICLR 2025 angenommen, und Agent S2 wurde im März 2025 veröffentlicht und übertraf OpenAI und Anthropisch Es unterstützt macOS, Windows und Linux. Es unterstützt macOS, Windows und Linux und ist für automatisierte Büros, Softwaretests und KI-Forschung geeignet.

Agent S: Ein Open-Source-Framework für intelligente Körper, um Computer wie Menschen zu bedienen-1


 

Funktionsliste

  • Bedienung über eine grafische Benutzeroberfläche (GUI)Analoge Maus und Tastatur zur Interaktion mit Computersoftware.
  • Aufgabenstellung und PlanungKomplexe Aufgaben in kleine Schritte aufteilen und ihre Ausführung automatisieren.
  • Aus Erfahrung lernenLearning from historical tasks to increase efficiency.
  • Plattformübergreifende UnterstützungVerfügbar unter macOS (Ein-Klick-Installationspaket), Windows und Linux.
  • Multimodale EingängeKombinieren Sie Bildschirmbilder und Oberflächenelemente für eine präzise Bedienung.
  • Open-Source-AnpassungQuellcode und Dokumentation werden zur Verfügung gestellt und können vom Entwickler frei angepasst werden.
  • Aktualisierung der WissensdatenbankKontinuierliche Aktualisierung von Erfahrungsdaten zur Laufzeit, um die Intelligenz zu verbessern.

 

Hilfe verwenden

Agent S ist ein Open-Source-Tool für Entwickler, für dessen Installation und Verwendung eine gewisse Programmiergrundlage erforderlich ist. Nachfolgend finden Sie die detaillierten Schritte und Funktionsanweisungen, um den Benutzern einen schnellen Einstieg zu ermöglichen.

Einbauverfahren

  1. Vorbereiten der Umgebung
    • Installieren Sie Python 3.9 bis 3.12.
    • Installieren Sie Git zum Herunterladen von Code.
    • Optional: Bereiten Sie eine virtuelle Maschine (z. B. VMware) zum Testen oder Isolieren der Umgebung vor.
  2. Code herunterladen
    • Öffnen Sie ein Terminal und führen Sie es aus:
      git clone https://github.com/simular-ai/Agent-S.git
      
    • Rufen Sie den Projektkatalog auf:
      cd Agent-S
      
  3. Installation von Abhängigkeiten
    • Erstellen Sie eine virtuelle Umgebung (empfohlen):
      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • Installieren Sie die Kernbibliothek:
      pip install gui-agents
      
    • Setzen von Umgebungsvariablen (z. B. API-Schlüssel):
      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. Starting Agent S
    • Führen Sie Agent S1 oder S2 aus:
      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • Nach dem Start geben Sie die Aufgabe ein, um loszulegen.

Hauptfunktionen

Bedienung über eine grafische Benutzeroberfläche (GUI)

  • Funktionelle BeschreibungSimuliert die menschliche Bedienung durch Bildschirmfotos und Schnittstellenerkennung.
  • Verfahren::
    1. in Bewegung sein agent_s2.
    2. Geben Sie die Aufgabe ein: "Öffnen Sie Notepad und geben Sie 'hallo' ein."
    3. Agent S2 Suchen Sie das Notepad-Symbol, klicken Sie darauf, um es zu öffnen, und geben Sie dann Ihren Text ein.
    4. Mit der Tastenkombination Strg+C können Sie jederzeit abbrechen.

Aufgabenstellung und Planung

  • Funktionelle BeschreibungKomplexe Aufgaben in kleine Schritte unterteilen und schrittweise erledigen.
  • Verfahren::
    1. Tippen Sie: "E-Mail an einen Freund senden".
    2. Agent S2 führt dies automatisch durch: Öffnen Sie die E-Mail-Software, erstellen Sie eine neue Nachricht, geben Sie den Inhalt ein und klicken Sie auf Senden.
    3. Die Benutzer können die Protokolle für jeden Schritt am Terminal einsehen.

Aus Erfahrung lernen

  • Funktionelle BeschreibungAufzeichnung des Verlaufs der Aufgabe und Optimierung der Folgemaßnahmen.
  • Verfahren::
    1. Nach Abschluss der Aufgabe wird die Erfahrung in gui_agents/kb Mappe.
    2. Durch die Wiederholung ähnlicher Aufgaben lässt sich die Effizienz steigern.
    3. Die Entwickler können in der Wissensdatenbank nach Lerninhalten suchen.

Featured Function Bedienung

Plattformübergreifende Unterstützung

  • Funktionelle BeschreibungUnterstützung für drei wichtige Betriebssysteme.
  • Verfahren::
    1. Windows erfordert die Installation von pywin32 im Gesang antworten pywinauto.
    2. macOS erforderlich pyobjcverwenden. pip install pyobjc Einbau.
    3. Linux-Prüfung pyautogui Kompatibilität, müssen die Berechtigungen möglicherweise angepasst werden.

Multimodale Eingänge

  • Funktionelle BeschreibungKombinieren Sie Bild- und Schnittstellendaten, um die operative Genauigkeit zu verbessern.
  • Verfahren::
    1. Geben Sie ein: "Suchen Sie in Ihrem Browser nach 'Wetter'".
    2. Agent S2 analysiert den Bildschirm, findet das Browserfenster und gibt einen Suchbegriff ein.
    3. Die Ergebnisse werden automatisch angezeigt.

Wissensdatenbank Download

  • Funktionelle BeschreibungAgent S2 verwendet eine vortrainierte Wissensbasis und unterstützt den Offline-Betrieb.
  • Verfahren::
    1. Lädt beim ersten Start automatisch die Wissensdatenbank von GitHub Releases herunter.
    2. Beispiel für einen manuellen Download:
      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. Der Pfad zur Wissensbasis befindet sich in der kb_data Mappe.

Erweiterte Konfiguration

Integration Perplexica Suche

  • Funktionelle BeschreibungEnhancement of web knowledge retrieval capability of Agent S.
  • Verfahren::
    1. Installieren Sie Docker Desktop und starten Sie es.
    2. Perplexica herunterladen:
      cd Perplexica
      git submodule update --init
      
    3. umbenennen sample.config.toml wegen config.tomlWenn Sie sich über den API-Schlüssel nicht sicher sind, geben Sie den API-Schlüssel ein.
    4. Starten Sie den Dienst:
      docker compose up -d
      
    5. Legen Sie die Perplexica-URL fest:
      export PERPLEXICA_URL=http://localhost:端口/api/search
      

Kundenspezifische Modelle

  • Funktionelle BeschreibungUnterstützung für mehrere große Modelle und benutzerdefinierte Endpunkte.
  • Verfahren::
    1. ausnutzen Claude Modelle:
      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. Verwenden Sie den Endpunkt "Hugging Face":
      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      

caveat

  • Der erste Durchlauf erfordert eine Internetverbindung, um die Abhängigkeiten und die Wissensbasis herunterzuladen.
  • Linux-Benutzer meiden die Conda-Umgebung, da diese mit dem pyatspi.
  • Eine ausführliche Dokumentation finden Sie unter README.md im Gesang antworten models.md Mitte.

 

Anwendungsszenario

  1. Büroautomation
    Agent S füllt automatisch Formulare aus und versendet E-Mails, wodurch sich wiederholende Arbeiten reduziert werden.
  2. Softwaretests
    Simulieren Sie den Benutzerbetrieb und testen Sie die Stabilität der Software auf verschiedenen Systemen.
  3. KI-Forschung
    Forscher nutzen es, um die technischen Grundlagen der intelligenten Körper-Computer-Interaktion zu erforschen.

 

QA

  1. Was ist der Unterschied zwischen Agent S2 und S1?
    S2 ist eine aufgerüstete Version von S1 mit mehr Leistung und Unterstützung für mehr Benchmarks wie OSWorld und AndroidWorld.
  2. Muss ich die ganze Zeit verbunden sein?
    Für die Erstinstallation und den Download der Wissensdatenbank ist ein Internetzugang erforderlich, danach kann sie offline ausgeführt werden.
  3. Wie kontaktiere ich die Community-Unterstützung?
    Treten Sie dem Discord-Server bei (https://discord.gg/E2XfsK9fPV) oder reichen Sie ein Problem auf GitHub ein.

 

Technische Details zu Agent S2 angekündigt: ein kombinatorischer KI-Rahmen für allgemeine Computeroperationen

Die Entwicklung von Intelligenzen, die in der Lage sind, Computer so geschickt wie Menschen zu nutzen, ist eine der wichtigsten Herausforderungen auf dem Weg zu allgemeiner künstlicher Intelligenz (AGI). Solche Aufgaben umfassen ein breites Spektrum von Szenarien, von der Durchführung offener numerischer Aufgaben bis hin zur Navigation in unbekannten Anwendungen über grafische Benutzeroberflächen (GUI) mit großen, verrauschten und hochdynamischen Problemräumen. Kürzlich wurde ein Papier über Agent S2 Die offizielle Veröffentlichung des technischen Papiers der Forschungsarbeit, die einen modularen Rahmen vorschlägt und in mehreren Computer-Benchmarks eine führende Leistung erzielt.

Agent S2 Der zu dieser Version gehörende Code wurde zuvor als Open Source veröffentlicht. Das technische Dokument für diese Version (verfügbar unter arXiv (Access) bietet einen detaillierten Einblick in die Kernkonzepte und die Architektur des Systems. Simular AI, das Forschungsteam, das hinter dem System steht, hat außerdem einen einführenden Artikel für Nichtfachleute veröffentlicht.

Agent S2 Überblick: Kombinierte intelligente Designs

Agent S2 Die zentrale Entwurfsphilosophie besteht darin, komplexe Computerbetriebsaufgaben zu zerlegen und sich nicht auf ein einziges, großes Modell zu verlassen, das die gesamte Arbeit der Planung, des Handelns und des Verstehens der Bildschirminteraktion übernimmt, sondern diese Aufgaben einem generalistischen Planungsmodul und einem spezialisierten Ausführungs-/Verstehensmodul (Spezialisten) zu übertragen. Diese kombinierte Architektur soll die Arbeitsweise menschlicher Expertenteams nachahmen: Planer auf hoher Ebene, Ausführende auf niedriger Ebene und Spezialisten für die Schnittstelleninteraktion arbeiten zusammen.

Agent S: Ein Open-Source-Framework für intelligente Körper, um Computer wie Menschen zu bedienen-1
Agent S2-Architekturdiagramm: Kombination eines generischen Planers mit spezialisierten Basismodulen.

Agent S2 Die wichtigsten Merkmale sind:

  • Gemischte Erdung (MoG). Verwendung einer Reihe von zugrunde liegenden Expertenmodellen (einschließlich visueller, textueller und strukturierter Informationsextraktion) zum genauen Auffinden von GUI-Elementen. Die Arbeit mit einer Tabellenkalkulation kann sich zum Beispiel auf strukturierte Daten konzentrieren, während das Klicken auf eine Schaltfläche auf visueller Orientierung beruht. Dieses Design entkoppelt das Grounding von der Planung, reduziert effektiv die Komplexität des Problems und bringt es mehr in Einklang mit der aktuellen Verteilung des Trainings für generische Inferenzmodelle und spezialisierte visuelle Basismodelle.
  • Proaktive Hierarchische Planung (PHP). Der Rahmen ist in der Lage, seine Pläne als Reaktion auf Rückmeldungen aus der Umgebung dynamisch anzupassen und zu verfeinern, anstatt starr einem vordefinierten Skript zu folgen. Dadurch kann die Intelligenz flexibler auf unvorhergesehene Situationen reagieren.

Benchmark-Ergebnisse: Plattformübergreifender Leistungsführer

Die Daten aus dem Papier zeigen, dass Agent S2 In der weit verbreiteten OSWorld Bei Benchmark-Tests wurde ein neuer Leistungsrekord aufgestellt. OSWorld Dabei wird vor allem die Fähigkeit von KI-Intelligenzen bewertet, verschiedene Aufgaben wie Dateiverwaltung, Softwarenutzung und Informationsbeschaffung in einer simulierten Betriebssystemumgebung zu erledigen.

Agent S: Ein Open-Source-Framework für intelligente Körper, um Computer wie Menschen zu bedienen-1
OSWorld Benchmark-Erfolgsratenvergleich.

Darüber hinaus. Agent S2 Auch auf anderen Plattformen zeigt sich eine gute Generalisierung:

  • WindowsAgentArena. Dies ist ein Benchmark, der sich auf komplexe Interaktionsaufgaben in der Windows-Umgebung konzentriert. Agent S2 Die Leistung in diesem Test hat sich um 52,81 TP3T im Vergleich zum vorherigen besten offenen Ergebnis (SOTA) verbessert.
  • AndroidWorld. Dieser Benchmark misst die Fähigkeit, Aufgaben auf dem mobilen Android-Betriebssystem zu erledigen. Agent S2 Leistung übertrifft auch hier die früheren SOTA-Ergebnisse mit einer Verbesserung von 16,51 TP3T.

Agent S: Ein Open-Source-Framework für intelligente Körper, um Computer wie Menschen zu bedienen-3
Die Erfolgsquote bei OSWorld zeigt, dass Agent S2 die bisherigen Methoden übertrifft.

Agent S: Ein Open-Source-Framework für intelligente Körper, um Computer wie Menschen zu bedienen-1
Leistung der Erfolgsquote auf WindowsAgentArena.

Design-Innovation: Synergien zwischen MoG und PHP

Die größten Herausforderungen, mit denen viele bestehende Computerintelligenzen in der Praxis konfrontiert sind, ergeben sich aus dem ungenauen Verständnis von Schnittstellenelementen (d. h. dem Problem der "Basiserdung") oder aus zu starren Planausführungsprozessen. Agent S2 Diese Probleme werden durch die beiden Kernkonzepte angegangen:

  • Mixed Base Modelling (MoG). Der MoG-Mechanismus ist in der Lage, Aufgaben auf der Grundlage der aktuellen Interaktionsanforderungen intelligent an das am besten geeignete Expertenmodell weiterzuleiten. So könnte beispielsweise das Erkennen und Manipulieren einer Tabellenkalkulationszelle einen Experten auf der Grundlage einer Strukturanalyse aufrufen, während beim Klicken auf eine visuell markante Schaltfläche zu einem visuellen Basismodell gewechselt wird. Durch die Trennung des grundlegenden Interaktionsverständnisses von der Aufgabenplanung auf hoher Ebene wird ein komplexes Problem im Wesentlichen in zwei relativ einfache und leichter zu modellierende Teilprobleme zerlegt.
  • Aktive Planung (PHP). Das PHP-Modul ermöglicht es Intelligenzen, Teilziele und Aktionspläne als Reaktion auf neue Beobachtungen in der Umgebung kontinuierlich anzupassen. Diese Anpassung ahmt das menschliche Verhaltensmuster nach, Pläne neu zu bewerten und zu überarbeiten, wenn sich die Situation während der Ausführung einer Aufgabe ändert.

Agent S: Ein Open Source Intelligent Body Framework für die Bedienung von Computern wie Menschen-5
Beispiel: Agent S2 korrigiert sich in einer Interaktion selbst und wechselt von einem visuellen Basismodell zu einem textuellen Basismodell.

Skalierbarkeit und Fehlerbehebung

Es hat sich gezeigt, dass bei Aufgaben, die die Ausführung längerer Sequenzvorgänge erfordern, die Agent S2 Die kombinatorische Architektur weist eine bessere Skalierbarkeit auf als monolithische Modelle. Dank ihrer dynamischen Anpassungs- und Selbstkorrekturfähigkeiten können sie ihre Strategien anpassen, wenn anfängliche Maßnahmen nicht die gewünschte Wirkung haben, und so die Erfüllungsrate komplexer Aufgaben verbessern. Monolithische Modelle neigen dazu, bei langen sequenziellen Aufgaben aufgrund von kumulativen Fehlern oder Planungsstarrheit zu versagen.

Agent S: Ein Open-Source-Framework für intelligente Körper, um Computer wie Menschen zu bedienen-6
Gründe, warum Agent S2 seine Leistung bei langen Zeitserienaufgaben beibehält: adaptive Navigation, Interaktion und Fehlerkorrekturmechanismen.

Jenseits der Desktop-Umgebung: allgemeine Leistung auf der Android-Plattform

(tun Sie es einfach) ohne zu zögern Agent S2 Das Hauptziel der Entwicklung des Programms ist die Intelligenz für Desktop-Umgebungen, aber der Entwurf des Rahmens hat gezeigt, dass er sich auch gut auf mobile Umgebungen übertragen lässt. In der AndroidWorld Die führende Leistung im Benchmark-Test beweist die Eignung seiner Kernkonzepte wie MoG und PHP für verschiedene Arten von GUI-Umgebungen.

Agent S: Ein Open-Source-Framework für intelligente Körper zur Bedienung von Computern wie Menschen-7
Agent S2 erreicht die Führung in den AndroidWorld-Benchmarks zur Smartphone-Nutzung.

Fortschritte bei den modularen Intelligenzen

Agent S2 Die Ergebnisse der Studie deuten darauf hin, dass kombinatorisches Design nicht nur eine architektonische Wahl ist, sondern auch ein effektiver Weg sein kann, um Intelligenzen zu entwickeln, die Computer auf robuste, menschenähnliche Weise bedienen können. Diese Arbeit eröffnet neue Möglichkeiten für die künftige Forschung im Bereich der KI-Planung, des grundlegenden Verständnisses von Interaktion (Erdung) und der multimodalen Koordination.

Interessierten Lesern wird empfohlen, die ausführlichen Technische Papiere . offene Quelle.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Agent S: Ein Open Source Framework für intelligente Körper, die Computer wie Menschen bedienen können
de_DEDeutsch