AI Personal Learning
und praktische Anleitung
讯飞绘镜

Agent TARS: eine Open-Source-Intelligenz, die mit Hilfe von Vision und Befehlen Computer steuert

Allgemeine Einführung

Agent TARS ist eine multimodale KI-Intelligenz, die von ByteDance als Open-Source zur Verfügung gestellt wird. Sie verfügt über Kernfunktionen, die Benutzern bei der Erledigung komplexer Computeraufgaben helfen, indem sie Webinhalte visuell versteht und Befehlszeilen- und Dateisystemoperationen kombiniert. Anstatt wie herkömmliche Tools manuelle Eingriffe zu erfordern, kann es Browseraufgaben automatisieren, Dateien bearbeiten oder Befehle ausführen. Die Website bietet Downloads von Desktop-Anwendungen und technische Dokumentation für Entwickler oder Benutzer, die ihre Arbeitsabläufe automatisieren müssen. Es befindet sich derzeit in einer technischen Vorschauphase und unterstützt vor allem macOS. Agent TARS soll den Computerbetrieb intelligenter und effizienter machen. Das Projekt basiert auf UI-TARS Schreibtisch Browser-Wrapping, Benchmarking Manus .

Agent TARS:使用视觉和命令操作电脑的开源智能体-1


 

Funktionsliste

  • Browser-AutomatisierungAutomatisieren Sie das Suchen, Klicken, Ausfüllen von Formularen usw. durch visuelle Erkennung von Webseitenelementen.
  • Integration in die BefehlszeileUnterstützt die direkte Ausführung von Systembefehlen zur Ausführung von Skripten oder zur Verwaltung von Hintergrundaufgaben.
  • DateisystembetriebDie Fähigkeit, Dateien zu lesen, zu bearbeiten oder zu erzeugen, Daten zu verarbeiten oder Ergebnisse zu speichern.
  • Planung und Durchführung von MissionenKomplexe Aufgaben aufschlüsseln und die schrittweise Erledigung automatisieren, um vertiefte Recherchen oder sich wiederholende Arbeiten zu unterstützen.
  • multimodale InteraktionKombinieren Sie Bild-, Text- und Code-Eingabe, um sich an unterschiedliche Aufgaben anzupassen.
  • Werkzeug ErweiterungIntegration von Suche, Dokumentenbearbeitung und Model Context Protocol (MCP) zur Verbesserung der funktionalen Flexibilität.
  • Unterstützung von Desktop-AnwendungenBietet eine Schnittstelle zur Anzeige des Betriebsprozesses, die es dem Benutzer ermöglicht, den Prozess in Echtzeit zu verfolgen und anzupassen.

 

Hilfe verwenden

Die Verwendung von Agent TARS gliedert sich in zwei Teile: Installation und Betrieb. Nachfolgend finden Sie die detaillierten Schritte, damit Sie schnell loslegen können.

Einbauverfahren

  1. Desktop-Anwendung herunterladen
    Öffnen Sie die offizielle Website https://agent-tars.com/ und klicken Sie auf die Schaltfläche "Download", um zur GitHub-Veröffentlichungsseite zu gelangen (https://github.com/bytedance/UI-TARS-desktop/). Versionen). Wählen Sie die neueste Version (z. B. AgentTARS-macOS-latest.dmgDie Datei hat eine Größe von mehreren zehn MB. Die Dateigröße beträgt mehrere Dutzend MB, und der Vorgang dauert je nach Netzwerkgeschwindigkeit 1-5 Minuten.
  2. Installation unter macOS
    Sobald der Download abgeschlossen ist, doppelklicken Sie auf .dmg Datei wird ein Installationsfenster angezeigt. Ziehen Sie das Agent TARS-Symbol in den Anwendungsordner. Der Installationsvorgang dauert nur wenige Sekunden. Sobald er abgeschlossen ist, suchen Sie Agent TARS in Anwendungen und klicken Sie auf Öffnen.
  3. Einrichten von Berechtigungen
    Wenn Sie macOS zum ersten Mal starten, werden Sie aufgefordert, den Zugriff auf die Eingabehilfen zu erlauben. Klicken Sie auf "Systemeinstellungen > Datenschutz und Sicherheit > Eingabehilfen", suchen Sie Agent TARS und schalten Sie ihn ein. Damit erlauben Sie ihm, den Bildschirm und die Tastatur zu steuern.
  4. Konfigurationsmodelle und APIs
    Klicken Sie nach dem Öffnen der App auf die Schaltfläche Einstellungen in der unteren linken Ecke, um die Konfigurationsseite aufzurufen. Sie müssen den Modellanbieter (z. B. Azure OpenAI) und den API-Schlüssel festlegen. Spezifische Schritte:

    • Wählen Sie den Anbieter in der Modellkonfiguration aus.
    • Geben Sie Ihren API-Schlüssel ein (den Sie von Ihrem Anbieter erhalten haben).
    • Wenn Sie Azure verwenden, müssen Sie auch die apiVersionunddeploymentName im Gesang antworten endpoint.
      Nach dem Speichern verbindet sich die App automatisch mit dem Modell.
  5. Optionale Suchkonfiguration
    Wenn Sie die Websuchfunktion benötigen, gehen Sie zu "Search Config", wählen Sie den Suchanbieter und geben Sie den API-Schlüssel ein. Speichern Sie anschließend.

Arbeitsablauf

Nach der Installation verfügt Agent TARS über eine einfache Hauptschnittstelle mit Eingabefeldern und Aktionsanzeigebereichen. Im Folgenden wird die Verwendung der Hauptfunktionen beschrieben.

Browser-Automatisierung

  • umziehen: Geben Sie eine Aufgabe in das Eingabefeld ein, z. B. "Suche nach den neuesten KI-Nachrichten und speichere die Schlagzeilen". Drücken Sie die Eingabetaste und Agent TARS öffnet den eingebauten Browser, um automatisch nach Schlagzeilen zu suchen und diese zu extrahieren.
  • zeigenDas rechte Fenster zeigt Browser-Aktionen in Echtzeit an, z. B. das Öffnen von Webseiten und das Scrollen von Seiten.
  • am EndeWenn Sie fertig sind, wird der Titel als Textdatei gespeichert und der Pfad unten auf der Oberfläche angezeigt.

Integration in die Befehlszeile

  • umziehen: Geben Sie einen Befehl wie "Dateien im aktuellen Ordner auflisten" ein (unter macOS lautet er ls -l Äquivalente Befehle für die dir). Drücken Sie die Eingabetaste und Agent TARS ruft das Terminal zur Ausführung auf.
  • zeigenDie Befehlsausgabe wird am unteren Rand der Benutzeroberfläche angezeigt, damit Sie sie leicht erkennen können.
  • Erweiterte VerwendungSie können komplexe Skripte eingeben, wie z. B. "Systemspeicher prüfen und aufzeichnen", und es wird der entsprechende Befehl ausgeführt und das Ergebnis gespeichert.

Dateisystembetrieb

  • umziehenGeben Sie ein: "Erstellen Sie eine neue Datei test.txt und schreiben Sie 'hallo'". Drücken Sie Enter und Agent TARS erstellt die Datei und schreibt den Inhalt.
  • zeigenDer Vorgang wird auf der Benutzeroberfläche angezeigt, und Sie können auf den Pfad klicken, um die Datei nach Abschluss anzuzeigen.
  • Datei bearbeitenTippen Sie "open test.txt and add 'world'" und die Datei wird automatisch geändert.

Planung und Durchführung von Missionen

  • umziehenGeben Sie eine komplexe Aufgabe ein, z. B. "Recherchieren Sie die Funktionen der neuesten Python-Version und organisieren Sie die Dokumentation". Agent TARS zerlegt die Aufgabe: Suche nach Daten, Extraktion von Informationen, Erstellung der Dokumentation.
  • zeigenDas rechte Fenster zeigt jeden Schritt des Vorgangs an, z. B. das Öffnen einer Webseite und das Kopieren von Text.
  • am EndeGeneriert schließlich das organisierte Dokument und speichert es unter dem angegebenen Pfad.

Mensch-Maschine-Kollaboration

  • Anpassungen in EchtzeitWährend der Ausführung der Aufgabe können Sie dem Eingabefeld Befehle hinzufügen, z. B. "füge einen weiteren Beispielabsatz hinzu". agent TARS passt seine Arbeitsweise entsprechend der neuen Eingabe an.
  • Teilen Sie die ErgebnisseKlicken Sie auf die Schaltfläche "Freigeben" und wählen Sie "Lokales HTML", um eine Protokolldatei zu erstellen, oder konfigurieren Sie eine Remote-Server-URL zum Hochladen und Freigeben.

caveat

  • Anforderungen an die UmweltDerzeit wird nur macOS unterstützt, Windows- und Linux-Versionen sind noch nicht veröffentlicht worden.
  • NetzanschlussEin stabiles Netz ist erforderlich, um Modelle und Suchdienste miteinander zu verbinden.
  • Komponenten während der Prüfung anpassenWenn die Funktion nicht funktioniert (z.B. die Suche schlägt fehl), überprüfen Sie, ob der API-Schlüssel korrekt ist, oder treten Sie der Discord-Community bei, um Hilfe zu erhalten (Link auf der offiziellen Website).

Mit diesen Schritten können Sie Agent TARS problemlos für alles verwenden, von der einfachen Dateibearbeitung bis hin zu komplexen Rechercheaufgaben.

 

Anwendungsszenario

  1. Web-Automatisierung
    Verwenden Sie Agent TARS, um automatisch das Internet zu durchsuchen und Nachrichten oder Produktinformationen zu extrahieren. Geben Sie z. B. ein: "Sammeln Sie die neuesten Schlagzeilen aus dem Bereich Technik", und das Programm sucht und speichert die Ergebnisse für die Marktforschung oder die Zusammenstellung von Informationen.
  2. Verwaltung der Aufgaben
    Planen Sie komplexe Projekte, wie z. B. "Reisepläne erstellen", suchen Sie nach Flügen und Hotels und organisieren Sie diese in Dokumenten. Ideal für persönliche Assistenten oder Projektleitung.
  3. Code Assist
    Geben Sie "Python-Skript zur Überprüfung der Dateigröße generieren" ein, und Agent TARS schreibt und speichert den Code, so dass Entwickler schnell Tools erstellen können.
  4. Datenanalyse
    Verarbeitet Echtzeitdaten, wie z. B. "Analysieren von Aktiendaten auf einer Webseite und Speichern einer Tabelle". Es extrahiert Daten und erzeugt Dateien, die für Finanz- oder Marktanalysen geeignet sind.

 

QA

  1. Ist Agent TARS kostenlos?
    Ja, es ist ein Open-Source-Projekt und unterliegt der Apache-2.0-Lizenz. Der Code und die Anwendung können kostenlos von GitHub heruntergeladen und verwendet werden.
  2. Unterstützt es Windows?
    Derzeit wird nur macOS unterstützt, Windows- und Linux-Versionen sind noch in der Entwicklung, also behalte GitHub für Updates im Auge.
  3. Programmierkenntnisse erforderlich?
    Nicht nötig. Es arbeitet in natürlicher Sprache und ist für den durchschnittlichen Benutzer zugänglich. Aber wer programmieren kann, kann die Befehlszeilenfunktionen besser nutzen.
  4. Wie behebe ich, dass die Suchfunktion nicht funktioniert?
    Überprüfen Sie, ob der API-Schlüssel in der "Suchkonfiguration" korrekt ist oder ob die Netzwerkverbindung funktioniert. Sie können auch der Discord-Community beitreten, um Feedback zu geben.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Agent TARS: eine Open-Source-Intelligenz, die mit Hilfe von Vision und Befehlen Computer steuert
de_DEDeutsch