AI Personal Learning
und praktische Anleitung

OpenAI bringt Operator auf den Markt, die erste L3-Level-Intelligenz, die eine neue Ära der Mensch-Computer-Interaktion einleitet

Computer Auf der Use-Schiene tummeln sich viele Start-ups und "Dark Horses", aber auch große Namen, und jetzt hat OpenAI das Rennen gemacht.

Sie können folgen Intelligente Desktop-Automatisierung haben wir Dutzende von verwandten Produkten gesammelt.


 

Der Wettbewerb auf dem Gebiet der künstlichen Intelligenz wird immer härter, nicht nur Start-ups tauchen auf, auch Technologiegiganten haben sich in das Spiel eingeklinkt, und nun hat sich auch OpenAI intensiv in den Kampf eingeschaltet. Kürzlich hat OpenAI offiziell das intelligente Körpersystem namens Operator vorgestellt, das erste KI-System, das einen Computer autonom wie einen Menschen bedienen kann, was als wichtiger Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI) gilt. Wie der Präsident von OpenAI, Greg Brockman, voraussagte:

2025 wird das Jahr des intelligenten Körpers sein. Wir könnten Zeugen der Geburt eines "hybriden Internets" (HYBRID INTERNET) werden, an dem intelligente Körper maßgeblich beteiligt sind. "

Alt-Text

 

Operator: Computernutzende Intelligenzen auf der Grundlage des CUA-Modells

Operator ist ein Vorschauprodukt für die Forschung, das von OpenAI veröffentlicht wurde. Seine Kerntechnologie ist das Computer-Using Agent (CUA)-Modell, das die visuellen Fähigkeiten von GPT-4o mit Techniken des Reinforcement Learning kombiniert, um die Interaktion mit einer grafischen Benutzeroberfläche (GUI) zu ermöglichen, indem es Screenshots analysiert und die Verwendung von Peripheriegeräten wie Tastatur und Maus durch einen Menschen simuliert, um eine Vielzahl komplexer Aufgaben zu erfüllen. Der Computer wird mit Tastatur, Maus und anderen Peripheriegeräten bedient, um verschiedene komplexe Aufgaben zu erfüllen.

Im Gegensatz zu herkömmlichen KI-Systemen, die sich auf vorgefertigte APIs stützen, interagiert Operator direkt mit grafischen Benutzeroberflächen (GUIs), ohne dass für eine bestimmte Anwendung oder Website spezifische APIs entwickelt werden müssen. Das bedeutet, dass Operator mit praktisch jeder Computeranwendung und jeder Website so interagieren kann, wie es ein menschlicher Benutzer tun würde, indem er grundlegende Aktionen wie Klicken, Tippen, Scrollen usw. ausführt, was die Bandbreite der KI-Anwendungen erheblich erweitert. Dies erweitert den Bereich der KI-Anwendungen erheblich.

Alt-Text

 

Funktionsschwerpunkte und Einsatzmöglichkeiten des Betreibers

In der Demonstration zeigte Operator eine beeindruckende Fähigkeit, autonom zu arbeiten, Benutzerbefehle zu verstehen und eine Vielzahl von alltäglichen und beruflichen Aufgaben zu erledigen, zum Beispiel:

  • Life Service BuchungDer Operator kann Restaurantreservierungen, Online-Einkäufe, Flugbuchungen, Buchungen von Veranstaltungstickets, Hausmeistertermine, Bestellungen zum Mitnehmen und vieles mehr automatisieren. Die Nutzer laden zum Beispiel einfach ein Foto ihrer handgeschriebenen Einkaufsliste hoch, und Operator erkennt den Inhalt und wickelt den Einkauf auf Plattformen wie Instacart ab.
  • Informationsverarbeitung und AutomatisierungSchnelles Erledigen sich wiederholender Vorgänge wie das Herunterladen von Dateien im Stapel, die Stapelverarbeitung von Dokumenten, das Ausfüllen von Formularen im Internet usw.

Alt-Text

Zu den besonderen Merkmalen von Operator gehören:

  • visuelle WahrnehmungDas CUA-Modell ist in der Lage, Pixeldaten vom Bildschirm zu verarbeiten, den aktuellen visuellen Zustand des Bildschirms zu verstehen und Schnittstellenelemente (z. B. Schaltflächen, Textfelder usw.) zu erkennen.
  • Argumentation und PlanungMit der Chain of Thought (CoT)-Technologie sind CUAs in der Lage, über die Schritte einer Aufgabe nachzudenken, den Weg der Operation zu planen, den Aktionsplan dynamisch an die Veränderungen in der Umgebung anzupassen und sogar selbst zu korrigieren und die Strategie anzupassen, wenn sie auf Probleme stoßen.
  • OperationsausführungCUA verwendet eine virtuelle Maus und eine virtuelle Tastatur, um zu klicken, zu scrollen, zu tippen und vieles mehr, bis die Zielaufgabe erfüllt ist. Benutzer können Operator sogar Restaurantreservierungen über bestimmte Apps wie OpenTable vornehmen lassen oder eine Einkaufsliste bei Instacart hochladen, um eine Bestellung über einen Anhang aufzugeben.

Alt-Text

Alt-Text

 

CUA-Technologiekern: Visuelle Wahrnehmung, Inferenzplanung und gemeinsame Schnittstelle

Die Hauptantriebskraft des Betreibers liegt in den starken technischen Fähigkeiten des CUA-Modells, zu dessen technischen Kernkomponenten die folgenden drei Hauptaspekte gehören:

(1) Visuelle Wahrnehmung und logisches Denken: CUA analysiert den Inhalt der Benutzeroberfläche durch die Verarbeitung von Screenshots, um die Elemente und Informationen auf dem Bildschirm zu verstehen. In Kombination mit der "Gedankenketten"-Technologie ist CUA in der Lage, die nächsten Schritte abzuleiten und Screenshots und Aktionsprotokolle zur Verfolgung und Anpassung des Aufgabenflusses zu erstellen.

(2) Mehrstufige Aufgabenplanung: CUA ist in der Lage, komplexe Aufgaben in mehrstufige Operationen aufzuteilen, wie z. B. die Suche nach Produkten auf einer Webseite, die Auswahl von Spezifikationen, die Bestätigung von Bestellungen usw. CUA ist auch in der Lage, eine Vielzahl von Aufgaben auszuführen, darunter die folgenden Noch wichtiger ist, dass die CUA in der Lage ist Anpassung an den Wandel und Selbstkorrektur Die Möglichkeit, nach Alternativen zu suchen, wenn der Inhalt der Website nicht den Erwartungen entspricht.

(3) Allgemeine Schnittstellen, die keine spezifischen APIs erfordern: CUA befreit die traditionelle KI von ihrer Abhängigkeit von APIs und kann direkt mit der Benutzeroberfläche interagieren, was sie an fast alle Web- und Softwareumgebungen anpassbar macht und die "Eine universelle Schnittstelle für die digitale Welt".die es der KI ermöglicht, mit allen von Menschen genutzten Softwaretools zu interagieren.

 

CUA-Leistung: Benchmarking und praktische Anwendungen

CUA hat in einer Reihe von Benchmark-Tests Durchbrüche erzielt, die den bisherigen Stand der Technik weit übertreffen:

  • OSWorld (Aufgaben des Betriebssystems): CUA-Abschlussquote von 38.1%Dies ist deutlich mehr als der bisherige Bestwert 22.0%.
  • WebArena (Browser-Aufgaben)CUAs Erfolgsquote erreicht 58.1%viel höher als der vorherige 36.2%.
  • WebVoyager (einfache Webaufgaben): CUA erreicht 87% Erfolgsquote, die dem menschlichen Niveau nahe kommt.

Alt-Text

Alt-Text

Dennoch bleibt die CUA hinter dem menschlichen Niveau zurück (z. B. hat OSWorld eine menschliche Abschlussrate von 72,41 TP3T). In der Praxis hat die CUA auch einige Einschränkungen:

  • Ungenaue TextbearbeitungFehleranfällig bei komplexen Textbearbeitungsaufgaben.
  • Grenzen der InteraktionWenn man mit einer unbekannten und komplexen Benutzeroberfläche konfrontiert wird, kann es sein, dass mehrere Versuche und Irrtümer erforderlich sind.
  • Abhängigkeitsdetails Beschreibung: Um die besten Ergebnisse zu erzielen, sind sehr spezifische Bedienungsanweisungen für den Benutzer erforderlich.

 

Sicherheit: Mehrere Mechanismen zum Schutz der Privatsphäre und der Sicherheit der Nutzer

In Anbetracht der Tatsache, dass Operator sensible Vorgänge wie Zahlungen und Anmeldungen abwickeln kann, hat OpenAI mehrere Sicherheitsebenen in sein Design integriert, um die Privatsphäre der Nutzer und die Betriebssicherheit zu gewährleisten:

  • Bestätigung des MandatsDas System fordert den Benutzer proaktiv zur Bestätigung auf, bevor es kritische Vorgänge wie Buchungen und Zahlungen durchführt. Wenn ein Assistent beispielsweise eine E-Mail zum Zurücksetzen eines Kennworts verfasst oder eine E-Mail löschen will, wird der Benutzer um eine Bestätigung gebeten, ob er fortfahren möchte oder nicht.
  • Filterung von InhaltenDas System identifiziert und blockiert automatisch potenziell schädliche Anfragen (z. B. Waffenkäufe).
  • VerhaltensüberwachungDas System verfügt über eine integrierte Überwachungsfunktion, die abnormale Vorgänge erkennt und Aufgaben unterbricht.
  • Benutzer können jederzeit die Kontrolle übernehmenDer Benutzer kann die Aufgabe jederzeit während der Operation übernehmen, und der Operator hat während der Übernahmezeit keinen Zugriff auf die Operationsdaten des Benutzers, wodurch die Privatsphäre des Benutzers geschützt wird.
  • Menschliche KontrollmechanismenBei sensiblen Aufgaben (z. B. Eingabe eines Passworts) fordert die CUA eine Bestätigung des Benutzers an, um Missbrauch zu verhindern.
  • Maßnahmen zur BetrugsbekämpfungCUA ist in der Lage, potenziell betrügerische Websites zu erkennen und den Betrieb einzustellen.
  • VerhaltenstransparenzCUA erstellt bei jedem Schritt des Vorgangs Screenshots, um sicherzustellen, dass alle Aktionen nachvollziehbar sind.

Alt-Text

 

Zukunftsaussichten: Popularisierung intelligenter Körper und Entwicklung von AGI

Derzeit steht Operator nur Pro-Benutzern in den USA zum Testen offen. OpenAI sagt, dass es in Zukunft auf eine breitere Benutzergruppe ausgedehnt werden soll und plant, die CUA-Funktionen über eine API zu öffnen, die es Entwicklern ermöglicht, ihre eigenen Computerintelligenzen zu bauen.

Die Einführung von Operator wird als ein wichtiger Schritt in der Entwicklung von AGI angesehen. In Zukunft werden sich Operator und die CUA-Technologie in vielerlei Hinsicht weiterentwickeln:

  • Erweiterung von IntelligentsiaDer Aktionsraum von CUA wird auf weitere Aufgabenszenarien ausgeweitet, und OpenAI plant die Bereitstellung offener APIs, um Entwickler bei der Entwicklung benutzerdefinierter Intelligenzen und der Erweiterung ihrer Anwendungsgrenzen zu unterstützen.
  • Operator Global OpenIn Zukunft will Operator den Zugang zu Plus-Nutzern in weiteren Regionen öffnen, so dass Nutzer auf der ganzen Welt davon profitieren können.
  • Fortschreitende AGIDas Auftauchen von Operator kündigt die beschleunigte Ankunft des Zeitalters der Intelligenzen an, und es wird erwartet, dass in den kommenden Jahren noch mehr solcher Intelligenzen auftauchen werden, wobei die KI den Menschen in einem breiteren Spektrum von digitalen Interaktionsaufgaben ersetzen wird. Das Jahr 2025 könnte das wahre "Jahr des intelligenten Körpers" werden..

 

Schlussfolgerungen und Überlegungen

Die Veröffentlichung von Operator und CUA markiert einen revolutionären Wandel im Interaktionsmodus der KI, der sich von einem auf Datenschnittstellen basierenden Modus zu einem auf Mensch-Computer-Schnittstellen basierenden universellen Betriebsmodus verlagert und damit eine solide Grundlage für die Verwirklichung einer allgemeinen künstlichen Intelligenz (AGI) schafft.

Denken Sie gründlich über das Problem nach:

  • Wird die CUA-Technologie die bestehenden API-basierten KI-Operationen nach und nach ersetzen? Wie hoch sind die tatsächlichen Einsatzkosten und -vorteile im Industriesektor?
  • Wie wird sich die Rolle des menschlichen Nutzers bei digitalen Aufgaben verändern, wenn die CUA-Funktionen weiter zunehmen? Müssen wir uns auf die "Übernahme des intelligenten Körpers" vorbereiten?
  • Wie können die ZBV angesichts immer komplexerer Netzumgebungen und potenzieller Missbrauchsrisiken die Sicherheit der Nutzer weiterhin wirksam gewährleisten? Welche neuen Dimensionen sollten bei der künftigen Sicherheitsgestaltung berücksichtigt werden?
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " OpenAI bringt Operator auf den Markt, die erste L3-Level-Intelligenz, die eine neue Ära der Mensch-Computer-Interaktion einleitet

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)