OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Ordinateur La piste de l'utilisation est encombrée de startups et de chevaux noirs, ainsi que de géants, et maintenant OpenAI l'a tuée.

Vous pouvez suivre Intelligence en matière d'automatisation des postes de travail Nous avons rassemblé des dizaines de produits connexes.

 

La concurrence dans le domaine de l'intelligence artificielle devient de plus en plus féroce, non seulement les startups émergent, mais les géants de la technologie sont également entrés dans le jeu, et maintenant, OpenAI est également entré dans la mêlée. Récemment, OpenAI a officiellement lancé le système de corps intelligent Operator, le premier système d'IA capable de faire fonctionner un ordinateur de manière autonome comme un humain, ce qui est considéré comme une étape clé pour l'évolution de l'IA vers l'intelligence artificielle générale (AGI). Comme l'a prédit Greg Brockman, président de l'OpenAI :

2025 sera l'année du corps intelligent. Nous pourrions assister à la naissance d'un "Internet hybride" (HYBRID INTERNET) avec l'implication profonde des corps intelligents. "

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Opérateur : intelligences d'utilisation de l'ordinateur basées sur le modèle CUA

Operator est un produit de prévisualisation de la recherche publié par OpenAI, et sa technologie de base est le modèle Computer-Using Agent (CUA), qui combine les capacités visuelles de GPT-4o et les techniques d'apprentissage par renforcement pour lui permettre d'interagir avec une interface utilisateur graphique (GUI) en analysant des captures d'écran et en simulant l'utilisation par un humain de périphériques tels qu'un clavier et une souris pour effectuer une variété de tâches complexes. Il simule l'utilisation par un être humain d'un clavier, d'une souris et d'autres périphériques pour faire fonctionner l'ordinateur et accomplir diverses tâches complexes.

Contrairement aux systèmes d'IA traditionnels qui reposent sur des API préconstruites, Operator interagit directement avec les interfaces utilisateur graphiques (GUI) sans qu'il soit nécessaire de développer des API spécifiques à une application ou un site web particulier, ce qui signifie qu'Operator peut interagir avec pratiquement n'importe quelle application informatique et page web comme un utilisateur humain, par des actions de base telles que cliquer, taper, faire défiler, etc. Cela élargit considérablement le champ des applications de l'IA.

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Fonctionnalités de l'opérateur et potentiel d'application

Lors de la démonstration, Operator a fait preuve d'une capacité impressionnante à fonctionner de manière autonome, en comprenant les commandes de l'utilisateur et en accomplissant une variété de tâches quotidiennes et professionnelles, par exemple :

  • Réservation de services à vieL'opérateur peut automatiser les réservations de restaurants, les achats en ligne, les réservations de vols, les réservations de billets d'événements, les rendez-vous de ménage, les commandes de plats à emporter, etc. Par exemple, les utilisateurs téléchargent simplement une photo de leur liste de courses manuscrite, et l'opérateur reconnaît le contenu et effectue l'achat sur des plateformes telles qu'Instacart.
  • Traitement de l'information et automatisationLes services d'aide à la décision : Effectuez rapidement des opérations répétitives telles que le téléchargement de fichiers par lots, l'édition de documents par lots, le remplissage de formulaires en ligne, etc.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

Plus précisément, les points forts de l'opérateur sont les suivants :

  • la perception visuelleLe modèle de l'AUC est capable de traiter les données des pixels de l'écran, de comprendre l'état visuel actuel de l'écran et de reconnaître les éléments de l'interface (par exemple, les boutons, les zones de texte, etc.).
  • Raisonnement et planificationGrâce à la technologie de la chaîne de pensée (CoT), les AUC sont capables de raisonner sur les étapes d'une tâche, de planifier le déroulement des opérations, d'ajuster dynamiquement le plan d'action en fonction des changements dans l'environnement, et même de s'auto-corriger et d'ajuster la stratégie en cas de problème.
  • exécution de l'opérationL'AUC utilise une souris et un clavier virtuels pour cliquer, faire défiler, taper, etc. jusqu'à ce que la tâche cible soit accomplie. Les utilisateurs peuvent même demander à Operator de faire des réservations de restaurant à l'aide d'applications spécifiques, comme OpenTable, ou de télécharger une liste de courses sur Instacart pour passer une commande par le biais d'une pièce jointe.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Noyau technologique de l'AUC : Perception visuelle, planification de l'inférence et interface commune

La force motrice de l'opérateur réside dans les fortes capacités techniques du modèle CUA, dont les composantes techniques essentielles comprennent les trois aspects principaux suivants :

(1) Perception visuelle et raisonnement : L'AUC analyse le contenu de l'interface en traitant les captures d'écran afin de comprendre les éléments et les informations qui s'y trouvent. Associée à la technologie de la "chaîne de pensée", l'AUC est capable de déduire les étapes suivantes et de générer des captures d'écran et des journaux d'action pour suivre et ajuster le déroulement des tâches.

(2) Planification des tâches en plusieurs étapes : L'AUC est capable de décomposer des tâches complexes en opérations à plusieurs étapes, telles que la recherche de produits sur une page web, la sélection de spécifications, la confirmation de commandes, etc. Plus important encore, l'AUC est capable de Adaptation au changement et autocorrection La capacité d'essayer de trouver des alternatives lorsque le contenu du site ne correspond pas à ce qui est attendu.

(3) Interfaces génériques ne nécessitant pas d'API spécifiques : L'AUC se débarrasse de la dépendance de l'IA traditionnelle à l'égard des API et peut interagir directement avec l'interface utilisateur, ce qui la rend adaptable à presque tous les environnements web et logiciels, et permet véritablement à l'AUC de s'adapter à l'environnement de l'utilisateur. "Une interface universelle pour le monde numérique".qui permet à l'IA d'interagir avec tous les outils logiciels utilisés par les humains.

 

Performances de l'AUC : analyse comparative et applications pratiques

CUA a réalisé des percées dans un certain nombre de tests de référence, dépassant de loin l'état antérieur de la technique :

  • OSWorld (tâches liées au système d'exploitation)Taux d'achèvement de l'AUC de 38.1%Le record est nettement supérieur au meilleur record précédent 22.0%.
  • WebArena (tâches du navigateur)Le taux de réussite de l'AUC atteint 58.1%, bien plus élevée que la précédente. 36.2%.
  • WebVoyager (tâches web simples): L'AUC a atteint 87% qui se rapproche du niveau humain.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

Néanmoins, l'AUC reste en deçà du niveau humain (par exemple, OSWorld a un taux d'achèvement humain de 72,41 TP3T). Dans la pratique, l'AUC présente également certaines limites :

  • Edition de texte impréciseLes personnes qui ne sont pas en mesure d'effectuer des tâches d'édition de texte complexes sont sujettes à des erreurs.
  • Limites de l'interactionLes essais : Face à une interface utilisateur inconnue et complexe, de multiples essais et erreurs peuvent s'avérer nécessaires.
  • Détails de la dépendance DescriptionLes instructions d'utilisation très spécifiques sont requises de la part de l'utilisateur afin d'obtenir les meilleurs résultats.

 

Sécurité : plusieurs mécanismes de protection de la vie privée et de la sécurité des utilisateurs

Étant donné que l'opérateur peut traiter des opérations sensibles telles que les paiements et les connexions, OpenAI a intégré plusieurs couches de sécurité dans sa conception afin de garantir la confidentialité des utilisateurs et la sécurité opérationnelle :

  • Confirmation du mandatLe système demande de manière proactive une confirmation à l'utilisateur avant d'effectuer des opérations critiques telles que les réservations et les paiements. Par exemple, lorsqu'un assistant rédige un courriel pour réinitialiser un mot de passe ou qu'il est sur le point de supprimer un courriel, l'utilisateur est invité à confirmer s'il souhaite poursuivre ou non.
  • Filtrage du contenuLe système identifie et bloque automatiquement les demandes potentiellement nuisibles (par exemple, les achats d'armes).
  • surveillance du comportementLe système est doté d'une fonction de surveillance intégrée qui détecte les opérations anormales et suspend les tâches.
  • Les utilisateurs peuvent reprendre le contrôle à tout momentL'utilisateur peut reprendre la tâche à tout moment pendant l'opération, et l'opérateur n'a pas accès aux enregistrements de l'opération de l'utilisateur pendant la période de reprise, ce qui protège la vie privée de l'utilisateur.
  • Mécanismes de surveillance humainePour les tâches sensibles (par exemple, la saisie d'un mot de passe), l'AUC demande une confirmation à l'utilisateur afin d'éviter les abus.
  • Mesures anti-fraudeL'AUC est en mesure de reconnaître les sites web potentiellement frauduleux et de suspendre leurs activités.
  • Transparence comportementaleL'AUC génère des captures d'écran à chaque étape de l'opération afin de garantir la traçabilité de toutes les actions.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Perspectives d'avenir : popularisation du corps intelligent et développement de l'AGI

Actuellement, Operator n'est ouvert à l'essai que pour les utilisateurs américains de Pro. OpenAI indique qu'il s'étendra à un groupe plus large d'utilisateurs à l'avenir et prévoit d'ouvrir les capacités de l'AUC par le biais d'une API qui permettra aux développeurs de créer leurs propres intelligences informatiques.

Le lancement d'Operator est considéré comme une étape importante dans l'évolution de l'AGI. À l'avenir, Operator et la technologie CUA continueront d'évoluer de plusieurs manières :

  • Expansion d'IntelligentsiaL'espace d'action de l'AUC sera étendu à d'autres scénarios de tâches, et l'OpenAI prévoit de fournir des API ouvertes pour aider les développeurs à créer des intelligences personnalisées et à étendre les limites de leurs applications.
  • Opérateur Global OpenÀ l'avenir, Operator prévoit d'ouvrir l'accès aux utilisateurs Plus dans un plus grand nombre de régions, ce qui profitera aux utilisateurs du monde entier.
  • Faire progresser l'AGIL'émergence de l'opérateur annonce l'arrivée accélérée de l'ère des intelligences, et d'autres intelligences de ce type devraient voir le jour dans les années à venir, l'IA remplaçant les humains dans un plus grand nombre de tâches d'interaction numérique. 2025 pourrait devenir la véritable "année du corps intelligent"..

 

Conclusions et réflexions

La sortie d'Operator et de CUA marque un changement révolutionnaire dans le mode d'interaction de l'IA, qui passe d'un mode basé sur l'interface de données à un mode de fonctionnement universel basé sur l'interface homme-ordinateur, jetant ainsi des bases solides pour la réalisation de l'intelligence artificielle générale (AGI).

Réfléchissez bien au problème :

  • La technologie de l'AUC remplacera-t-elle progressivement les opérations d'IA basées sur les API existantes ? Quels sont les coûts et avantages réels du déploiement dans le secteur industriel ?
  • Alors que les capacités des AUC continuent de s'accroître, comment le rôle de l'utilisateur humain dans les tâches numériques va-t-il évoluer ? Devons-nous nous préparer à la "prise de contrôle du corps intelligent" ?
  • Face à des environnements réseau de plus en plus complexes et à des risques potentiels d'utilisation abusive, comment les AUC peuvent-elles continuer à garantir efficacement la sécurité des utilisateurs ? Quelles sont les nouvelles dimensions à prendre en compte pour la conception de la sécurité à l'avenir ?
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...