OpenAI lanza Operator, la primera inteligencia de nivel L3: abre una nueva era de interacción persona-ordenador

Ordenador La pista del uso está repleta de empresas emergentes y caballos oscuros, así como de peces gordos gigantes, y ahora OpenAI lo ha petado.

Puede seguir Inteligencia en automatización de escritorios Hemos recopilado docenas de productos relacionados.

 

La competencia en el campo de la Inteligencia Artificial es cada vez más feroz, no sólo emergen startups, los gigantes tecnológicos también han entrado en el juego, y ahora, OpenAI también ha entrado con fuerza en la refriega. Recientemente, OpenAI lanzó oficialmente el sistema de cuerpo inteligente llamado Operator, el primer sistema de IA que puede manejar un ordenador de forma autónoma como un humano, lo que se considera un paso clave para que la IA avance hacia la Inteligencia Artificial General (AGI). Como predijo el presidente de OpenAI, Greg Brockman:

2025 será el año del cuerpo inteligente. Es posible que estemos asistiendo al nacimiento de una "Internet híbrida" (HYBRID INTERNET) con una profunda implicación de los cuerpos inteligentes. "

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Operador: inteligencias usuarias del ordenador basadas en el modelo CUA

Operator es un producto preliminar de investigación publicado por OpenAI, y su tecnología principal es el modelo de agente que utiliza el ordenador (CUA), que combina las capacidades visuales de GPT-4o y técnicas de aprendizaje por refuerzo para permitirle interactuar con una interfaz gráfica de usuario (GUI) analizando capturas de pantalla y simulando el uso que hace un humano de periféricos como el teclado y el ratón para realizar diversas tareas complejas. teclado, ratón y otros periféricos para manejar el ordenador y realizar diversas tareas complejas.

A diferencia de los sistemas de IA tradicionales, que se basan en API preconstruidas, Operator interactúa directamente con interfaces gráficas de usuario (GUI) sin necesidad de desarrollar API específicas para una aplicación o página web concreta, lo que significa que Operator puede interactuar con prácticamente cualquier aplicación informática y página web como lo haría un usuario humano, realizando acciones básicas como hacer clic, escribir, desplazarse, etc., ampliando enormemente el abanico de aplicaciones de IA. Esto amplía enormemente el alcance de las aplicaciones de IA.

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Aspectos funcionales más destacados del operador y potencial de aplicación

En la demostración, Operator demostró una impresionante capacidad para funcionar de forma autónoma, entendiendo las órdenes del usuario y completando una serie de tareas cotidianas y profesionales, por ejemplo:

  • Reserva del servicio LifeEl Operador puede completar automáticamente reservas en restaurantes, compras en línea, reservas de vuelos, reservas de entradas para eventos, citas de limpieza, pedidos de comida para llevar y mucho más. Por ejemplo, los usuarios solo tienen que subir una foto de su lista de la compra escrita a mano y Operator reconoce el contenido y completa la compra en plataformas como Instacart.
  • Tratamiento de la información y automatizaciónRealice rápidamente operaciones repetitivas como la descarga de archivos por lotes, la edición de documentos por lotes, la cumplimentación de formularios en línea, etc.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

En concreto, las características más destacadas de Operator incluyen:

  • percepción visualEl modelo CUA es capaz de procesar los datos de píxeles de la pantalla, comprender el estado visual actual de la pantalla y reconocer los elementos de la interfaz (por ejemplo, botones, cuadros de texto, etc.).
  • Razonamiento y planificaciónCon la tecnología de Cadena de Pensamiento (CoT), las CUA son capaces de razonar sobre los pasos de una tarea, planificar la trayectoria de la operación, ajustar dinámicamente el plan de acción en función de los cambios del entorno e incluso autocorregirse y ajustar la estrategia cuando se encuentran con problemas.
  • ejecución de la operaciónLa CUA utiliza un ratón y un teclado virtuales para hacer clic, desplazarse, escribir, etc. hasta completar la tarea deseada. Los usuarios pueden incluso hacer que el Operador haga reservas en restaurantes utilizando aplicaciones específicas, como OpenTable, o que cargue una lista de la compra en Instacart para hacer un pedido mediante un archivo adjunto.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Núcleo tecnológico CUA: percepción visual, planificación de inferencias e interfaz común

La principal fuerza motriz de Operator reside en la gran capacidad técnica del modelo CUA, cuyos componentes técnicos básicos incluyen los tres aspectos principales siguientes:

(1) Percepción y razonamiento visuales: CUA analiza el contenido de la interfaz procesando capturas de pantalla para comprender los elementos y la información que aparecen en ella. Combinada con la tecnología de "cadena de pensamiento", CUA es capaz de inferir los siguientes pasos y generar capturas de pantalla y registros de acciones para seguir y ajustar el flujo de tareas.

(2) Planificación de tareas en varios pasos: CUA es capaz de descomponer tareas complejas en operaciones de varios pasos, como la búsqueda de productos en una página web, la selección de especificaciones y la confirmación de pedidos. Y lo que es más importante, CUA tiene la capacidad de Adaptación al cambio y autocorrección La capacidad de intentar encontrar alternativas cuando el contenido del sitio no es el esperado.

(3) Interfaces genéricas que no requieren API específicas: CUA se deshace de la dependencia de la IA tradicional de las API y puede interactuar directamente con la interfaz de usuario, lo que la hace adaptable a casi todos los entornos web y de software, permitiendo realmente a la "Una interfaz universal para el mundo digital".que permite a la IA interactuar con todas las herramientas informáticas utilizadas por los humanos.

 

Rendimiento de la CUA: evaluación comparativa y aplicaciones prácticas

CUA ha logrado grandes avances en una serie de pruebas de referencia, superando con creces el estado anterior de la técnica:

  • OSWorld (tareas del sistema operativo)Tasa de finalización de estudios de 38.1%Esta cifra es significativamente superior al mejor registro anterior 22.0%.
  • WebArena (Tareas del navegador): La tasa de éxito de CUA alcanzó 58.1%que es muy superior al anterior 36.2%.
  • WebVoyager (tareas web sencillas): CUA alcanzado 87% de éxito, que se aproxima al nivel humano.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

No obstante, CUA sigue estando por debajo del nivel humano (por ejemplo, OSWorld tiene una tasa de finalización humana de 72,41 TP3T). En la práctica, CUA también tiene algunas limitaciones:

  • Edición de texto imprecisa: Propenso a errores en tareas complejas de edición de texto.
  • Limitaciones de interacción: Cuando nos enfrentamos a una interfaz de usuario desconocida y compleja, pueden ser necesarios múltiples ensayos y errores.
  • Detalles de la relación Descripción: Se requieren instrucciones de uso muy específicas por parte del usuario para obtener los mejores resultados.

 

Seguridad: Múltiples mecanismos para proteger la privacidad y la seguridad de los usuarios.

Teniendo en cuenta que Operator puede gestionar operaciones sensibles como pagos e inicios de sesión, OpenAI ha incorporado múltiples capas de seguridad en su diseño para garantizar la privacidad del usuario y la seguridad operativa:

  • Confirmación de mandatoEl sistema solicita proactivamente la confirmación del usuario antes de realizar operaciones críticas como reservas y pagos. Por ejemplo, cuando un asistente redacta un correo electrónico para restablecer una contraseña o está a punto de borrar un correo electrónico, se pide al usuario que confirme si desea proceder o no.
  • Filtrado de contenidosEl sistema identifica y bloquea automáticamente las solicitudes potencialmente perjudiciales (por ejemplo, compra de armas).
  • seguimiento del comportamientoEl sistema dispone de una función de supervisión integrada que detecta las operaciones anómalas y suspende las tareas.
  • Los usuarios pueden asumir el control en cualquier momentoEl usuario puede asumir la tarea en cualquier momento durante la operación, y Operator no tiene acceso a los registros de operaciones del usuario durante el periodo de asunción, lo que protege la privacidad del usuario.
  • Mecanismos de supervisión humanaPara tareas sensibles (por ejemplo, introducir una contraseña), la CUA solicita confirmación al usuario para evitar usos indebidos.
  • Medidas antifraudeLa CUA es capaz de reconocer sitios web potencialmente fraudulentos y suspender sus operaciones.
  • Transparencia del comportamientoCUA genera capturas de pantalla en cada paso de la operación para garantizar la trazabilidad de todas las acciones.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

Perspectivas de futuro: popularización del cuerpo inteligente y desarrollo de la AGI

Actualmente, Operator sólo está abierto para pruebas a los usuarios Pro de EE.UU. OpenAI afirma que en el futuro se extenderá a un grupo más amplio de usuarios y planea abrir las capacidades de CUA a través de una API que permitirá a los desarrolladores crear sus propias inteligencias computacionales.

El lanzamiento de Operator se considera un paso importante en la evolución de AGI. En el futuro, Operator y la tecnología CUA seguirán evolucionando de diversas maneras:

  • Expansión de IntelligentsiaEl espacio de acción de CUA se ampliará a más escenarios de tareas, y OpenAI tiene previsto proporcionar API abiertas para ayudar a los desarrolladores a crear inteligencias personalizadas y ampliar sus límites de aplicación.
  • Operador Global OpenEn el futuro, Operator espera abrir el acceso a los usuarios Plus en más regiones, lo que beneficiará a usuarios de todo el mundo.
  • Avanzar en AGILa aparición del Operador anuncia la llegada acelerada de la era de las inteligencias, y se espera que en los próximos años surjan más inteligencias de este tipo, con la IA sustituyendo a los humanos en una gama más amplia de tareas de interacción digital. 2025 puede convertirse en el verdadero "Año del cuerpo inteligente"..

 

Conclusiones y reflexiones

El lanzamiento de Operator y CUA marca un cambio revolucionario en el modo de interacción de la IA, que está pasando de un modo basado en la interfaz de datos a un modo de funcionamiento universal basado en la interfaz persona-ordenador, sentando unas bases sólidas para la realización de la inteligencia artificial general (AGI).

Reflexiona profundamente sobre el problema:

  • ¿Sustituirá gradualmente la tecnología CUA a las actuales operaciones de IA basadas en API? ¿Cuáles son los costes y beneficios reales del despliegue en el sector industrial?
  • A medida que aumenten las capacidades de las CUA, ¿cómo cambiará el papel del usuario humano en las tareas digitales? ¿Necesitamos prepararnos para la "toma del poder del cuerpo inteligente"?
  • Ante entornos de red cada vez más complejos y riesgos potenciales de uso indebido, ¿cómo pueden las CUA seguir garantizando eficazmente la seguridad de los usuarios? ¿Qué nuevas dimensiones deben tenerse en cuenta en el futuro diseño de la seguridad?
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...