Computador A pista de uso está repleta de startups e cavalos negros, bem como de gigantescos figurões, e agora a OpenAI a eliminou.
Você pode seguir Inteligência de automação de desktop Coletamos dezenas de produtos relacionados.
A concorrência no campo da Inteligência Artificial está se tornando cada vez mais acirrada, não apenas com o surgimento de startups, mas também com a entrada de gigantes da tecnologia no jogo e, agora, a OpenAI também entrou na briga com força. Recentemente, a OpenAI lançou oficialmente o sistema de corpo inteligente chamado Operator, o primeiro sistema de IA que pode operar um computador de forma autônoma como um ser humano, o que é considerado uma etapa fundamental para que a IA avance em direção à Inteligência Artificial Geral (AGI). Como previu o presidente da OpenAI, Greg Brockman:
2025 será o ano do corpo inteligente. Podemos estar testemunhando o nascimento de uma "Internet híbrida" (HYBRID INTERNET) com o envolvimento profundo de corpos inteligentes. "
Operador: inteligências de uso do computador com base no modelo CUA
O Operator é um produto de pré-visualização de pesquisa lançado pela OpenAI e sua tecnologia principal é o modelo Computer-Using Agent (CUA), que combina os recursos visuais do GPT-4o e as técnicas de aprendizagem por reforço para permitir que ele interaja com uma interface gráfica do usuário (GUI), analisando capturas de tela e simulando o uso de periféricos, como teclado e mouse, por um ser humano para executar uma variedade de tarefas complexas. O usuário pode usar o teclado, o mouse e outros periféricos para operar o computador e realizar várias tarefas complexas.
Ao contrário dos sistemas tradicionais de IA que dependem de APIs pré-construídas, o Operator interage diretamente com interfaces gráficas de usuário (GUIs) sem a necessidade de desenvolver APIs específicas para um determinado aplicativo ou site, o que significa que o Operator pode interagir com praticamente qualquer aplicativo de computador e página da Web como um usuário humano faria, executando ações básicas como clicar, digitar, rolar etc., expandindo consideravelmente a gama de aplicativos de IA. Isso amplia muito o escopo dos aplicativos de IA.
Destaques funcionais do operador e potencial de aplicação
Na demonstração, o Operator demonstrou uma capacidade impressionante de operar de forma autônoma, compreendendo os comandos do usuário e concluindo uma variedade de tarefas diárias e profissionais, por exemplo:
- Reserva de serviço vitalícioO Operador pode automatizar reservas em restaurantes, compras on-line, reservas de voos, reservas de ingressos para eventos, compromissos de limpeza, pedidos de comida para viagem e muito mais. Por exemplo, os usuários simplesmente carregam uma foto de sua lista de compras escrita à mão, e o Operator reconhece o conteúdo e conclui a compra em plataformas como a Instacart.
- Processamento e automação de informaçõesOperações repetitivas: conclua rapidamente operações repetitivas, como download de arquivos em lote, edição de documentos em lote, preenchimento de formulários on-line, etc.
Especificamente, os destaques dos recursos do Operator incluem:
- percepção visualO modelo CUA é capaz de processar dados de pixel da tela, entender o estado visual atual da tela e reconhecer elementos da interface (por exemplo, botões, caixas de texto etc.).
- Raciocínio e planejamentoCom a tecnologia Chain of Thought (CoT), as CUAs são capazes de raciocinar sobre as etapas de uma tarefa, planejar o caminho da operação, ajustar dinamicamente o plano de ação de acordo com as mudanças no ambiente e até mesmo se autocorrigir e ajustar a estratégia ao encontrar problemas.
- execução da operaçãoCUA: a CUA usa um mouse e um teclado virtuais para clicar, rolar, digitar e muito mais até que a tarefa-alvo seja concluída. Os usuários podem até fazer com que o Operator faça reservas em restaurantes usando aplicativos específicos, como o OpenTable, ou carregue uma lista de compras no Instacart para fazer um pedido por meio de um anexo.
Núcleo de tecnologia CUA: percepção visual, planejamento de inferência e interface comum
A principal força motriz da operadora está nos sólidos recursos técnicos do modelo CUA, cujos principais componentes técnicos incluem os três aspectos principais a seguir:
(1) Percepção visual e raciocínio: O CUA analisa o conteúdo da interface processando capturas de tela para entender os elementos e as informações na tela. Combinada com a tecnologia de "cadeia de pensamento", a CUA é capaz de inferir as próximas etapas e gerar capturas de tela e registros de ações para rastrear e ajustar o fluxo de tarefas.
(2) Planejamento de tarefas em várias etapas: A CUA é capaz de dividir tarefas complexas em operações de várias etapas, como a busca de produtos em uma página da Web, a seleção de especificações e a confirmação de pedidos. Mais importante ainda, a CUA tem a capacidade de Adaptação à mudança e autocorreção A capacidade de tentar encontrar alternativas quando o conteúdo do site não é o esperado.
(3) Interfaces genéricas que não requerem APIs específicas: A CUA se livra da dependência da IA tradicional das APIs e pode interagir diretamente com a interface do usuário, o que a torna adaptável a quase todos os ambientes da Web e de software, possibilitando realmente a "Uma interface universal para o mundo digital".que permite que a IA interaja com todas as ferramentas de software usadas por humanos.
Desempenho do CUA: Benchmarking e aplicativos práticos
A CUA fez avanços em vários testes de benchmark, superando em muito o estado da arte anterior:
- OSWorld (tarefas do sistema operacional)Taxa de conclusão do CUA de 38.1%Isso é significativamente maior do que o melhor registro anterior 22.0%.
- WebArena (Tarefas do navegador)Taxa de sucesso da CUA alcançada 58.1%muito mais alto do que o anterior 36.2%.
- WebVoyager (tarefas simples da Web)CUA alcançada 87% taxa de sucesso, que está próxima do nível humano.
No entanto, a CUA ainda está aquém do nível humano (por exemplo, a OSWorld tem uma taxa de conclusão humana de 72,41 TP3T). Na prática, a CUA também tem algumas limitações:
- Edição de texto imprecisaPropensão a erros em tarefas complexas de edição de texto.
- Limitações de interaçãoQuando se depara com uma interface de usuário desconhecida e complexa, pode ser necessário fazer várias tentativas e erros.
- Detalhes da dependência DescriçãoInstruções de operação muito específicas são necessárias para que o usuário obtenha os melhores resultados.
Segurança: vários mecanismos para proteger a privacidade e a segurança do usuário
Considerando que o Operator pode lidar com operações confidenciais, como pagamentos e logins, a OpenAI incorporou várias camadas de segurança em seu design para garantir a privacidade do usuário e a segurança operacional:
- Confirmação do mandatoConfirmação: O sistema solicita proativamente a confirmação do usuário antes de realizar operações críticas, como reservas e pagamentos. Por exemplo, quando um assistente redige um e-mail para redefinir uma senha ou está prestes a excluir um e-mail, o usuário é solicitado a confirmar se deseja prosseguir ou não.
- Filtragem de conteúdoO sistema identifica e bloqueia automaticamente solicitações potencialmente prejudiciais (por exemplo, compras de armas).
- monitoramento comportamentalFunção de monitoramento: O sistema tem uma função de monitoramento integrada que detecta operações anormais e suspende tarefas.
- Os usuários podem assumir o controle a qualquer momentoO usuário pode assumir a tarefa a qualquer momento durante a operação, e o Operador não tem acesso aos registros de operação do usuário durante o período de assunção, o que protege a privacidade do usuário.
- Mecanismos de supervisão humanaPara tarefas confidenciais (por exemplo, digitar uma senha), a CUA solicita a confirmação do usuário para evitar o uso indevido.
- Medidas antifraudeCUA é capaz de reconhecer sites potencialmente fraudulentos e suspender operações.
- Transparência comportamentalCUA gera capturas de tela em cada etapa da operação para garantir que todas as ações sejam rastreáveis.
Perspectivas futuras: popularização de corpos inteligentes e desenvolvimento de AGI
Atualmente, o Operator está aberto para testes apenas para usuários Pro nos EUA. A OpenAI diz que expandirá para mais grupos de usuários no futuro e planeja abrir os recursos da CUA por meio de uma API que permitirá que os desenvolvedores criem suas próprias inteligências computacionais.
O lançamento do Operator é visto como uma etapa importante na evolução da AGI. No futuro, o Operator e a tecnologia CUA continuarão a evoluir de várias maneiras:
- Expansão da IntelligentsiaCUA: o espaço de ação da CUA será ampliado para mais cenários de tarefas, e a OpenAI planeja fornecer APIs abertas para apoiar os desenvolvedores na criação de inteligências personalizadas e na expansão dos limites de seus aplicativos.
- Operadora Global OpenNo futuro, a operadora espera abrir o acesso aos usuários Plus em mais regiões, beneficiando usuários de todo o mundo.
- Avanço da AGIO surgimento do Operator anuncia a chegada acelerada da era das inteligências, e espera-se que mais inteligências desse tipo surjam nos próximos anos, com a IA substituindo os seres humanos em uma variedade maior de tarefas de interação digital. 2025 pode se tornar o verdadeiro "Ano do corpo inteligente"..
Conclusões e reflexões
O lançamento do Operator e do CUA marca uma mudança revolucionária no modo de interação da IA, que está passando de um modo baseado em interface de dados para um modo de operação universal baseado em interface homem-computador, estabelecendo uma base sólida para a realização da inteligência artificial geral (AGI).
Reflita profundamente sobre o problema:
- A tecnologia CUA substituirá gradualmente as operações de IA baseadas em API existentes? Quais são os custos e benefícios reais da implantação no setor industrial?
- À medida que os recursos da CUA continuam a aumentar, como o papel do usuário humano nas tarefas digitais mudará? Precisamos nos preparar para a "aquisição do corpo inteligente"?
- Diante de ambientes de rede cada vez mais complexos e dos possíveis riscos de uso indevido, como as CUAs podem continuar a garantir a segurança do usuário de forma eficaz? Que novas dimensões devem ser consideradas para o futuro projeto de segurança?