Aprendizagem pessoal com IA
e orientação prática

Experiência aberta do Smart Spectrum GLM-PC: agente multimodal para operação autônoma do computador atualizado

 


O GLM-PC é o primeiro agente de computador pronto para uso público do mundo, baseado no modelo multimodal CogAgent. Ele pode "observar" e "operar" o computador como um ser humano e ajudar os usuários a concluir várias tarefas do computador com eficiência.

 

Desde o lançamento do GLM-PC v1.0 em 29 de novembro de 2024 e sua versão beta aberta, continuamos a otimizá-lo e atualizá-lo, com a introdução mais recente do modo "Deep Thinking" e a adição de recursos dedicados ao raciocínio lógico e à geração de códigos. Além disso, oTambém oferecemos suporte para sistemas Windows.

 

Faça o download e experimente: https://cogagent.aminer.cn

 

Arquitetura do GLM-PC

Nos últimos anos, o agente tem sido cada vez mais discutido no nível do modelo e da arquitetura.

 

Os recursos de invocação de ferramentas dos Modelos de Linguagem Grandes (LLMs) mostram, pela primeira vez, como os LLMs podem ser usados como agentes organicamente integrados à produção humana, com boa generalização e recursos de aprendizado de pequenas amostras, mas seu escopo de aplicação é limitado pelos tipos de ferramentas acessíveis ao público com as quais é possível interagir em formato textual.

 

Uma série de agentes inteligentes de interface gráfica (GUIs) baseados no modelo de linguagem visual (VLM), representados pelo CogAgent, propõem novos caminhos para alcançar a interação espacial completa da GUI por meio da percepção multimodal. Esses agentes de GUI, semelhantes aos seres humanos, podem perceber visualmente os elementos e os layouts da interface e simular seres humanos para realizar meta-operações, como clicar e digitar no teclado, o que amplia muito os limites da aplicação do agente no espaço de interação virtual.

 

Ao mesmo tempo, os sistemas multiagentes, como o SWE-agent, demonstram o potencial da colaboração multiagente, incorporando os pontos fortes de vários modelos para explorar o planejamento baseado em vários modelos, a reflexão e a autoiteração.

 

Acreditamos que o desenvolvimento dos agentes pode ser atribuído ao aprimoramento da capacidade do modelo e à otimização da arquitetura de colaboração.

 

Um Agente completo precisa atender às seguintes condições:

  • No nível perceptivo, ele é capaz de receber vários sinais, como texto, imagens, vídeo e áudio;
  • No nível do pensamento, a capacidade de pensar logicamente e planejar tarefas (semelhante ao cérebro esquerdo) e a capacidade de perceber com eficiência e operar com flexibilidade (semelhante ao cérebro direito);
  • No nível de execução, a capacidade de realizar operações espaciais completas na GUI, receber feedback ambiental e se autocorrigir.

 

Com base nesse pensamento, em 2023, apresentamos o modelo de código aberto CogAgent, que preenche a lacuna do GUI Agent na percepção multimodal; e, em novembro de 2024, o GLM-PC v1.0 fortalece ainda mais os recursos de percepção, planejamento e criação, além de conseguir uma autocorreção limitada.

 

Agora, a nova versão do GLM-PC se baseia na divisão de trabalho entre o "cérebro esquerdo" e o "cérebro direito" dos seres humanos e alcança uma combinação profunda de raciocínio lógico e cognição perceptual por meio da geração de código e da compreensão da interface gráfica, o que lhe dá a capacidade de encontrar um equilíbrio entre lógica e criatividade e, assim, ajudar os seres humanos a realizar tarefas complexas.

 

Por trás disso está a profunda integração do CogAgent, um modelo multimodal desenvolvido independentemente pela Smart Spectrum, e do CodeGeex, um modelo de código. A nova versão do GLM-PC comanda o fluxo de trabalho e a invocação de ferramentas na forma de código e fortalece os recursos de planejamento, raciocínio e reflexão no modo de pensamento profundo, para que ele possa responder a cenários e tarefas complexos de maneira estável e eficiente. Durante a execução real, o GLM-PC é capaz de detectar o feedback ambiental de várias camadas e auxiliar na reflexão para uma autocorreção e otimização eficazes.

 

Vale a pena mencionar que abrimos o código-fonte do modelo totalmente aprimorado CogAgent-9B-20241220 em dezembro de 2024 para facilitar a pesquisa sobre agentes de GUI pré-treinados.

 

 

Cérebro esquerdo do agente: geração de código e execução de lógica

O "cérebro esquerdo" do GLM-PC é responsável pelo raciocínio lógico rigoroso e pela execução de tarefas. Suas principais funções incluem:

 

1. planejamento

O GLM-PC é capaz de desenvolver rapidamente um programa detalhado de planejamento de tarefas com base nos requisitos de tarefas do usuário. Ele analisa de forma abrangente os objetivos e os recursos disponíveis, gera um roteiro de execução e divide automaticamente tarefas grandes em subtarefas gerenciáveis para criar um caminho de execução claro.

 

2、Execução em loop (Looping Execution)

No final da fase de planejamento, o GLM-PC iniciará o módulo de geração de código para executar um loop lógico que avança passo a passo em direção à conclusão da tarefa. Esse mecanismo de looping garante a execução precisa da tarefa com um alto grau de automação, resultando em um loop fechado completo da entrada à saída sem intervenção humana.

 

Estudo de caso: Processo de compras em um só lugar

Tomando as informações do produto como exemplo, o GLM-PC pode extrair automaticamente os dados do produto a partir de fotos, armazená-los no Excel e adicionar automaticamente os produtos ao carrinho de compras do Taobao, realizando assim um processo de compras em um só lugar.

 

Instruções de operação: obtenha as informações do produto na imagem, crie um novo Excel na área de trabalho para armazenar as informações e adicione as informações do produto ao carrinho de compras do Taobao.

 

(Alguma aceleração do vídeo no texto).

 

3. habilidades de raciocínio longo: reflexão dinâmica, correção de erros e otimização

A função de "cérebro esquerdo" do GLM-PC não apenas gera um plano estático, mas também otimiza continuamente a solução fazendo ajustes em tempo real, correções reflexivas e autocorreções com base em novas informações ambientais durante o processo de execução. O desempenho específico é o seguinte:

  • Flexibilidade para lidar com interrupções: quando o processo é interrompido por fatores externos, o GLM-PC reconfigura rapidamente o caminho lógico para garantir que a tarefa seja executada sem problemas.
  • Refinamento proativo de informações: quando forem encontradas informações ausentes, o GLM-PC interagirá proativamente com o usuário para refinar o plano de execução da tarefa por meio de perguntas.

 

Estudo de caso: processamento eficiente de informações e interação social

Por exemplo, ao ajudar os usuários a processar as informações do "Spring Festival New Year's Movie" em Xiaohongshu, o GLM-PC pode localizar e extrair rapidamente os dados relevantes e, ao mesmo tempo, escrever o código para armazenar as informações no computador. Se houver erros no código gerado, ele poderá se corrigir de acordo com a mensagem de erro.

 

Instruções: pesquise "Spring Festival New Year's Eve Movies" em Xiaohongshu, cite a imagem da primeira postagem gráfica, envie a imagem para o bate-papo em grupo {GGG} no WeChat e pergunte qual filme eles gostariam de ver.

 

 

Cérebro direito do agente: imagens e cognição de GUI

O "cérebro direito" do GLM-PC concentra-se na percepção de profundidade e na experiência interativa. Suas principais funções abrangem:

  • Compreensão da imagem da GUI: identificar com precisão os elementos da interface gráfica (por exemplo, botões, ícones, layouts, etc.) e compreender sua função e lógica de interação.
  • Cognição do comportamento do usuário: combinando o aprendizado da interface do usuário e a compreensão das informações históricas da operação, ele fornece ao usuário operações recomendadas inteligentes para a interface atual.
  • Análise semântica de imagens: análise semântica aprofundada de imagens complexas para extrair informações importantes, como texto, identificadores, tendências e indicadores em gráficos de visualização de dados.
  • Fusão de informações multimodais: fusão de informações de imagem e texto para formar um resultado de percepção abrangente. Por exemplo, o reconhecimento das posições dos botões e dos rótulos de texto na interface do usuário, ajudando o "cérebro esquerdo" a formular planos de operação precisos.

 

Demonstração: organização e arquivamento eficientes de dados

Por exemplo, o GLM-PC é capaz de pesquisar e extrair o conteúdo gráfico relacionado à "classificação de IA" em Xiaohongshu. Posteriormente, por meio do código escrito por ele mesmo, as informações da empresa são armazenadas no arquivo Excel recém-criado na área de trabalho e o conteúdo de texto das postagens é salvo no documento Word especificado, garantindo a organização e o arquivamento eficientes dos dados do usuário e melhorando a eficiência do gerenciamento de informações.

 

Instruções de operação: pesquise "new energy car list" na primeira postagem de imagem e texto em Xiaohongshu, cite o conteúdo da imagem e o conteúdo do texto da primeira postagem, obtenha a lista de informações na imagem e armazene-a no novo Excel da área de trabalho e coloque o conteúdo do texto da postagem em um novo documento do Word da área de trabalho chamado new-energy. e coloque o texto da postagem em um novo documento do Word chamado new-energy na área de trabalho.

 

 

Agente de agentes: colaboração entre os cérebros esquerdo e direito

Esse modelo, que se baseia na colaboração entre os cérebros esquerdo e direito, permite que o GLM-PC não apenas lide com tarefas lógicas complexas, mas também demonstre maior adaptabilidade, criatividade e generalização em problemas abertos. Por meio da otimização dinâmica e da consciência do contexto, o GLM-PC pode ajudar os usuários a explorar soluções mais eficientes, especialmente no processamento de tarefas cíclicas, na execução de raciocínio em várias etapas e no gerenciamento de tarefas de cadeia longa.

 

Estudo de caso: auxílio ao estudo do vocabulário de inglês da 6ª série

O GLM-PC, como assistente de aprendizado de vocabulário em inglês da 6ª série, pode extrair automaticamente palavras do vocabulário da 6ª série de sites designados, criar frases com base nessas palavras e salvar automaticamente as palavras do vocabulário e suas frases em um novo documento do Word chamado "Grade 6 English Vocabulary Learning".

 

Encontre 3 vocábulos neste "https://www.dxsbb.com/news/277.html" Vocabulário da 6ª série e, em seguida, crie uma frase para cada palavra, cole os vocábulos e as frases correspondentes em um novo documento do Word e salve-o como "Grade 6 English Vocabulary Study".

 

 

Demonstração: envio de grupo de imagens personalizadas de felicitações de Ano Novo e bênçãos do WeChat

O GLM-PC é capaz de personalizar automaticamente os desejos de Ano Novo Chinês e as imagens/vídeos de felicitações para os amigos do grupo WeChat e enviá-los como um grupo com a operação de um clique, completando as saudações festivas de forma eficiente.

 

Instrução: Cite a lista de membros do grupo "GGG" no WeChat e envie a cada um deles uma mensagem de desejo de Ano Novo Chinês de 2025 e uma foto com o tema do Ano da Serpente.

 

 

Estudo de caso: consulta e programação inteligente de voos

O GLM-PC pode fornecer aos usuários informações rápidas sobre voos, selecionar as passagens aéreas mais econômicas e sincronizar com a configuração do lembrete de calendário do Flybook para obter um serviço completo, desde a consulta de voos, a seleção de passagens e o agendamento.

 

Instruções: Ajude-me a encontrar a passagem aérea mais barata de Xangai para Pequim em 21 de janeiro no Ctrip; Ajude-me a configurar um calendário do Flybook para 6 horas antes do voo, com um tema de partida para o aeroporto e uma duração de meia hora.

 

Showcase: Processo de extração e organização de questões de matemática em PDF

O GLM-PC abre automaticamente os arquivos PDF, extrai o conteúdo especificado e agrupa e armazena as informações em um documento do Word.

 

Instruções de operação: Ajude-me a abrir o arquivo Permutation and Binomial Theorem Exercise.pdf da área de trabalho, citar as primeiras perguntas de matemática que resumem a interface atual e colocá-las em um novo documento do Word na área de trabalho.

 

 

colaborativo

Estamos explorando uma cooperação aprofundada com fabricantes de PCs renomados, como Lenovo e Asus, para promover conjuntamente a inovação e o desenvolvimento do AIPC (AI Personal Computer).

 

O AIPC não é apenas um computador, mas também uma nova aplicação do agente de IA na computação pessoal, que pode proporcionar aos usuários uma experiência de trabalho e de vida mais eficiente e inteligente.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Experiência aberta do Smart Spectrum GLM-PC: agente multimodal para operação autônoma do computador atualizado

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil