Experiência aberta do Smart Spectrum GLM-PC: agente multimodal para operação autônoma do computador atualizado

Notícias sobre IAPublicado há 7 meses Círculo de compartilhamento de IA

1.9K 00

O GLM-PC é o primeiro agente de computador pronto para uso público do mundo, baseado no modelo multimodal CogAgent. Ele pode "observar" e "operar" o computador como um ser humano e ajudar os usuários a concluir várias tarefas do computador com eficiência.

Desde o lançamento do GLM-PC v1.0 em 29 de novembro de 2024 e sua versão beta aberta, continuamos a otimizá-lo e atualizá-lo, com a introdução mais recente do modo "Deep Thinking" e a adição de recursos dedicados ao raciocínio lógico e à geração de códigos. Além disso, oTambém oferecemos suporte para sistemas Windows.

Faça o download e experimente: https://cogagent.aminer.cn

Arquitetura do GLM-PC

Nos últimos anos, o agente tem sido cada vez mais discutido no nível do modelo e da arquitetura.

Os recursos de invocação de ferramentas dos Modelos de Linguagem Grandes (LLMs) mostram, pela primeira vez, como os LLMs podem ser usados como agentes organicamente integrados à produção humana, com boa generalização e recursos de aprendizado de pequenas amostras, mas seu escopo de aplicação é limitado pelos tipos de ferramentas acessíveis ao público com as quais é possível interagir em formato textual.

para CogAgent Uma série de Agentes GUI (Graphical Interface Intelligents) baseados no Modelo de Linguagem Visual (VLM), representados por uma série de Agentes GUI, propõem novos caminhos para obter uma interação completa no espaço da GUI por meio da percepção multimodal. Esses agentes de GUI, semelhantes aos seres humanos, podem perceber visualmente os elementos e layouts da interface e simular seres humanos para realizar meta-operações, como clicar e digitar no teclado, o que expande muito os limites da aplicação do agente no espaço de interação virtual.

Ao mesmo tempo, os sistemas multiagentes, como o SWE-agent, demonstram o potencial da colaboração multiagente, incorporando os pontos fortes de vários modelos para explorar o planejamento baseado em vários modelos, a reflexão e a autoiteração.

Acreditamos que o desenvolvimento dos agentes pode ser atribuído ao aprimoramento da capacidade do modelo e à otimização da arquitetura de colaboração.

Um Agente completo precisa atender às seguintes condições:

No nível perceptivo, ele é capaz de receber vários sinais, como texto, imagens, vídeo e áudio;
No nível do pensamento, a capacidade de pensar logicamente e planejar tarefas (semelhante ao cérebro esquerdo) e a capacidade de perceber com eficiência e operar com flexibilidade (semelhante ao cérebro direito);
No nível de execução, a capacidade de realizar operações espaciais completas na GUI, receber feedback ambiental e se autocorrigir.

Com base nesse pensamento, em 2023, apresentamos o modelo de código aberto CogAgent, que preenche a lacuna do GUI Agent na percepção multimodal; e, em novembro de 2024, o GLM-PC v1.0 fortalece ainda mais os recursos de percepção, planejamento e criação, além de conseguir uma autocorreção limitada.

Agora, a nova versão do GLM-PC se baseia na divisão de trabalho entre o "cérebro esquerdo" e o "cérebro direito" dos seres humanos e alcança uma combinação profunda de raciocínio lógico e cognição perceptual por meio da geração de código e da compreensão da interface gráfica, o que lhe dá a capacidade de encontrar um equilíbrio entre lógica e criatividade e, assim, ajudar os seres humanos a realizar tarefas complexas.

Por trás dele está o modelo multimodal CogAgent e o modelo de código desenvolvido pela Smart Spectrum. CodeGeex O novo GLM-PC direciona fluxos de trabalho e invocações de ferramentas em código. A nova versão do GLM-PC comanda o fluxo de trabalho e a invocação de ferramentas em forma de código e fortalece a capacidade de planejar, raciocinar e refletir no modo de pensamento profundo, de modo que possa responder de forma estável e eficiente a cenários e tarefas complexos. Durante a execução real, o GLM-PC é capaz de perceber o feedback ambiental de várias camadas e auxiliar na reflexão para uma autocorreção e otimização eficazes.

Vale a pena mencionar que abrimos o código-fonte do modelo totalmente aprimorado CogAgent-9B-20241220 em dezembro de 2024 para facilitar a pesquisa sobre agentes de GUI pré-treinados.

Cérebro esquerdo do agente: geração de código e execução de lógica

O "cérebro esquerdo" do GLM-PC é responsável pelo raciocínio lógico rigoroso e pela execução de tarefas. Suas principais funções incluem:

1. planejamento

O GLM-PC é capaz de desenvolver rapidamente um programa detalhado de planejamento de tarefas com base nos requisitos de tarefas do usuário. Ele analisa de forma abrangente os objetivos e os recursos disponíveis, gera um roteiro de execução e divide automaticamente tarefas grandes em subtarefas gerenciáveis para criar um caminho de execução claro.

2、Execução em loop (Looping Execution)

No final da fase de planejamento, o GLM-PC iniciará o módulo de geração de código para executar um loop lógico que avança passo a passo em direção à conclusão da tarefa. Esse mecanismo de looping garante a execução precisa da tarefa com um alto grau de automação, resultando em um loop fechado completo da entrada à saída sem intervenção humana.

Estudo de caso: Processo de compras em um só lugar

Tomando as informações do produto como exemplo, o GLM-PC pode extrair automaticamente os dados do produto a partir de fotos, armazená-los no Excel e adicionar automaticamente os produtos ao carrinho de compras do Taobao, realizando assim um processo de compras em um só lugar.

Instruções de operação: obtenha as informações do produto na imagem, crie um novo Excel na área de trabalho para armazenar as informações e adicione as informações do produto ao carrinho de compras do Taobao.

(Alguma aceleração do vídeo no texto).

3. habilidades de raciocínio longo: reflexão dinâmica, correção de erros e otimização

A função de "cérebro esquerdo" do GLM-PC não apenas gera um plano estático, mas também otimiza continuamente a solução fazendo ajustes em tempo real, correções reflexivas e autocorreções com base em novas informações ambientais durante o processo de execução. O desempenho específico é o seguinte:

Flexibilidade para lidar com interrupções: quando o processo é interrompido por fatores externos, o GLM-PC reconfigura rapidamente o caminho lógico para garantir que a tarefa seja executada sem problemas.
Refinamento proativo de informações: quando forem encontradas informações ausentes, o GLM-PC interagirá proativamente com o usuário para refinar o plano de execução da tarefa por meio de perguntas.

Estudo de caso: processamento eficiente de informações e interação social

Por exemplo, ao ajudar os usuários a processar as informações do "Spring Festival New Year's Movie" em Xiaohongshu, o GLM-PC pode localizar e extrair rapidamente os dados relevantes e, ao mesmo tempo, escrever o código para armazenar as informações no computador. Se houver erros no código gerado, ele poderá se corrigir de acordo com a mensagem de erro.

Instruções: pesquise "Spring Festival New Year's Eve Movies" em Xiaohongshu, cite a imagem da primeira postagem gráfica, envie a imagem para o bate-papo em grupo {GGG} no WeChat e pergunte qual filme eles gostariam de ver.

Cérebro direito do agente: imagens e cognição de GUI

O "cérebro direito" do GLM-PC concentra-se na percepção de profundidade e na experiência interativa. Suas principais funções abrangem:

Compreensão da imagem da GUI: identificar com precisão os elementos da interface gráfica (por exemplo, botões, ícones, layouts, etc.) e compreender sua função e lógica de interação.
Cognição do comportamento do usuário: combinando o aprendizado da interface do usuário e a compreensão das informações históricas da operação, ele fornece ao usuário operações recomendadas inteligentes para a interface atual.
Análise semântica de imagens: análise semântica aprofundada de imagens complexas para extrair informações importantes, como texto, identificadores, tendências e indicadores em gráficos de visualização de dados.
Fusão de informações multimodais: fusão de informações de imagem e texto para formar um resultado de percepção abrangente. Por exemplo, o reconhecimento das posições dos botões e dos rótulos de texto na interface do usuário, ajudando o "cérebro esquerdo" a formular planos de operação precisos.

Demonstração: organização e arquivamento eficientes de dados

Por exemplo, o GLM-PC é capaz de pesquisar e extrair o conteúdo gráfico relacionado à "classificação de IA" em Xiaohongshu. Posteriormente, por meio do código escrito por ele mesmo, as informações da empresa são armazenadas no arquivo Excel recém-criado na área de trabalho e o conteúdo de texto das postagens é salvo no documento Word especificado, garantindo a organização e o arquivamento eficientes dos dados do usuário e melhorando a eficiência do gerenciamento de informações.

Instruções de operação: pesquise "new energy car list" na primeira postagem de imagem e texto em Xiaohongshu, cite o conteúdo da imagem e o conteúdo do texto da primeira postagem, obtenha a lista de informações na imagem e armazene-a no novo Excel da área de trabalho e coloque o conteúdo do texto da postagem em um novo documento do Word da área de trabalho chamado new-energy. e coloque o texto da postagem em um novo documento do Word chamado new-energy na área de trabalho.

Agente de agentes: colaboração entre os cérebros esquerdo e direito

Esse modelo, que se baseia na colaboração entre os cérebros esquerdo e direito, permite que o GLM-PC não apenas lide com tarefas lógicas complexas, mas também demonstre maior adaptabilidade, criatividade e generalização em problemas abertos. Por meio da otimização dinâmica e da consciência do contexto, o GLM-PC pode ajudar os usuários a explorar soluções mais eficientes, especialmente no processamento de tarefas cíclicas, na execução de raciocínio em várias etapas e no gerenciamento de tarefas de cadeia longa.

Estudo de caso: auxílio ao estudo do vocabulário de inglês da 6ª série

O GLM-PC, como assistente de aprendizado de vocabulário em inglês da 6ª série, pode extrair automaticamente palavras do vocabulário da 6ª série de sites designados, criar frases com base nessas palavras e salvar automaticamente as palavras do vocabulário e suas frases em um novo documento do Word chamado "Grade 6 English Vocabulary Learning".

Encontre 3 vocábulos neste "https://www.dxsbb.com/news/277.html" Vocabulário da 6ª série e, em seguida, crie uma frase para cada palavra, cole os vocábulos e as frases correspondentes em um novo documento do Word e salve-o como "Grade 6 English Vocabulary Study".

Demonstração: envio de grupo de imagens personalizadas de felicitações de Ano Novo e bênçãos do WeChat

O GLM-PC é capaz de personalizar automaticamente os desejos de Ano Novo Chinês e as imagens/vídeos de felicitações para os amigos do grupo WeChat e enviá-los como um grupo com a operação de um clique, completando as saudações festivas de forma eficiente.

Instrução: Cite a lista de membros do grupo "GGG" no WeChat e envie a cada um deles uma mensagem de desejo de Ano Novo Chinês de 2025 e uma foto com o tema do Ano da Serpente.

Estudo de caso: consulta e programação inteligente de voos

O GLM-PC pode fornecer aos usuários informações rápidas sobre voos, selecionar as passagens aéreas mais econômicas e sincronizar com a configuração do lembrete de calendário do Flybook para obter um serviço completo, desde a consulta de voos, a seleção de passagens e o agendamento.

Instruções: Ajude-me a encontrar a passagem aérea mais barata de Xangai para Pequim em 21 de janeiro no Ctrip; Ajude-me a configurar um calendário do Flybook para 6 horas antes do voo, com um tema de partida para o aeroporto e uma duração de meia hora.

Showcase: Processo de extração e organização de questões de matemática em PDF

O GLM-PC abre automaticamente os arquivos PDF, extrai o conteúdo especificado e agrupa e armazena as informações em um documento do Word.

Instruções de operação: Ajude-me a abrir o arquivo Permutation and Binomial Theorem Exercise.pdf da área de trabalho, citar as primeiras perguntas de matemática que resumem a interface atual e colocá-las em um novo documento do Word na área de trabalho.

colaborativo

Estamos explorando uma cooperação aprofundada com fabricantes de PCs renomados, como Lenovo e Asus, para promover conjuntamente a inovação e o desenvolvimento do AIPC (AI Personal Computer).

O AIPC não é apenas um computador, mas também uma nova aplicação do agente de IA na computação pessoal, que pode proporcionar aos usuários uma experiência de trabalho e de vida mais eficiente e inteligente.