Há uma mudança de paradigma na forma como os humanos interagem com as máquinas. Isso se deve à evolução do Chatbot apenas de diálogo para um agente autônomo com mãos, cérebro e olhos.
Como uma das primeiras grandes empresas de modelos a explorar o Agent, a Smart Spectrum traz vários novos desenvolvimentos para a mesa hoje:
O AutoGLM pode executar autonomamente etapas longas de mais de 50 ações e também pode executar tarefas entre aplicativos.
O AutoGLM abre uma nova experiência de Internet "totalmente automatizada", suporta dezenas de sites e mais não tripulados
GLM-PC para operar computadores como seres humanos Lançamento de testes internos e exploração de técnicas para implementar agentes de uso geral com base em modelos multimodais visuais
No Agent OpenDay, o AutoGLM enviou "um pacote vermelho do WeChat da IA" para centenas de convidados e comandou remotamente computadores para enviar arquivos automaticamente de telefones celulares.
O CEO da Wisdom Spectrum, Zhang Peng, precisa apenas dar um simples comando de voz no local. Originalmente, essas operações eram muito complexas para a máquina, mas hoje são totalmente executadas pelo agente produzido pelo Smart Spectrum.
Nova atualização do AutoGLM: o desafio se torna mais complexo
O AutoGLM recém-atualizado pode ser desafiado a concluir tarefas complexas:
Mais longo: compreende instruções muito longas e executa tarefas muito longas. Por exemplo, no exemplo da compra de ingredientes para uma panela quente, o AutoGLM executa de forma autônoma 54 etapas sem interrupção. Além disso, o AutoGLM supera a operação manual humana nessa longa tarefa cíclica de várias etapas.
Entre aplicativos: o AutoGLM oferece suporte à execução de tarefas entre aplicativos. Os usuários estarão acostumados a processar a IA automaticamente em vez de alternar entre vários aplicativos. Como a forma atual do AutoGLM é mais como uma camada de agendamento para a execução do APP entre usuários e aplicativos, o recurso entre aplicativos é uma etapa muito importante.
Frases curtas: o AutoGLM é capaz de suportar frases personalizadas para tarefas longas. Hoje, em vez de dar ao AutoGLM comandos longos como "Compre um café para mim, café com leite de coco cru, loja Wudaokou, grande, quente, com pouco açúcar", você pode dizer apenas "Peça um café".
Modo Casual: Todos nós temos medo de fazer escolhas, e hoje o AutoGLM pode ajudá-lo ativamente a tomar decisões. No Casual Mode, a IA decide todas as etapas, trazendo a você uma surpresa na forma de uma caixa cega. Você gostaria de experimentar o sabor de café que a IA pede para você?
Ao mesmo tempo, o AutoGLM lançou testes internos em larga escala e será lançado o mais rápido possível como um produto para os usuários do suporte C. O AutoGLM também anunciou o lançamento do programa "1 Billion APPs Free Auto Upgrade", convidando os parceiros de aplicativos a explorar em conjunto seus próprios novos cenários de Auto.
As APIs de amostras do AutoGLM que suportam os cenários e aplicativos principais estarão disponíveis para teste na plataforma aberta Smart Spectrum maas (bigmodel.cn) dentro de duas semanas.
O terminal da Web abre uma nova experiência de navegação "totalmente automatizada": a partir de agora, o plug-in AutoGLM do Wisdom Spectrum fica on-line, dando suporte à condução não tripulada de dezenas de sites, como a pesquisa do Baidu, Weibo, Zhihu, Github e assim por diante. Na demonstração no local, o plug-in AutoGLM concluiu automaticamente o processo de "busca da Mango tv no Baidu, abrindo a Little Alley House, reproduzindo o episódio mais recente e enviando pop-ups para marcar o final". Todo o processo sem intervenção humana.
Convite para teste do GLM-PC: uma exploração tecnológica para computadores "sem motorista
O GLM-PC é uma tecnologia explorada pela equipe do GLM para PCs "sem motorista", com base no modelo multimodal do Wisdom Spectrum, o CogAgent. A primeira fase de cenários de testes internos está aberta no momento, incluindo:
Substitutos de reunião: ajudam os usuários a agendar e participar de reuniões, enviam resumos de reuniões.
Processamento de documentos: suporte ao download de documentos, envio de documentos, compreensão e resumo de documentos.
Pesquisa e resumo na Web: pesquise palavras-chave específicas em plataformas designadas (por exemplo, WeChat, Zhihu, Xiaohongshu etc.) para concluir a leitura e o resumo.
Operação remota e programada: o telefone celular remoto envia comandos, o GLM-PC pode concluir de forma autônoma a operação do computador; defina um horário futuro para executar tarefas regularmente no estado de inicialização.
Tela invisível: enquanto o usuário está trabalhando, o GLM-PC pode concluir seu trabalho de forma autônoma na tela invisível, liberando o uso da tela.
O GLM-PC usa um computador quase exatamente da mesma forma que um ser humano: observando gráficos e textos com os olhos, planejando com o cérebro e, em seguida, usando as mãos para executar operações como clicar, clicar duas vezes, digitar etc. É por isso que o GLM-PC aprendeu a usar qualquer aplicativo projetado para uso humano. Por causa disso, o GLM-PC é teoricamente capaz de executar qualquer aplicativo projetado para humanos depois de aprendê-lo. Esse é um recurso de nível de sistema e de plataforma cruzada que não depende de HTML ou APIs e tem um teto de capacidade mais alto.
No entanto, devido à complexidade do PC e ao fato de que quase tudo o que todos fazem no PC é uma tarefa complexa, francamente, os recursos dos grandes modelos atuais ainda estão longe de ser um substituto real para todos no escritório. O GLM-PC, em sua versão atual, ainda exige que o usuário digite comandos muito precisos.
O "Convite à Experiência" do GLM-PC foi aberto. Continuaremos a trabalhar arduamente para disponibilizar o produto a todos os usuários o mais rápido possível depois que ele for aperfeiçoado, e também esperamos explorar com mais fornecedores em uma joint venture.
O AutoGLM e o GLM-PC são nossas tentativas importantes de avançar em direção a um sistema operacional inteligente de IA. Eles surgiram do acúmulo de tecnologias da Wiseplan em grandes modelos de linguagem, modelos multimodais, raciocínio lógico e uso de ferramentas. Desde o AgentBench, em abril de 23, até o modelo CogAgent, em agosto, o trabalho de desenvolvimento do Wiseplan para o AutoGLM e o modelo do GLM-PC, CogAgent, foi realizado durante um ano e meio.
Diferentemente da OpenAI, o Smart Spectrum define cinco estágios no desenvolvimento do Big Model: L1 Competência linguística, L2 Competência lógica (competência multimodal), L3 Capacidade de usar ferramentas, L4 Competência de autoaprendizagem, L5 Exploração de leis científicas.
No desenvolvimento até o momento, o Big Model foi preparado com alguns dos recursos da interação humana com o mundo físico real. "O agente aprimorará muito a capacidade de L3 de usar ferramentas e, ao mesmo tempo, abrirá a exploração da capacidade de autoaprendizagem de L4." disse Zhang Peng.
Zhang Peng disse que a equipe do GLM continuará a acelerar o desenvolvimento de produtos de modelo de agente no futuro, aguardando o paradigma de operar computadores e telefones celulares em uma única frase o mais rápido possível.
Grandes modelos do Chat to Act
Hoje, a tecnologia Big Model está mudando a forma como as máquinas e as pessoas interagem, com base na compreensão das necessidades, no planejamento e na tomada de decisões, na execução de ações e na autorreflexão. O agente trará uma interação intuitiva entre homem e computador - desde que as pessoas se adaptem às máquinas até que as máquinas se adaptem às pessoas.
Empresas como a Apple Intelligence, Anthropic (Computer Use), Google (Jarvis) e OpenAI (Operator) também identificaram a IA agêntica como um dos principais focos para 2025. Recentemente, a Gartner listou a IA agêntica como uma das 10 principais tendências tecnológicas para 2025 e previu que pelo menos 15% das decisões diárias de trabalho serão tomadas de forma autônoma pela IA agêntica em 2028, em comparação com zero em 2024.
Diferentemente da GenAI, os agentes são orientados por metas, capazes de executar fluxos de trabalho integralmente, adaptar-se, aprender, iterar, colaborar com outros sistemas e seres humanos e concluir tarefas de ponta a ponta. Na visão de Zhang Peng, o Agent pode ser visto como o protótipo do LLM-OS, o Sistema Operacional Geral de Modelo Grande.
"Nesse estágio, o AutoGLM equivale a adicionar uma camada de agendamento de execução entre humanos e aplicativos, mudando amplamente a forma de interação homem-máquina. Mais importante ainda, vemos a possibilidade do LLM-OS, com base em grandes recursos de inteligência de modelo (de L1 a L4 e além), que tem a oportunidade de permitir a interação homem-computador nativa no futuro. Levando o paradigma da HCI para o próximo nível."
Um novo paradigma para dispositivos inteligentes na era da IA
À medida que os recursos de modelos grandes continuam a evoluir, estamos vendo lentamente a IA desenvolver seu próprio cérebro, olhos e mãos. Não apenas a inteligência continua a crescer, mas os recursos perceptivos e a largura de banda de interação estão sendo enriquecidos e expandidos, bem como a execução acelerada que o agente agora proporciona.
Zhang Fan, COO da Smart Spectrum, disse que os dispositivos inteligentes serão renovados com novas oportunidades com o apoio de grandes modelos. Os telefones celulares + IA se tornarão assistentes pessoais inteligentes, os PCs + IA se tornarão novas ferramentas de produtividade e os carros + IA farão com que o carro se torne o terceiro espaço inteligente das pessoas. Obviamente, o Big Model não trará oportunidades apenas para telefones celulares, PCs e carros, mas também beneficiará todos os tipos de dispositivos inteligentes. A evolução contínua do Big Model estabeleceu uma base sólida para que o Agent transforme a experiência de interação homem-veículo.
Com o aprimoramento contínuo do desempenho e da capacidade de computação do lado final, modelos adaptados para dispositivos nativos de IA e o surgimento de uma arquitetura colaborativa com homologia de nuvem final, o Agent não está apenas transformando a experiência do usuário em sistemas operacionais e aplicativos, mas também estendendo-a a todos os tipos de dispositivos inteligentes, de telefones celulares a computadores, carros, óculos, residências e todos os tipos de dispositivos do lado da borda, uma ampla gama de dispositivos nativos de IA está competindo pelos holofotes.
Wang Zuo-jian, diretor técnico de IA da Glory, Zhong Huai-sheng, chefe de ecologia inteligente da ASUS AIPC, Lian Lei, chefe de voz inteligente/negócios inteligentes da Xiaopeng Automobile Cockpit, Wan Satellite, chefe de tecnologia de produtos de IA da Qualcomm na China, e Gao Yu, gerente geral do departamento de tecnologia da Intel na China, como clientes e parceiros da Smart Spectrum, compartilharam suas práticas e perspectivas sobre terminais inteligentes, respectivamente, em diferentes cenários.
O desenvolvimento do Big Model e do Agent não só traz aos usuários um novo paradigma de dispositivos inteligentes na era da IA, mas também significa um espaço de aterrissagem mais amplo para a tecnologia do Big Model. De dispositivos inteligentes a redes inteligentes, em um futuro próximo, veremos a interconectividade e as infinitas possibilidades de dispositivos nativos de IA. Nesse processo, o Smart Spectrum também fornecerá uma série de produtos e recursos para ajudar os dispositivos inteligentes a adotar grandes modelos e acelerar em direção a uma nova era de dispositivos nativos de IA.
Endereço do aplicativo AutoGLM