Em comparação com os computadores, os telefones celulares, que "não podem ser largados", nos acompanham por um período mais longo e estão mais próximos de nossas vidas.
Se o "Uso do Computador" abre um novo paradigma de interação humano-computador, o "Uso do Telefone" dá um passo adiante, liberando mais possibilidades de aplicativos e permitindo que a IA realmente beneficie a todos.
Hoje, com base nos esforços e nas descobertas da equipe técnica da GLM em modelagem de linguagem, modelagem multimodal e uso de ferramentas, estamos lançando o primeiro corpo inteligente (agente) produzido pela GLM - o AutoGLM, que pode simular a operação humana de um telefone celular e, por sua vez, ajudá-lo apenas recebendo comandos simples de texto/voz:
'Curta e escreva comentários no círculo de amigos de seu chefe' no WeChat ......
No Taobao, "compre um determinado produto de pedido histórico" ......
Reserve hotéis no Ctrip ......
Compre bilhetes de trem no 12306 ......
Faça um pedido de comida para viagem no Meituan ......
Teoricamente, com um profundo conhecimento de GUIs, o AutoGLM pode fazer qualquer coisa que um ser humano possa fazer em um dispositivo eletrônico visual (computador, telefone celular, tablet ......).
Não se limita a cenários de tarefas simples ou chamadas de API e não exige que os usuários criem manualmente fluxos de trabalho complexos e tediosos; a lógica de operação é semelhante à dos seres humanos e realmente os auxilia na vida e no trabalho diários.
Endereço do projeto: https://xiao9905.github.io/AutoGLM
Desta vez, ainda não publicamos "futuros", então você pode passar:
Chrome ou Edge para experimentar o AutoGLM-Web instalando o plug-in "Wisdom Spectrum", um assistente de navegador que simula a visita de um usuário a uma página da Web, clica em uma página da Web e executa automaticamente pesquisa avançada, resumo e geração de conteúdo em um site da Web com base nos comandos do usuário em um modelo grande.
Em relação aos telefones celulares, o primeiro lote está aberto a alguns usuários do Qingyin (por enquanto, apenas o sistema Android é compatível), e você pode enviar aplicativos para testes internos. Vale a pena mencionar que também temos uma profunda cooperação com fabricantes de telefones celulares, como a Honor, com base no AutoGLM.
Tecnologia AutoGLM
O AutoGLM baseia-se na "Interface Intermediária Desacoplada para Inteligências Básicas" e na "Estrutura de Aprendizagem de Reforço de Curso On-line Auto-evolutiva" desenvolvidas pela Smart Spectrum, que supera os desafios de pesquisa e aplicação inteligentes, como antagonismo de capacidade, escassez de tarefas e dados de treinamento, escassez de sinais de feedback e desvio de distribuições de estratégia no planejamento de tarefas e execução de ações de inteligências de modelo grande, juntamente com a estratégia de aprendizagem adaptativa, e é capaz de aprimoramento contínuo durante o processo de iteração, melhorar seu desempenho de forma contínua e estável. Assim como uma pessoa, no processo de crescimento, está constantemente adquirindo novas habilidades.
O AutoGLM aborda dois desafios importantes quando modelos grandes são usados como inteligências:
Desafio 1: "execução de ação" insuficientemente precisa
Um dos principais desafios no treinamento de grandes modelos de inteligência é como fazer com que o modelo aprenda a manipular com precisão os elementos exibidos na tela. O treinamento de ponta a ponta para treinar conjuntamente os recursos de "execução de ações" e "planejamento de tarefas" é limitado pelo alto custo de aquisição de dados de trajetória e pela grave escassez de dados totais, o que resulta em treinamento inadequado dos recursos de execução de ações que exigem alta precisão.
Para resolver esse problema, o AutoGLM introduz o design de "interface intermediária desacoplada de inteligência básica", desacoplando as duas fases de "planejamento de tarefas" e "execução de ações" por meio de uma interface intermediária de linguagem natural, o que proporciona um grande aprimoramento na capacidade de inteligência. Por exemplo, ao fazer um pedido de comida para viagem em um telefone celular e clicar no botão "enviar pedido", a comparação entre o esquema tradicional e o da "interface intermediária" é a seguinte:
Desafio 2: Falta de flexibilidade no "planejamento da missão"
Outro grande desafio é que as inteligências de GUI têm dados de trajetória de treinamento extremamente limitados e caros. Além disso, as inteligências precisam ter a flexibilidade de planejar e corrigir em tempo real quando confrontadas com tarefas complexas e ambientes do mundo real. Isso não pode ser facilmente obtido por métodos tradicionais de treinamento de modelos grandes, como Imitation Learning e Supervised Fine-Tuning (SFT). Para isso, desenvolvemos uma "Estrutura Autoevolutiva de Aprendizagem por Reforço de Cursos On-line" para aprender e aprimorar os recursos de grandes modelos de inteligência do zero em ambientes on-line reais, tanto na Web quanto no telefone, usando navegadores da Web como ambientes experimentais. Com a introdução de uma estratégia de aprendizagem autoevolutiva, o modelo examina, estimula e aprimora a si mesmo continuamente. Por meio do método de aprendizagem por reforço de curso, a estrutura ajusta dinamicamente a dificuldade da tarefa de aprendizagem de acordo com o nível de habilidade da inteligência nas rodadas de iteração atuais, a fim de maximizar o potencial do modelo. E, por meio da atualização da política do controle de dispersão KL e da reprodução da experiência de confiança do corpo inteligente, atenuamos e evitamos o problema de o modelo esquecer as tarefas de aprendizagem anteriores durante o treinamento iterativo. A versão de código aberto do GLM-4-9B treinada com base nesse método pode, então, melhorar mais de 160% em relação ao GPT-4o no benchmark de avaliação WebArena-Lite, atingindo uma taxa de sucesso geral da tarefa de 43%.
O AutoGLM alcança melhorias significativas de desempenho tanto no uso do telefone quanto no uso do navegador da Web por meio da aplicação combinada da estratégia do próprio Wiseplan de "desacoplar a interface intermediária das inteligências básicas" e da "estrutura de aprendizado de reforço de curso on-line que evolui automaticamente". Por exemplo, o AutoGLM supera significativamente o GPT-4o e o Claude-3.5-Sonnet nos benchmarks do AndroidLab. No benchmark WebArena-Lite, o AutoGLM alcança uma melhoria de desempenho de cerca de 200% em relação ao GPT-4o, reduzindo bastante a diferença entre as inteligências humana e de modelos grandes em termos de sucesso na manipulação da GUI.
O AutoGLM agora suporta a execução automatizada de tarefas em vários aplicativos em telefones Android reais por meio de um aplicativo Android. O AutoGLM tem um desempenho satisfatório na avaliação manual de tarefas simples.