Aprendizagem pessoal com IA
e orientação prática

AppAgent: operação automatizada de smartphones usando inteligências multimodais

Introdução geral

O AppAgent é uma estrutura de agente multimodal baseada no Modelo de Linguagem Ampla (LLM) projetado para operar aplicativos de smartphones. A estrutura amplia sua aplicabilidade em diferentes aplicativos por meio de um espaço de manipulação simplificado que imita as interações humanas, como toques e deslizes, eliminando assim a necessidade de acesso ao back-end do sistema. O AppAgent aprende a usar novos aplicativos explorando ou observando demonstrações humanas de forma autônoma e gera uma base de conhecimento para executar tarefas complexas.

 


AppAgent: operação automatizada de smartphones usando inteligências multimodais-1

 

A Tencent lançou o AppAgent, um corpo inteligente multimodal que pode operar a interface do telefone celular diretamente, reconhecendo a interface atual do telefone celular e os comandos do usuário, e pode operar o telefone celular como um usuário real! Por exemplo, ele pode operar um software de edição de fotos para editar imagens, abrir aplicativos de mapas para navegar, fazer compras e assim por diante.

Página inicial do projeto: https://appagent-official.github.io
Link para o artigo: https://arxiv.org/abs/2312.13771

resumo da dissertação

Com os recentes avanços nos modelos de linguagem grande (LLMs), foram criados corpos inteligentes que podem executar tarefas complexas. Neste artigo, apresentamos uma nova estrutura multimodal para corpos inteligentes baseada em modelos de linguagem grandes, projetada para manipular aplicativos de smartphones. Nossa estrutura permite que os corpos inteligentes manipulem aplicativos de smartphones por meio de um espaço de manipulação simplificado, de modo que seja como se um ser humano estivesse realizando operações de clicar e deslizar. Essa abordagem inovadora ignora a necessidade de acesso direto ao back-end do sistema, tornando-o adequado para uma ampla gama de aplicativos diferentes. No centro da funcionalidade de nossas inteligências está sua abordagem inovadora de aprendizado. O Intelligent Body aprende a navegar e a usar novos aplicativos por meio da autoexploração ou da observação de demonstrações humanas. No processo, ele constrói uma base de conhecimento na qual se baseia para executar tarefas complexas em diferentes aplicativos. Para demonstrar a utilidade da nossa inteligência, nós a testamos exaustivamente em 50 tarefas em 10 aplicativos diferentes, incluindo mídia social, e-mail, mapas, compras e ferramentas complexas de edição de imagens. Os resultados dos testes demonstram a capacidade eficiente da nossa inteligência de lidar com uma ampla gama de tarefas avançadas.

 

Lista de funções

  • exploração autodirigidaAgentes: os agentes podem explorar aplicativos de forma autônoma, registrar elementos interativos e gerar documentação.
  • Aprendizagem de demonstração humanaO agente aprende a tarefa observando uma demonstração humana e gera a documentação apropriada.
  • implementação do mandatoDurante a fase de implantação, o agente executa tarefas complexas com base nos documentos gerados.
  • Entradas multimodaisSuporte a entradas textuais e visuais, usando os modelos GPT-4V ou Qwen-VL-Max.
  • Processamento de CAPTCHAPode ser autenticado por CAPTCHA.
  • Reconhecimento de elementos da interface do usuárioUse sobreposições de grade para posicionar elementos de IU não marcados.

 

Usando a Ajuda

Instalação e configuração

  1. Download e instalaçãoFaça o download dos arquivos do projeto na página do GitHub e instale as dependências necessárias.
  2. arquivo de configuraçãoModificar o diretório raiz do config.yaml para configurar a chave de API para o modelo GPT-4V ou Qwen-VL-Max.
  3. dispositivo conectadoConecte seu dispositivo Android usando USB e ative a depuração USB em Opções do desenvolvedor.

Modelo de exploração autônoma

  1. lançar uma exploração: Executar aprender.py selecione Autonomous Exploration Mode (Modo de exploração autônoma) e digite o nome do aplicativo e a descrição da tarefa.
  2. Registre as interaçõesO agente explorará automaticamente o aplicativo, registrará os elementos de interação e gerará a documentação.

Modo de demonstração humana

  1. Demonstração de inicialização: Executar aprender.py selecione Human Demo Mode e digite o nome do aplicativo e a descrição da tarefa.
  2. Demonstração executivaSiga as instruções e o agente registrará todas as interações e gerará a documentação.

implementação do mandato

  1. Iniciar tarefas: Executar run.py digite o nome do aplicativo e a descrição da tarefa e selecione a biblioteca de documentos apropriada.
  2. operarAgente: O agente executará tarefas para concluir operações complexas com base na documentação.

Procedimento de operação detalhado

  1. Download do projetoVisite a página do GitHub, baixe os arquivos do projeto e extraia-os.
  2. Instalação de dependênciasExecutar em um terminal pip install -r requirements.txt Instale todas as dependências.
  3. modelo de configuraçãoModificar conforme necessário config.yaml para configurar a chave de API para o modelo GPT-4V ou Qwen-VL-Max.
  4. dispositivo conectadoConecte seu dispositivo Android usando USB e ative o modo de depuração USB no dispositivo.
  5. Iniciar uma exploração ou demonstração: Executar aprender.py selecione o modo Autonomous Exploration (Exploração Autônoma) ou Human Demonstration (Demonstração Humana) e digite o nome do aplicativo e a descrição da tarefa.
  6. Gerar documentaçãoO agente registrará todas as interações e gerará documentação para a execução subsequente da tarefa.
  7. operar: Executar run.py insira o nome do aplicativo e a descrição da tarefa, selecione a biblioteca de documentos apropriada e o agente executará a tarefa com base no documento.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " AppAgent: operação automatizada de smartphones usando inteligências multimodais

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil