Aprendizagem pessoal com IA
e orientação prática

CogAgent: modelo de linguagem visual inteligente de código aberto da Smart Spectrum para automação de interfaces gráficas

Introdução geral

O CogAgent é um modelo de linguagem visual de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), com o objetivo de automatizar operações de interface gráfica do usuário (GUI) entre plataformas. O modelo é baseado no CogVLM (GLM-4V-9B), oferece suporte a interações bilíngues em inglês e chinês e é capaz de executar tarefas por meio de capturas de tela e linguagem natural. O CogAgent obteve desempenho líder em tarefas de GUI em várias plataformas e categorias e é adequado para uma ampla gama de dispositivos de computação, como Windows, macOS e Android. Sua versão mais recente, CogAgent-9B-20241220, oferece melhorias significativas na percepção da GUI, precisão de raciocínio, integridade do espaço de operação e generalização de tarefas.

CogAgent-9B-20241220 O modelo é baseado no GLM-4V-9B, um modelo básico de VLM bilíngue de código aberto. Por meio da coleta e otimização de dados, treinamento em vários estágios e aprimoramento da estratégia, o CogAgent-9B-20241220 Foram feitos avanços significativos na percepção da GUI, na precisão da previsão de inferência, na integridade do espaço de ação e nos recursos de generalização entre tarefas. O modelo suporta interação bilíngue (chinês e inglês), incluindo capturas de tela e entrada verbal. Essa versão do modelo CogAgent foi usada no produto GLM-PC da Smart Spectrum AI.

CogAgent: modelo de linguagem visual inteligente de código aberto da Smart Spectrum para automação de interface gráfica-1

 


CogAgent: modelo de linguagem visual inteligente de código aberto da Smart Spectrum para automação de interface gráfica-1

 

Lista de funções

  • Compreensão e processamento de imagens de alta resolução (suporta resolução de 1120x1120)
  • Capacidade de automação da interface GUI
  • Interação de interface compatível com várias plataformas
  • Processamento de tarefas de perguntas e respostas visuais (VQA)
  • Compreensão e análise de gráficos (ChartQA)
  • Perguntas e respostas visuais sobre documentos (DocVQA)
  • Perguntas e respostas visuais sobre informações (InfoVQA)
  • Compreensão de texto de cena (ST-VQA)
  • Questionário visual sobre conhecimentos gerais (OK-VQA)

 

Usando a Ajuda

1. configuração ambiental

1.1 Requisitos da fundação:

  • Python 3.8 ou superior
  • Dispositivos de GPU compatíveis com CUDA
  • Espaço suficiente na memória de vídeo (recomenda-se pelo menos 16 GB)

1.2 Etapas de instalação:

# Clonar o repositório do projeto
git clone https://github.com/THUDM/CogAgent.git
cd CogAgent
# instalar dependências
pip install -r requirements.txt

2. carregamento e uso do modelo

2.1 Download do modelo:

  • Faça o download do arquivo de pesos do modelo na plataforma Hugging Face
  • Há suporte para duas versões: cogagent-18b e cogagent-9b.

2.2 Processo de uso básico:

from cogagent import CogAgentModel
# Inicializar o modelo
model = CogAgentModel.from_pretrained("THUDM/CogAgent")
# Carregar imagem
image_path = "path/to/your/image.jpg"
response = model.process_image(image_path)
# Executar uma operação de GUI
gui_command = model.generate_gui_command(image_path, task_description)
model.execute_command(gui_command)

3. descrição do uso das principais funções

3.1 Função de compreensão da imagem:

  • Suporta várias entradas de formato de imagem
  • Lida com imagens com resolução de até 1120x1120
  • Fornece descrição e análise detalhadas do conteúdo da imagem

3.2 Automação da GUI:

  • Suporte para reconhecimento de elementos de interface
  • Executar operações de clique, arrastar e soltar, entrada e outras.
  • Fornecer validação de operação e mecanismos de tratamento de erros

3.3 Função visual de perguntas e respostas:

  • Suporte para perguntas em linguagem natural
  • Fornecer respostas detalhadas relacionadas à imagem
  • É capaz de lidar com problemas de raciocínio complexos

4. recomendações de otimização de desempenho

4.1 Gerenciamento de memória:

  • Use o tamanho de lote apropriado
  • Limpe as instâncias de modelo não utilizadas em tempo hábil
  • Controle o número de tarefas de processamento simultâneas

4.2 Otimização da velocidade de raciocínio:

  • Inferência acelerada usando precisão FP16
  • Permitir a quantificação do modelo para reduzir o uso de recursos
  • Otimização do processo de pré-processamento de imagens

5. resolução de problemas comuns

5.1 Problemas de memória:

  • Verificação do uso da memória de vídeo
  • Redimensione os lotes adequadamente
  • Usando a técnica de ponto de controle de gradiente

5.2 Problemas de precisão:

  • Garantir a qualidade da imagem de entrada
  • Ajuste da configuração dos parâmetros do modelo
  • Verifique se as etapas de pré-processamento estão corretas

Funções principais

  • operação em uma etapaExecute ações de uma única etapa, como abrir um aplicativo, clicar em um botão etc., por meio de comandos simples de linguagem natural.
  • operação em várias etapasSuporte a tarefas operacionais complexas de várias etapas e fluxos de trabalho automatizados por meio de instruções sequenciais.
  • Registro e reprodução de tarefasHistórico de operações do usuário: registra o histórico de operações do usuário e suporta a função de reprodução para depuração e otimização.
  • Tratamento de errosMecanismo integrado de tratamento de erros que identifica e trata erros operacionais comuns para garantir a conclusão tranquila da tarefa.

Funções em destaque

  • Raciocínio eficienteNa precisão BF16, a inferência do modelo requer pelo menos 29 GB de memória da GPU, e recomenda-se uma GPU A100 ou H100.
  • Implementação flexívelSuporte à implementação em uma ampla variedade de plataformas de hardware, incluindo HuggingFace, ModelScope e WiseModel.
  • Suporte à comunidadeComunidade de código aberto ativa que fornece suporte técnico e respostas a perguntas para ajudar os desenvolvedores a começar rapidamente.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " CogAgent: modelo de linguagem visual inteligente de código aberto da Smart Spectrum para automação de interfaces gráficas

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil