Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Optexity: um projeto de código aberto para treinar a IA para realizar ações na Web com demonstrações humanas

Introdução geral

O Optexity é um projeto de código aberto no GitHub, desenvolvido pela equipe do Optexity. Sua essência é usar dados de demonstração humana para treinar a IA para concluir tarefas de computador, especialmente operações de páginas da Web. O projeto inclui três bibliotecas de código: ComputerGYM, AgentAI e Playwright, que permitem aos usuários registrar operações, processar dados e treinar modelos para que a IA possa aprender tarefas como clicar em botões ou preencher formulários. Todo o código é gratuito e pode ser baixado e modificado pelos usuários. No futuro, haverá suporte para autoexploração, documentação de software e treinamento em vídeo no YouTube.

Optexity: um projeto de código aberto para treinar a IA para realizar operações na Web com demonstrações humanas-1


 

Lista de funções

  • Suporta o registro de demonstrações de ações humanas para treinar a IA para concluir tarefas na Web.
  • Fornece ambientes de tarefas como o MiniWoB++, incluindo operações de clique e formulário.
  • Processamento de dados de demonstração para gerar formatos para treinamento.
  • Gemini, vLLM e outros modelos são compatíveis e podem ser ajustados com o LLaMA-Factory.
  • O código-fonte aberto está disponível para download para facilitar a personalização.
  • Integre-se ao Playwright para aprimorar os recursos de automação da Web.

 

Usando a Ajuda

Processo de instalação

Para usar o Optexity, primeiro você precisa preparar seu ambiente. Veja a seguir as etapas:

  1. Código de download
    Digite-o no terminal:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Isso fará o download de três bibliotecas de código.

  1. Ambiente de configuração
    Crie um ambiente com o Conda:
conda create -n optexity python=3.10 nodejs
conda activate optexity
  1. Instalação de dependências
    Instale o ComputerGYM e o AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI

Instale o Playwright novamente:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Funções principais

Demonstração gravada

  1. estabelecer demonstration_config.yamlreferência demonstration_config_example.yamlAnote o objetivo da tarefa (por exemplo, "clicar no botão").
  2. Execute a gravação:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

O sistema registra as ações do mouse e do teclado.

Processamento de dados

Registre os dados de pós-processamento:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Isso converterá a operação em um formato legível por IA.

Gerar dados de treinamento

Gerar arquivos de treinamento com o AgentAI:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

O arquivo é salvo na pasta train_data adaptada para LLaMA-Factory.

Modelos de treinamento

Treinado com o LLaMA-Factory, consulte sua documentação. Após o treinamento, o modelo é implantado em http://localhost:8000.

Teste de IA

Teste os efeitos de IA, como a mudança de moedas na HubSpot:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

O resultado é exibido no terminal.

Operação da função em destaque

Treinamento de demonstração humana

O destaque do Optexity é ensinar IA com ações humanas. Você grava uma ação uma vez e a IA aprende a repeti-la. É fácil de registrar e processar, portanto, até mesmo os novatos podem usá-lo.

Teste do modelo original

Gostaria de experimentá-lo imediatamente. Gêmeos Modelos? Executar:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

A chave pode ser encontrada na seção https://aistudio.google.com/apikey Obtenha-o gratuitamente.

Integração do MiniWoB++

O MiniWoB++ fornece tarefas como cliques e formulários. No tempo de execução, a IA tenta concluir a meta e o terminal exibe a taxa de sucesso.

Extensões de código aberto

Todas as três bases de código são de código aberto. Você pode alterar o código para adicionar recursos, como novas tarefas, ou ajustar a lógica do Playwright, e enviá-lo ao GitHub o torna uma parte oficial do processo.

Resumo do processo de operação

  1. Instale a base de código e o ambiente.
  2. Registre apresentações e processe dados.
  3. Gerar dados de treinamento e treinar o modelo.
  4. Teste a IA e ajuste os parâmetros.

As etapas são claras e você pode começar em minutos.

 

cenário do aplicativo

  1. Pesquisa de IA
    Os pesquisadores o utilizaram para testar o desempenho da IA em tarefas da Web.
  2. automação da web
    Os desenvolvedores usam a IA para automatizar ações repetitivas.
  3. prática educacional
    Os alunos o utilizam para aprender o processo de treinamento de IA.

 

QA

  1. Precisa de uma base de programação?
    Requer um pouco de conhecimento de Python e de terminal, mas os tutoriais são detalhados e fáceis de seguir.
  2. Para que serve o LLaMA-Factory?
    É a ferramenta de ajuste fino que converte dados de demonstração em formato de treinamento.
  3. Tenho que treinar com uma demonstração?
    Não é necessário, você pode testar o modelo original diretamente, mas o treinamento de demonstração funciona melhor.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Optexity: um projeto de código aberto para treinar a IA para realizar ações na Web com demonstrações humanas
pt_BRPortuguês do Brasil