Optexity: um projeto de código aberto para treinar a IA para realizar operações na Web com demonstrações humanas

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Introdução geral

O Optexity é um projeto de código aberto no GitHub, desenvolvido pela equipe do Optexity. Sua essência é usar dados de demonstração humana para treinar a IA para concluir tarefas de computador, especialmente operações de páginas da Web. O projeto inclui três bibliotecas de código: ComputerGYM, AgentAI e Playwright, que permitem aos usuários registrar operações, processar dados e treinar modelos para que a IA possa aprender tarefas como clicar em botões ou preencher formulários. Todo o código é gratuito e pode ser baixado e modificado pelos usuários. No futuro, haverá suporte para autoexploração, documentação de software e treinamento em vídeo no YouTube.

Optexity: um projeto de código aberto para treinar a IA para realizar operações na Web com demonstrações humanas-1

Lista de funções

Suporta o registro de demonstrações de ações humanas para treinar a IA para concluir tarefas na Web.
Fornece ambientes de tarefas como o MiniWoB++, incluindo operações de clique e formulário.
Processamento de dados de demonstração para gerar formatos para treinamento.
Gemini, vLLM e outros modelos são compatíveis e podem ser ajustados com o LLaMA-Factory.
O código-fonte aberto está disponível para download para facilitar a personalização.
Integre-se ao Playwright para aprimorar os recursos de automação da Web.

Usando a Ajuda

Processo de instalação

Para usar o Optexity, primeiro você precisa preparar seu ambiente. Veja a seguir as etapas:

Código de download
Digite-o no terminal:

mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Isso fará o download de três bibliotecas de código.

Ambiente de configuração
Crie um ambiente com o Conda:

conda create -n optexity python=3.10 nodejs
conda activate optexity

Instalação de dependências
Instale o ComputerGYM e o AgentAI:

pip install -e ComputerGYM
pip install -e AgentAI

Instale o Playwright novamente:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Funções principais

Demonstração gravada

estabelecer demonstration_config.yamlreferência demonstration_config_example.yamlAnote o objetivo da tarefa (por exemplo, "clicar no botão").
Execute a gravação:

./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

O sistema registra as ações do mouse e do teclado.

Processamento de dados

Registre os dados de pós-processamento:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Isso converterá a operação em um formato legível por IA.

Gerar dados de treinamento

Gerar arquivos de treinamento com o AgentAI:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

O arquivo é salvo na pasta train_data adaptada para LLaMA-Factory.

Modelos de treinamento

Treinado com o LLaMA-Factory, consulte sua documentação. Após o treinamento, o modelo é implantado em http://localhost:8000.

Teste de IA

Teste os efeitos de IA, como a mudança de moedas na HubSpot:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

O resultado é exibido no terminal.

Operação da função em destaque

Treinamento de demonstração humana

O destaque do Optexity é ensinar IA com ações humanas. Você grava uma ação uma vez e a IA aprende a repeti-la. É fácil de registrar e processar, portanto, até mesmo os novatos podem usá-lo.

Teste do modelo original

Gostaria de experimentá-lo imediatamente. Gêmeos Modelos? Executar:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

A chave pode ser encontrada na seção https://aistudio.google.com/apikey Obtenha-o gratuitamente.

Integração do MiniWoB++

O MiniWoB++ fornece tarefas como cliques e formulários. No tempo de execução, a IA tenta concluir a meta e o terminal exibe a taxa de sucesso.

Extensões de código aberto

Todas as três bases de código são de código aberto. Você pode alterar o código para adicionar recursos, como novas tarefas, ou ajustar a lógica do Playwright, e enviá-lo ao GitHub o torna uma parte oficial do processo.

Resumo do processo de operação

Instale a base de código e o ambiente.
Registre apresentações e processe dados.
Gerar dados de treinamento e treinar o modelo.
Teste a IA e ajuste os parâmetros.

As etapas são claras e você pode começar em minutos.

cenário do aplicativo

Pesquisa de IA
Os pesquisadores o utilizaram para testar o desempenho da IA em tarefas da Web.
automação da web
Os desenvolvedores usam a IA para automatizar ações repetitivas.
prática educacional
Os alunos o utilizam para aprender o processo de treinamento de IA.

QA

Precisa de uma base de programação?
Requer um pouco de conhecimento de Python e de terminal, mas os tutoriais são detalhados e fáceis de seguir.
Para que serve o LLaMA-Factory?
É a ferramenta de ajuste fino que converte dados de demonstração em formato de treinamento.
Tenho que treinar com uma demonstração?
Não é necessário, você pode testar o modelo original diretamente, mas o treinamento de demonstração funciona melhor.

Optexity: um projeto de código aberto para treinar a IA para realizar ações na Web com demonstrações humanas