Introdução geral
O Optexity é um projeto de código aberto no GitHub, desenvolvido pela equipe do Optexity. Sua essência é usar dados de demonstração humana para treinar a IA para concluir tarefas de computador, especialmente operações de páginas da Web. O projeto inclui três bibliotecas de código: ComputerGYM, AgentAI e Playwright, que permitem aos usuários registrar operações, processar dados e treinar modelos para que a IA possa aprender tarefas como clicar em botões ou preencher formulários. Todo o código é gratuito e pode ser baixado e modificado pelos usuários. No futuro, haverá suporte para autoexploração, documentação de software e treinamento em vídeo no YouTube.
Lista de funções
- Suporta o registro de demonstrações de ações humanas para treinar a IA para concluir tarefas na Web.
- Fornece ambientes de tarefas como o MiniWoB++, incluindo operações de clique e formulário.
- Processamento de dados de demonstração para gerar formatos para treinamento.
- Gemini, vLLM e outros modelos são compatíveis e podem ser ajustados com o LLaMA-Factory.
- O código-fonte aberto está disponível para download para facilitar a personalização.
- Integre-se ao Playwright para aprimorar os recursos de automação da Web.
Usando a Ajuda
Processo de instalação
Para usar o Optexity, primeiro você precisa preparar seu ambiente. Veja a seguir as etapas:
- Código de download
Digite-o no terminal:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
Isso fará o download de três bibliotecas de código.
- Ambiente de configuração
Crie um ambiente com o Conda:
conda create -n optexity python=3.10 nodejs
conda activate optexity
- Instalação de dependências
Instale o ComputerGYM e o AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI
Instale o Playwright novamente:
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
Funções principais
Demonstração gravada
- estabelecer
demonstration_config.yaml
referênciademonstration_config_example.yaml
Anote o objetivo da tarefa (por exemplo, "clicar no botão"). - Execute a gravação:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
O sistema registra as ações do mouse e do teclado.
Processamento de dados
Registre os dados de pós-processamento:
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
Isso converterá a operação em um formato legível por IA.
Gerar dados de treinamento
Gerar arquivos de treinamento com o AgentAI:
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
O arquivo é salvo na pasta train_data
adaptada para LLaMA-Factory.
Modelos de treinamento
Treinado com o LLaMA-Factory, consulte sua documentação. Após o treinamento, o modelo é implantado em http://localhost:8000
.
Teste de IA
Teste os efeitos de IA, como a mudança de moedas na HubSpot:
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
O resultado é exibido no terminal.
Operação da função em destaque
Treinamento de demonstração humana
O destaque do Optexity é ensinar IA com ações humanas. Você grava uma ação uma vez e a IA aprende a repeti-la. É fácil de registrar e processar, portanto, até mesmo os novatos podem usá-lo.
Teste do modelo original
Gostaria de experimentá-lo imediatamente. Gêmeos Modelos? Executar:
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
A chave pode ser encontrada na seção https://aistudio.google.com/apikey
Obtenha-o gratuitamente.
Integração do MiniWoB++
O MiniWoB++ fornece tarefas como cliques e formulários. No tempo de execução, a IA tenta concluir a meta e o terminal exibe a taxa de sucesso.
Extensões de código aberto
Todas as três bases de código são de código aberto. Você pode alterar o código para adicionar recursos, como novas tarefas, ou ajustar a lógica do Playwright, e enviá-lo ao GitHub o torna uma parte oficial do processo.
Resumo do processo de operação
- Instale a base de código e o ambiente.
- Registre apresentações e processe dados.
- Gerar dados de treinamento e treinar o modelo.
- Teste a IA e ajuste os parâmetros.
As etapas são claras e você pode começar em minutos.
cenário do aplicativo
- Pesquisa de IA
Os pesquisadores o utilizaram para testar o desempenho da IA em tarefas da Web. - automação da web
Os desenvolvedores usam a IA para automatizar ações repetitivas. - prática educacional
Os alunos o utilizam para aprender o processo de treinamento de IA.
QA
- Precisa de uma base de programação?
Requer um pouco de conhecimento de Python e de terminal, mas os tutoriais são detalhados e fáceis de seguir. - Para que serve o LLaMA-Factory?
É a ferramenta de ajuste fino que converte dados de demonstração em formato de treinamento. - Tenho que treinar com uma demonstração?
Não é necessário, você pode testar o modelo original diretamente, mas o treinamento de demonstração funciona melhor.