Introdução geral
LangGraph O CUA é um projeto de código aberto desenvolvido pela equipe da LangChain. Ele se baseia na estrutura LangGraph, permitindo que os desenvolvedores usem Python para criar inteligências de IA que possam operar computadores diretamente. No centro dessa ferramenta está o Computer Use Agent (CUA), que simula o comportamento humano em um computador, como clicar, digitar texto ou navegar na Web. Ele suporta funções de memória, colaboração entre homem e computador e saída em tempo real, o que o torna adequado para automatizar tarefas repetitivas ou desenvolver assistentes inteligentes. O código do projeto está aberto para que os desenvolvedores façam download, modifiquem e usem livremente, o que o torna particularmente adequado para entusiastas de tecnologia interessados em automação de IA.
Lista de funções
- Oferece suporte ao controle de IA das operações do computador por meio de texto e voz, como abrir software, digitar texto ou clicar em botões.
- Oferece funções de memória de curto e longo prazo para lembrar operações anteriores e conteúdos de diálogos.
- O modo de colaboração humano-computador integrado permite que o usuário intervenha e ajuste o comportamento da IA a qualquer momento.
- Suporta saída de streaming em tempo real, o processo de operação pode ser exibido passo a passo.
- Integração com o Scrapybara para executar agentes de IA em máquinas virtuais e acessar páginas da Web.
- Permite que os desenvolvedores personalizem ferramentas e configurações para obter funcionalidades flexíveis e ampliadas.
Usando a Ajuda
O LangGraph CUA não é complicado de instalar e usar, mas requer algumas configurações básicas do ambiente Python e da API. Aqui estão as etapas detalhadas para você começar.
Processo de instalação
- Preparação do ambiente
Certifique-se de que seu computador tenha o Python 3.8 ou superior. Isso pode ser verificado com o comando:
python --version
Caso contrário, faça o download e instale-o em https://www.python.org.
- projeto de clonagem
Faça o download do código localmente digitando o seguinte comando no terminal:
git clone https://github.com/langchain-ai/langgraph-cua-py.git
Quando o download estiver concluído, vá para a pasta do projeto:
cd langgraph-cua-py
- Instalação de dependências
O projeto requer algumas bibliotecas Python, que são instaladas com esse comando:
pip install -r requirements.txt
Se você tiver problemas com permissões, poderá adicionar --user
::
pip install -r requirements.txt --user
- Configuração de chaves de API
O LangGraph CUA precisa de chaves de API para OpenAI e Scrapybara. Primeiro, registre uma conta para obter a chave e, em seguida, defina as variáveis de ambiente no terminal:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>
intercambialidade <你的OpenAI密钥>
responder cantando <你的Scrapybara密钥>
Os usuários do Windows podem usar set
substituto de export
.
- Verificar a instalação
Execute um teste simples para garantir que o ambiente esteja OK. Vá para o diretório do projeto e execute-o:
python -m langgraph_cua
Se nenhum erro for relatado, a instalação foi bem-sucedida.
Como usar os principais recursos
No centro do LangGraph CUA está a criação de um agente de IA para operar o computador. Veja como ele funciona.
Criação de um agente de IA
Importe e configure o agente em um arquivo Python, por exemplo:
from langgraph_cua import create_cua
cua_graph = create_cua()
Isso gerará um agente de IA padrão. Você pode adicionar parâmetros se quiser usar uma instância de VM específica:
cua_graph = create_cua(auth_state_id="你的认证ID")
Operar o computador
O agente pode controlar o computador com comandos. Por exemplo, dizer a ele para abrir um navegador:
cua_graph.invoke({"command": "open browser"})
Ou digite o texto:
cua_graph.invoke({"command": "type", "text": "你好,世界"})
Esses comandos são executados diretamente no computador.
Uso da função de memória
O agente se lembra de ações anteriores. Por exemplo, deixe-o abrir o Bloco de Notas primeiro:
cua_graph.invoke({"command": "open notepad"})
Em seguida, insira o conteúdo:
cua_graph.invoke({"command": "type", "text": "这是测试"})
Na próxima vez que for chamado, ele saberá que o Bloco de Notas está aberto e continuará a operação diretamente.
colaboração homem-máquina
Se quiser ajustá-lo manualmente, você pode ativar o modo HMI. Adicionar parâmetros em tempo de execução:
cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)
Nesse ponto da execução, o programa fará uma pausa e aguardará que você confirme ou modifique as coordenadas.
saída em tempo real
Se quiser ver cada etapa da operação, você pode usar a saída de streaming:
for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)
Ele mostrará o processo de pesquisa passo a passo.
Operação da função em destaque
Integração do Scrapybara
O Scrapybara permite que o agente seja executado em uma máquina virtual, adequada para lidar com tarefas da Web. Configure-o para garantir que a chave de API esteja correta e, em seguida, execute-o:
cua_graph.invoke({"command": "browse", "url": "https://example.com"})
O agente abrirá a página da Web e a operará na máquina virtual.
Ferramentas de personalização
Você pode adicionar suas próprias ferramentas. Por exemplo, defina uma ferramenta de calculadora:
def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])
Então ligue:
cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})
O resultado retornará 8.
Essas etapas e códigos o ajudarão a se familiarizar rapidamente com o LangGraph CUA, tanto para tarefas simples quanto para personalizações complexas.
cenário do aplicativo
- trabalho de escritório automatizado
Use o agente de IA para processar arquivos em lote, como abrir o Excel, inserir dados e salvá-los, eliminando operações repetitivas. - Captura de dados na Web
Permita que os agentes visitem sites e extraiam informações, como a coleta automática de manchetes de notícias ou dados de preços. - Desenvolvimento de assistentes inteligentes
Crie um assistente que ouça os comandos de voz, como "abrir e-mail" ou "pesquisar documentos", e os execute diretamente. - Educação e treinamento
Demonstrar como a IA pode simular um ser humano operando um computador durante a instrução para ajudar os alunos a entender os princípios da automação.
QA
- Você precisa de algum fundamento de programação?
É necessário ter conhecimentos básicos de Python, como a capacidade de usar a linha de comando e escrever códigos simples. Se não souber como, você pode aprender a sintaxe básica primeiro. - E se eu não tiver uma chave de API?
Acesse os sites oficiais da OpenAI (https://openai.com) e da Scrapybara para registrar uma conta e solicitar uma chave. Os créditos gratuitos podem ser limitados, portanto, recomendamos que você verifique os preços. - Não posso usar uma máquina virtual?
Sim, mas uma máquina virtual com o Scrapybara é mais segura, isolando o ambiente operacional e evitando o impacto no computador local. - Ele é compatível com comandos em chinês?
Suporte. Desde que o modelo de IA entenda chinês, a digitação de comandos em chinês é igualmente eficaz.