LangGraph CUA: Inteligencia Artificial basada en LangGraph para controlar operaciones informáticas

Introducción general

LangGraph CUA es un proyecto de código abierto desarrollado por el equipo LangChain. Se basa en el marco LangGraph, que permite a los desarrolladores utilizar Python para crear inteligencias artificiales capaces de manejar directamente ordenadores. En el corazón de esta herramienta se encuentra el Agente de Uso del Ordenador (CUA), que simula el comportamiento humano en un ordenador, como hacer clic, teclear texto o navegar por la web. Admite funciones de memoria, colaboración entre humanos y ordenadores y salida en tiempo real, lo que lo hace idóneo para automatizar tareas repetitivas o desarrollar asistentes inteligentes. El código del proyecto está abierto para que los desarrolladores lo descarguen, modifiquen y utilicen libremente, lo que lo hace especialmente adecuado para los entusiastas de la tecnología interesados en la automatización de la IA.

 

Lista de funciones

  • Admite el control por IA de operaciones informáticas mediante texto y voz, como abrir programas, escribir texto o pulsar botones.
  • Ofrece funciones de memoria a corto y largo plazo para recordar operaciones anteriores y el contenido de los diálogos.
  • El modo de colaboración persona-ordenador integrado permite al usuario intervenir y ajustar el comportamiento de la IA en cualquier momento.
  • Soporta salida de streaming en tiempo real, el proceso de operación se puede visualizar paso a paso.
  • Integración con Scrapybara para ejecutar agentes de IA en máquinas virtuales y acceder a páginas web.
  • Permite a los desarrolladores personalizar las herramientas y las configuraciones para obtener una funcionalidad flexible y ampliada.

 

Utilizar la ayuda

LangGraph CUA no es complicado de instalar y usar, pero requiere algunas configuraciones básicas del entorno Python y de la API. Aquí están los pasos detallados para empezar.

Proceso de instalación

  1. Preparar el entorno
    Asegúrese de que su ordenador tiene Python 3.8 o superior. Esto se puede comprobar con el comando:
python --version

Si no es así, descárgalo e instálalo desde https://www.python.org.

  1. proyecto de clonación
    Descargue el código localmente escribiendo el siguiente comando en el terminal:
git clone https://github.com/langchain-ai/langgraph-cua-py.git

Una vez finalizada la descarga, vaya a la carpeta del proyecto:

cd langgraph-cua-py
  1. Instalación de dependencias
    El proyecto requiere algunas librerías Python, que se instalan con este comando:
pip install -r requirements.txt

Si tiene problemas con los permisos, puede añadir --user::

pip install -r requirements.txt --user
  1. Configuración de claves API
    LangGraph CUA necesita claves API para OpenAI y Scrapybara. Primero registra una cuenta para obtener la clave, y luego establece las variables de entorno en el terminal:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>

intercambiabilidad <你的OpenAI密钥> responder cantando <你的Scrapybara密钥> Los usuarios de Windows pueden utilizar set sustituye a export.

  1. Verificar la instalación
    Ejecuta una prueba sencilla para asegurarte de que el entorno está bien. Ve al directorio del proyecto y ejecútalo:
python -m langgraph_cua

Si no aparece ningún error, la instalación se ha realizado correctamente.

Cómo utilizar las principales funciones

En el corazón de LangGraph CUA está la creación de un agente de IA para manejar el ordenador. Así es como funciona.

Creación de un agente de IA

Importe y configure el agente en un archivo Python, por ejemplo:

from langgraph_cua import create_cua
cua_graph = create_cua()

Esto generará un agente AI por defecto. Puede añadir parámetros si desea utilizar una instancia VM específica:

cua_graph = create_cua(auth_state_id="你的认证ID")

Utilizar el ordenador

El agente puede controlar el ordenador con comandos. Por ejemplo, decirle que abra un navegador:

cua_graph.invoke({"command": "open browser"})

O introduce un texto:

cua_graph.invoke({"command": "type", "text": "你好,世界"})

Estos comandos se ejecutan directamente en el ordenador.

Uso de la función de memoria

El agente recuerda acciones anteriores. Por ejemplo, que abra primero el Bloc de notas:

cua_graph.invoke({"command": "open notepad"})

A continuación, introduzca el contenido:

cua_graph.invoke({"command": "type", "text": "这是测试"})

La próxima vez que se llame, sabrá que el Bloc de notas está abierto y continuará la operación directamente.

colaboración hombre-máquina

Si desea ajustarlo manualmente, puede activar el modo HMI. Añade parámetros en tiempo de ejecución:

cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)

En este punto de la ejecución, el programa se detendrá y esperará a que usted confirme o modifique las coordenadas.

salida en tiempo real

Si quieres ver cada paso de la operación, puedes utilizar la salida de streaming:

for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)

Mostrará el proceso de búsqueda paso a paso.

Función destacada Operación

Integración de Scrapybara

Scrapybara permite que el agente se ejecute en una máquina virtual, adecuada para gestionar tareas web. Configúrelo para asegurarse de que la clave API es correcta y, a continuación, ejecútelo:

cua_graph.invoke({"command": "browse", "url": "https://example.com"})

El agente abrirá la página web y la operará en la máquina virtual.

Herramientas de personalización

Puede añadir sus propias herramientas. Por ejemplo, definir una herramienta de calculadora:

def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])

Entonces llama:

cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})

El resultado será 8.

Estos pasos y el código le pondrán al día rápidamente con LangGraph CUA tanto para tareas sencillas como para personalizaciones complejas.

 

escenario de aplicación

  1. trabajo de oficina automatizado
    Utilice el agente de IA para procesar archivos por lotes, como abrir Excel, introducir datos y guardarlos, eliminando las operaciones repetitivas.
  2. Captura de datos web
    Permita que los agentes visiten sitios web y extraigan información, como la recopilación automática de titulares de noticias o datos de precios.
  3. Desarrollo de asistentes inteligentes
    Cree un asistente que escuche órdenes de voz, como "abrir correo electrónico" o "buscar documentos", y las ejecute directamente.
  4. Educación y formación
    Demostrar cómo la IA puede simular a un humano manejando un ordenador durante la instrucción para ayudar a los estudiantes a comprender los principios de la automatización.

 

CONTROL DE CALIDAD

  1. ¿Necesita fundamentos de programación?
    Se requieren conocimientos básicos de Python, como ser capaz de utilizar la línea de comandos y escribir código sencillo. Si no sabes cómo, puedes aprender primero la sintaxis básica.
  2. ¿Qué pasa si no tengo una clave API?
    Visita los sitios web oficiales de OpenAI (https://openai.com) y Scrapybara para registrarte y solicitar una clave. Los créditos gratuitos pueden ser limitados, por lo que recomendamos consultar precios.
  3. ¿Puedo no utilizar una máquina virtual?
    Sí, pero una máquina virtual con Scrapybara es más segura, ya que aísla el entorno operativo y evita el impacto en el ordenador local.
  4. ¿Admite comandos en chino?
    Soporte. Siempre que el modelo de IA entienda chino, teclear comandos en chino es igual de eficaz.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...