LangGraph CUA: Inteligencia Artificial basada en LangGraph para controlar operaciones informáticas
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 1.7K 00
Introducción general
LangGraph CUA es un proyecto de código abierto desarrollado por el equipo LangChain. Se basa en el marco LangGraph, que permite a los desarrolladores utilizar Python para crear inteligencias artificiales capaces de manejar directamente ordenadores. En el corazón de esta herramienta se encuentra el Agente de Uso del Ordenador (CUA), que simula el comportamiento humano en un ordenador, como hacer clic, teclear texto o navegar por la web. Admite funciones de memoria, colaboración entre humanos y ordenadores y salida en tiempo real, lo que lo hace idóneo para automatizar tareas repetitivas o desarrollar asistentes inteligentes. El código del proyecto está abierto para que los desarrolladores lo descarguen, modifiquen y utilicen libremente, lo que lo hace especialmente adecuado para los entusiastas de la tecnología interesados en la automatización de la IA.
Lista de funciones
- Admite el control por IA de operaciones informáticas mediante texto y voz, como abrir programas, escribir texto o pulsar botones.
- Ofrece funciones de memoria a corto y largo plazo para recordar operaciones anteriores y el contenido de los diálogos.
- El modo de colaboración persona-ordenador integrado permite al usuario intervenir y ajustar el comportamiento de la IA en cualquier momento.
- Soporta salida de streaming en tiempo real, el proceso de operación se puede visualizar paso a paso.
- Integración con Scrapybara para ejecutar agentes de IA en máquinas virtuales y acceder a páginas web.
- Permite a los desarrolladores personalizar las herramientas y las configuraciones para obtener una funcionalidad flexible y ampliada.
Utilizar la ayuda
LangGraph CUA no es complicado de instalar y usar, pero requiere algunas configuraciones básicas del entorno Python y de la API. Aquí están los pasos detallados para empezar.
Proceso de instalación
- Preparar el entorno
Asegúrese de que su ordenador tiene Python 3.8 o superior. Esto se puede comprobar con el comando:
python --version
Si no es así, descárgalo e instálalo desde https://www.python.org.
- proyecto de clonación
Descargue el código localmente escribiendo el siguiente comando en el terminal:
git clone https://github.com/langchain-ai/langgraph-cua-py.git
Una vez finalizada la descarga, vaya a la carpeta del proyecto:
cd langgraph-cua-py
- Instalación de dependencias
El proyecto requiere algunas librerías Python, que se instalan con este comando:
pip install -r requirements.txt
Si tiene problemas con los permisos, puede añadir --user
::
pip install -r requirements.txt --user
- Configuración de claves API
LangGraph CUA necesita claves API para OpenAI y Scrapybara. Primero registra una cuenta para obtener la clave, y luego establece las variables de entorno en el terminal:
export OPENAI_API_KEY=<你的OpenAI密钥>
export SCRAPYBARA_API_KEY=<你的Scrapybara密钥>
intercambiabilidad <你的OpenAI密钥>
responder cantando <你的Scrapybara密钥>
Los usuarios de Windows pueden utilizar set
sustituye a export
.
- Verificar la instalación
Ejecuta una prueba sencilla para asegurarte de que el entorno está bien. Ve al directorio del proyecto y ejecútalo:
python -m langgraph_cua
Si no aparece ningún error, la instalación se ha realizado correctamente.
Cómo utilizar las principales funciones
En el corazón de LangGraph CUA está la creación de un agente de IA para manejar el ordenador. Así es como funciona.
Creación de un agente de IA
Importe y configure el agente en un archivo Python, por ejemplo:
from langgraph_cua import create_cua
cua_graph = create_cua()
Esto generará un agente AI por defecto. Puede añadir parámetros si desea utilizar una instancia VM específica:
cua_graph = create_cua(auth_state_id="你的认证ID")
Utilizar el ordenador
El agente puede controlar el ordenador con comandos. Por ejemplo, decirle que abra un navegador:
cua_graph.invoke({"command": "open browser"})
O introduce un texto:
cua_graph.invoke({"command": "type", "text": "你好,世界"})
Estos comandos se ejecutan directamente en el ordenador.
Uso de la función de memoria
El agente recuerda acciones anteriores. Por ejemplo, que abra primero el Bloc de notas:
cua_graph.invoke({"command": "open notepad"})
A continuación, introduzca el contenido:
cua_graph.invoke({"command": "type", "text": "这是测试"})
La próxima vez que se llame, sabrá que el Bloc de notas está abierto y continuará la operación directamente.
colaboración hombre-máquina
Si desea ajustarlo manualmente, puede activar el modo HMI. Añade parámetros en tiempo de ejecución:
cua_graph.invoke({"command": "click", "x": 100, "y": 200}, human_in_loop=True)
En este punto de la ejecución, el programa se detendrá y esperará a que usted confirme o modifique las coordenadas.
salida en tiempo real
Si quieres ver cada paso de la operación, puedes utilizar la salida de streaming:
for step in cua_graph.stream({"command": "search web", "query": "天气"}):
print(step)
Mostrará el proceso de búsqueda paso a paso.
Función destacada Operación
Integración de Scrapybara
Scrapybara permite que el agente se ejecute en una máquina virtual, adecuada para gestionar tareas web. Configúrelo para asegurarse de que la clave API es correcta y, a continuación, ejecútelo:
cua_graph.invoke({"command": "browse", "url": "https://example.com"})
El agente abrirá la página web y la operará en la máquina virtual.
Herramientas de personalización
Puede añadir sus propias herramientas. Por ejemplo, definir una herramienta de calculadora:
def calculator(a, b):
return a + b
cua_graph = create_cua(tools=[calculator])
Entonces llama:
cua_graph.invoke({"command": "calculate", "a": 5, "b": 3})
El resultado será 8.
Estos pasos y el código le pondrán al día rápidamente con LangGraph CUA tanto para tareas sencillas como para personalizaciones complejas.
escenario de aplicación
- trabajo de oficina automatizado
Utilice el agente de IA para procesar archivos por lotes, como abrir Excel, introducir datos y guardarlos, eliminando las operaciones repetitivas. - Captura de datos web
Permita que los agentes visiten sitios web y extraigan información, como la recopilación automática de titulares de noticias o datos de precios. - Desarrollo de asistentes inteligentes
Cree un asistente que escuche órdenes de voz, como "abrir correo electrónico" o "buscar documentos", y las ejecute directamente. - Educación y formación
Demostrar cómo la IA puede simular a un humano manejando un ordenador durante la instrucción para ayudar a los estudiantes a comprender los principios de la automatización.
CONTROL DE CALIDAD
- ¿Necesita fundamentos de programación?
Se requieren conocimientos básicos de Python, como ser capaz de utilizar la línea de comandos y escribir código sencillo. Si no sabes cómo, puedes aprender primero la sintaxis básica. - ¿Qué pasa si no tengo una clave API?
Visita los sitios web oficiales de OpenAI (https://openai.com) y Scrapybara para registrarte y solicitar una clave. Los créditos gratuitos pueden ser limitados, por lo que recomendamos consultar precios. - ¿Puedo no utilizar una máquina virtual?
Sí, pero una máquina virtual con Scrapybara es más segura, ya que aísla el entorno operativo y evita el impacto en el ordenador local. - ¿Admite comandos en chino?
Soporte. Siempre que el modelo de IA entienda chino, teclear comandos en chino es igual de eficaz.
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...