Optexity: un proyecto de código abierto para entrenar a la IA a realizar acciones web con demostraciones humanas

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

55.1K 00

Introducción general

Optexity es un proyecto de código abierto en GitHub, desarrollado por el equipo de Optexity. Su núcleo es utilizar datos de demostraciones humanas para entrenar a la IA a completar tareas informáticas, especialmente operaciones de páginas web. El proyecto incluye tres bibliotecas de código: ComputerGYM, AgentAI y Playwright, que permiten a los usuarios registrar operaciones, procesar datos y entrenar modelos para que la IA pueda aprender tareas como pulsar botones o rellenar formularios. Todo el código es gratuito y los usuarios pueden descargarlo y modificarlo. En el futuro se apoyará la autoexploración, la documentación del software y la formación mediante vídeos de YouTube.

Lista de funciones

Admite la grabación de demostraciones de acciones humanas para entrenar a la IA a completar tareas web.
Proporciona entornos de tareas como MiniWoB++, incluidas las operaciones de clic y formulario.
Procesamiento de datos de demostración para generar formatos para la formación.
Gemini, vLLM y otros modelos son compatibles y pueden ajustarse con LLaMA-Factory.
El código fuente abierto se puede descargar para facilitar su personalización.
Integración con Playwright para mejorar las capacidades de automatización web.

Utilizar la ayuda

Proceso de instalación

Para utilizar Optexity, primero debe preparar su entorno. Estos son los pasos:

Descargar código
Introdúcelo en el terminal:

mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git

Esto descargará tres bibliotecas de código.

Entorno de configuración
Crear un entorno con Conda:

conda create -n optexity python=3.10 nodejs
conda activate optexity

Instalación de dependencias
Instale ComputerGYM y AgentAI:

pip install -e ComputerGYM
pip install -e AgentAI

Vuelva a instalar Playwright:

cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..

Funciones principales

Demo grabada

establecer demonstration_config.yamlreferencia demonstration_config_example.yamlEscriba el objetivo de la tarea (por ejemplo, "pulsar el botón").
Ejecuta la grabación:

./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml

El sistema registra las acciones del ratón y del teclado.

Tratamiento de datos

Registrar los datos posteriores al tratamiento:

python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5

Esto convertirá la operación a un formato legible por AI.

Generar datos de entrenamiento

Generar archivos de entrenamiento con AgentAI:

python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml

El archivo se guarda en la carpeta train_data adaptada a LLaMA-Factory.

Modelos de formación

Entrenado con LLaMA-Factory, véase su documentación. Tras el entrenamiento, el modelo se despliega en http://localhost:8000.

Pruebas de IA

Probar los efectos de la IA, como el cambio de divisas en HubSpot:

python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm

El resultado se muestra en el terminal.

Función destacada Operación

Formación en demostración humana

Lo más destacado de Optexity es enseñar a la IA con acciones humanas. Grabas una acción una vez, y la IA aprende a repetirla. Es fácil de grabar y procesar, por lo que incluso los novatos pueden utilizarlo.

Comprobación del modelo original

Me gustaría probarlo enseguida. Géminis ¿Modelos? Corre:

EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini

La clave se encuentra en https://aistudio.google.com/apikey Consíguelo gratis.

Integración de MiniWoB

MiniWoB++ proporciona tareas como clics y formularios. En tiempo de ejecución, la IA intenta completar el objetivo y el terminal muestra el porcentaje de éxito.

Extensiones de código abierto

Las tres bases de código son de código abierto. Puede modificar el código para añadir funciones, como nuevas tareas, o ajustar la lógica de Playwright, y enviarlo a GitHub lo convierte en parte oficial del proceso.

Resumen del proceso operativo

Instale el código base y el entorno.
Registrar las presentaciones y procesar los datos.
Generar datos de entrenamiento y entrenar el modelo.
Prueba la IA y ajusta los parámetros.

Los pasos son claros y puedes empezar en cuestión de minutos.

escenario de aplicación

Investigación sobre IA
Los investigadores lo utilizaron para probar el rendimiento de la IA en tareas web.
automatización web
Los desarrolladores utilizan la IA para automatizar acciones repetitivas.
práctica educativa
Los estudiantes lo utilizan para aprender el proceso de entrenamiento de la IA.

CONTROL DE CALIDAD

¿Necesita una base de programación?
Requiere un poco de conocimiento de Python y de la terminal, pero los tutoriales son detallados y fáciles de seguir.
¿Para qué sirve LLaMA-Factory?
Es la herramienta de ajuste que convierte los datos de demostración en formato de formación.
¿Tengo que entrenarme con una demostración?
No es necesario, puede probar el modelo original directamente, pero el entrenamiento de demostración funciona mejor.