Optexity: un proyecto de código abierto para entrenar a la IA a realizar acciones web con demostraciones humanas
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 10.8K 00
Introducción general
Optexity es un proyecto de código abierto en GitHub, desarrollado por el equipo de Optexity. Su núcleo es utilizar datos de demostraciones humanas para entrenar a la IA a completar tareas informáticas, especialmente operaciones de páginas web. El proyecto incluye tres bibliotecas de código: ComputerGYM, AgentAI y Playwright, que permiten a los usuarios registrar operaciones, procesar datos y entrenar modelos para que la IA pueda aprender tareas como pulsar botones o rellenar formularios. Todo el código es gratuito y los usuarios pueden descargarlo y modificarlo. En el futuro se apoyará la autoexploración, la documentación del software y la formación mediante vídeos de YouTube.

Lista de funciones
- Admite la grabación de demostraciones de acciones humanas para entrenar a la IA a completar tareas web.
- Proporciona entornos de tareas como MiniWoB++, incluidas las operaciones de clic y formulario.
- Procesamiento de datos de demostración para generar formatos para la formación.
- Gemini, vLLM y otros modelos son compatibles y pueden ajustarse con LLaMA-Factory.
- El código fuente abierto se puede descargar para facilitar su personalización.
- Integración con Playwright para mejorar las capacidades de automatización web.
Utilizar la ayuda
Proceso de instalación
Para utilizar Optexity, primero debe preparar su entorno. Estos son los pasos:
- Descargar código
Introdúcelo en el terminal:
mkdir optexity
cd optexity
git clone https://github.com/Optexity/ComputerGYM.git
git clone https://github.com/Optexity/AgentAI.git
git clone https://github.com/Optexity/playwright.git
Esto descargará tres bibliotecas de código.
- Entorno de configuración
Crear un entorno con Conda:
conda create -n optexity python=3.10 nodejs
conda activate optexity
- Instalación de dependencias
Instale ComputerGYM y AgentAI:
pip install -e ComputerGYM
pip install -e AgentAI
Vuelva a instalar Playwright:
cd playwright
git checkout playwright_optexity
npm install
npm run build
playwright install
cd ..
Funciones principales
Demo grabada
- establecer
demonstration_config.yaml
referenciademonstration_config_example.yaml
Escriba el objetivo de la tarea (por ejemplo, "pulsar el botón"). - Ejecuta la grabación:
./ComputerGYM/computergym/demonstrations/demonstrate.sh ComputerGYM/computergym/demonstrations/demonstration_config.yaml
El sistema registra las acciones del ratón y del teclado.
Tratamiento de datos
Registrar los datos posteriores al tratamiento:
python ComputerGYM/computergym/demonstrations/process_demonstration.py --yaml ComputerGYM/computergym/demonstrations/demonstration_config.yaml --seed 5
Esto convertirá la operación a un formato legible por AI.
Generar datos de entrenamiento
Generar archivos de entrenamiento con AgentAI:
python AgentAI/agentai/sft/prepare_training_data.py --agent_config AgentAI/agentai/train_configs/hubspot_agent.yaml
El archivo se guarda en la carpeta train_data
adaptada a LLaMA-Factory.
Modelos de formación
Entrenado con LLaMA-Factory, véase su documentación. Tras el entrenamiento, el modelo se despliega en http://localhost:8000
.
Pruebas de IA
Probar los efectos de la IA, como el cambio de divisas en HubSpot:
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model vllm
El resultado se muestra en el terminal.
Función destacada Operación
Formación en demostración humana
Lo más destacado de Optexity es enseñar a la IA con acciones humanas. Grabas una acción una vez, y la IA aprende a repetirla. Es fácil de grabar y procesar, por lo que incluso los novatos pueden utilizarlo.
Comprobación del modelo original
Me gustaría probarlo enseguida. Géminis ¿Modelos? Corre:
EXPORT GEMINI_API_KEY=<你的密钥>
python AgentAI/agentai/main.py --url "https://app.hubspot.com" --port 8000 --log_to_console --goal "change currency to SGD" --storage_state cache_dir/auth.json --model gemini
La clave se encuentra en https://aistudio.google.com/apikey
Consíguelo gratis.
Integración de MiniWoB
MiniWoB++ proporciona tareas como clics y formularios. En tiempo de ejecución, la IA intenta completar el objetivo y el terminal muestra el porcentaje de éxito.
Extensiones de código abierto
Las tres bases de código son de código abierto. Puede modificar el código para añadir funciones, como nuevas tareas, o ajustar la lógica de Playwright, y enviarlo a GitHub lo convierte en parte oficial del proceso.
Resumen del proceso operativo
- Instale el código base y el entorno.
- Registrar las presentaciones y procesar los datos.
- Generar datos de entrenamiento y entrenar el modelo.
- Prueba la IA y ajusta los parámetros.
Los pasos son claros y puedes empezar en cuestión de minutos.
escenario de aplicación
- Investigación sobre IA
Los investigadores lo utilizaron para probar el rendimiento de la IA en tareas web. - automatización web
Los desarrolladores utilizan la IA para automatizar acciones repetitivas. - práctica educativa
Los estudiantes lo utilizan para aprender el proceso de entrenamiento de la IA.
CONTROL DE CALIDAD
- ¿Necesita una base de programación?
Requiere un poco de conocimiento de Python y de la terminal, pero los tutoriales son detallados y fáciles de seguir. - ¿Para qué sirve LLaMA-Factory?
Es la herramienta de ajuste que convierte los datos de demostración en formato de formación. - ¿Tengo que entrenarme con una demostración?
No es necesario, puede probar el modelo original directamente, pero el entrenamiento de demostración funciona mejor.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...