OWL: una herramienta automatizada para la colaboración multiinteligencia en tareas realistas
Últimos recursos sobre IAActualizado hace 6 meses Círculo de intercambio de inteligencia artificial 11.5K 00
Introducción general
OWL (Optimized Workforce Learning) es un marco de código abierto desarrollado por el equipo CAMEL-AI centrado en la optimización de la colaboración corporal multiinteligente para la automatización de tareas del mundo real. Basado en la arquitectura CAMEL-AI, OWL mejora la naturalidad, eficiencia y robustez del procesamiento de tareas mediante interacciones dinámicas de cuerpos inteligentes. En la prueba comparativa GAIA, OWL obtuvo una puntuación media de 58,18, lo que le sitúa en el primer puesto de los marcos de código abierto. El proyecto se abrió oficialmente el 7 de marzo de 2025, y el código está alojado en GitHub (https://github.com/camel-ai/owl), donde se ofrece documentación detallada y ejemplos, con el objetivo de promover la integración de la investigación sobre IA y las aplicaciones en el mundo real, tanto para la exploración académica como para escenarios de automatización de tareas.
Lo más triste de la comunidad de habla china es que, como fuente de información, nunca presentan CAMEL-AI y la AGENTGPT En cambio, les interesa algo como Manus La OWL es muy interesante. La comercialización de algunos productos fomentará el progreso tecnológico, otros no.

Lista de funciones
- Recuperación de información en tiempo real: Facilita el acceso a información actualizada a través de recursos en línea como Wikipedia, Google Search, etc.
- procesamiento multimodal: Capacidad para procesar datos de vídeo, imagen y audio a través de la red o localmente.
- Automatización del navegador: Basado en el marco Playwright, permite simular acciones del navegador como desplazarse, hacer clic, escribir y descargar.
- resolución de documentosExtrae el contenido de archivos Word, Excel, PDF y PowerPoint y conviértelos a formato de texto o Markdown.
- ejecución de códigoSoporte para escribir y ejecutar código Python para realizar tareas a través del intérprete.
- colaboración multiinteligenciaInteligencias IA múltiples: interactúan dinámicamente para colaborar en tareas complejas.
Utilizar la ayuda
Proceso de instalación
OWL es un proyecto de código abierto, los usuarios necesitan descargar el código fuente de GitHub y configurar el entorno de ejecución. A continuación se detallan los pasos de instalación:
- almacén de clones
Introduzca el siguiente comando en el terminal para obtener el código fuente de OWL:
git clone https://github.com/camel-ai/owl.git
cd owl
- Configuración del entorno
- Conda recomendada::
conda create -n owl python=3.11 conda activate owl
- Uso alternativo del venv::
python -m venv owl_env
- Activación del sistema Windows:
owl_env\Scripts\activate
- Activación del sistema Unix o MacOS:
source owl_env/bin/activate
- Activación del sistema Windows:
- Instalación de dependencias
Después de activar el entorno, ejecute el siguiente comando para instalar las dependencias:
python -m pip install -r requirements.txt
playwright install
Notas:playwright install
Se utiliza para instalar los componentes necesarios para la automatización del navegador.
- Configuración de variables de entorno
OWL necesita configurar claves API para utilizar servicios externos (por ejemplo, modelos OpenAI). Los pasos son los siguientes:
- Copie el archivo de plantilla:
cp .env_template .env
- compilador
.env
introduzca, por ejemplo, la clave API:OPENAI_API_KEY=your_openai_key
- Directrices para obtener la llave: consulte
owl/.env_template
La URL de registro del servicio que figura en el - Más apoyo al modelo: disponible en la documentación del modelo CAMEL (https://docs.camel-ai.org/key_modules/models.html).
tenga en cuenta: Se recomienda oficialmente utilizar modelos OpenAI para obtener el mejor rendimiento, otros modelos pueden tener un rendimiento deficiente en tareas complejas.
- Verificar la instalación
Ejecute el siguiente comando para probar el entorno:
python owl/run.py
Si la consola muestra un mensaje normal, la instalación se ha realizado correctamente.
Funciones principales
1. Ejemplos de bases operativas
OWL proporciona un guión de ejemplo minimalistarun.py
ejecútelo directamente para experimentarlo:
- Introdúcelo en el terminal:
python owl/run.py
- Salida: La consola mostrará los resultados de ejecutar la tarea por defecto.
2. Personalización de los mandatos
Los usuarios pueden modificar elrun.py
Scripts para ejecutar tareas personalizadas:
- Edición de guiones: Abierto
run.py
modificar la descripción de la tarea, por ejemplo:
question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")
- Ejecución de scripts::
python owl/run.py
- ResultadosLa consola mostrará información sobre el precio de las acciones.
- Otros ejemplos de tareas::
- "Análisis del sentimiento de tuits recientes sobre el cambio climático".
- "Ayúdame a depurar este código Python:[contenido del código]"
- "Resuma los puntos principales de este trabajo de investigación:[URL del trabajo]".
3. Automatización del navegador
OWL admite la interacción con el navegador a través de Playwright, como el rastreo de páginas web:
- Ejemplo de guión: Crea un archivo (por ejemplo
web_task.py
):from owl.agents import BrowserAgent agent = BrowserAgent() agent.navigate("https://example.com") content = agent.get_content() print(content)
- Ejecución de scripts::
python web_task.py
- al final: Imprime el contenido de texto de una página web.
- Operaciones subvencionadas: desplazarse, hacer clic, escribir, descargar, etc. Consulte la documentación oficial para conocer las API específicas.
4. Análisis sintáctico de documentos y tratamiento multimodal
- analizar un documento: Coloca un archivo local (por ejemplo
sample.pdf
(calcular) poner (en)owl
ejecute el siguiente código:from owl.utils import parse_document text = parse_document("sample.pdf") print(text)
- Vídeo de procesamiento: Soporte para analizar vídeo local o en red, por ejemplo:
from owl.multimodal import process_video result = process_video("https://example.com/video.mp4") print(result)
Función destacada Operación
Recuperación de información en tiempo real
- procedimiento: Especifica la fuente de información en la descripción de la tarea, por ejemplo:
question = "从Wikipedia获取人工智能的最新定义。" society = construct_society(question) answer, chat_history, token_count = run_society(society) print(answer)
- al final: Volver a los últimos contenidos de Wikipedia.
Replicación de pruebas GAIA
- prueba de funcionamientoReproduzca los resultados de GAIA utilizando el script proporcionado:
python run_gaia_roleplaying.py
- ResultadosSalida de las puntuaciones de cada tarea para comprobar el rendimiento de OWL en la prueba comparativa (puntuación media: 58,18).
Precauciones de uso
- Git y Python 3.11+ deben estar instalados en el sistema.
- Cuando se ejecutan tareas a gran escala, se recomienda utilizar equipos de alto rendimiento y garantizar la estabilidad de la red.
- Si la ventana de Chrome está en blanco pero hay salida de la consola, esto es normal y la ventana sólo se activará si la tarea requiere la interacción del navegador.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...