OWL: una herramienta automatizada para la colaboración multiinteligencia en tareas realistas

Introducción general

OWL (Optimized Workforce Learning) es un marco de código abierto desarrollado por el equipo CAMEL-AI centrado en la optimización de la colaboración corporal multiinteligente para la automatización de tareas del mundo real. Basado en la arquitectura CAMEL-AI, OWL mejora la naturalidad, eficiencia y robustez del procesamiento de tareas mediante interacciones dinámicas de cuerpos inteligentes. En la prueba comparativa GAIA, OWL obtuvo una puntuación media de 58,18, lo que le sitúa en el primer puesto de los marcos de código abierto. El proyecto se abrió oficialmente el 7 de marzo de 2025, y el código está alojado en GitHub (https://github.com/camel-ai/owl), donde se ofrece documentación detallada y ejemplos, con el objetivo de promover la integración de la investigación sobre IA y las aplicaciones en el mundo real, tanto para la exploración académica como para escenarios de automatización de tareas.

Lo más triste de la comunidad de habla china es que, como fuente de información, nunca presentan CAMEL-AI y la AGENTGPT En cambio, les interesa algo como Manus La OWL es muy interesante. La comercialización de algunos productos fomentará el progreso tecnológico, otros no.

OWL:多智能体协作完成现实任务的自动化工具

 

Lista de funciones

  • Recuperación de información en tiempo real: Facilita el acceso a información actualizada a través de recursos en línea como Wikipedia, Google Search, etc.
  • procesamiento multimodal: Capacidad para procesar datos de vídeo, imagen y audio a través de la red o localmente.
  • Automatización del navegador: Basado en el marco Playwright, permite simular acciones del navegador como desplazarse, hacer clic, escribir y descargar.
  • resolución de documentosExtrae el contenido de archivos Word, Excel, PDF y PowerPoint y conviértelos a formato de texto o Markdown.
  • ejecución de códigoSoporte para escribir y ejecutar código Python para realizar tareas a través del intérprete.
  • colaboración multiinteligenciaInteligencias IA múltiples: interactúan dinámicamente para colaborar en tareas complejas.

 

Utilizar la ayuda

Proceso de instalación

OWL es un proyecto de código abierto, los usuarios necesitan descargar el código fuente de GitHub y configurar el entorno de ejecución. A continuación se detallan los pasos de instalación:

  1. almacén de clones
    Introduzca el siguiente comando en el terminal para obtener el código fuente de OWL:
git clone https://github.com/camel-ai/owl.git
cd owl
  1. Configuración del entorno
  • Conda recomendada::
    conda create -n owl python=3.11
    conda activate owl
    
  • Uso alternativo del venv::
    python -m venv owl_env
    
    • Activación del sistema Windows:
      owl_env\Scripts\activate
      
    • Activación del sistema Unix o MacOS:
      source owl_env/bin/activate
      
  1. Instalación de dependencias
    Después de activar el entorno, ejecute el siguiente comando para instalar las dependencias:
python -m pip install -r requirements.txt
playwright install

Notas:playwright installSe utiliza para instalar los componentes necesarios para la automatización del navegador.

  1. Configuración de variables de entorno
    OWL necesita configurar claves API para utilizar servicios externos (por ejemplo, modelos OpenAI). Los pasos son los siguientes:
  • Copie el archivo de plantilla:
    cp .env_template .env
    
  • compilador.envintroduzca, por ejemplo, la clave API:
    OPENAI_API_KEY=your_openai_key
    
  • Directrices para obtener la llave: consulteowl/.env_templateLa URL de registro del servicio que figura en el
  • Más apoyo al modelo: disponible en la documentación del modelo CAMEL (https://docs.camel-ai.org/key_modules/models.html).
    tenga en cuenta: Se recomienda oficialmente utilizar modelos OpenAI para obtener el mejor rendimiento, otros modelos pueden tener un rendimiento deficiente en tareas complejas.
  1. Verificar la instalación
    Ejecute el siguiente comando para probar el entorno:
python owl/run.py

Si la consola muestra un mensaje normal, la instalación se ha realizado correctamente.

Funciones principales

1. Ejemplos de bases operativas

OWL proporciona un guión de ejemplo minimalistarun.pyejecútelo directamente para experimentarlo:

  • Introdúcelo en el terminal:
python owl/run.py
  • Salida: La consola mostrará los resultados de ejecutar la tarea por defecto.

2. Personalización de los mandatos

Los usuarios pueden modificar elrun.pyScripts para ejecutar tareas personalizadas:

  • Edición de guiones: Abiertorun.pymodificar la descripción de la tarea, por ejemplo:
question = "查询苹果公司最新的股票价格。"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
logger.success(f"Answer: {answer}")
  • Ejecución de scripts::
    python owl/run.py
    
  • ResultadosLa consola mostrará información sobre el precio de las acciones.
  • Otros ejemplos de tareas::
    • "Análisis del sentimiento de tuits recientes sobre el cambio climático".
    • "Ayúdame a depurar este código Python:[contenido del código]"
    • "Resuma los puntos principales de este trabajo de investigación:[URL del trabajo]".

3. Automatización del navegador

OWL admite la interacción con el navegador a través de Playwright, como el rastreo de páginas web:

  • Ejemplo de guión: Crea un archivo (por ejemploweb_task.py):
    from owl.agents import BrowserAgent
    agent = BrowserAgent()
    agent.navigate("https://example.com")
    content = agent.get_content()
    print(content)
    
  • Ejecución de scripts::
    python web_task.py
    
  • al final: Imprime el contenido de texto de una página web.
  • Operaciones subvencionadas: desplazarse, hacer clic, escribir, descargar, etc. Consulte la documentación oficial para conocer las API específicas.

4. Análisis sintáctico de documentos y tratamiento multimodal

  • analizar un documento: Coloca un archivo local (por ejemplosample.pdf(calcular) poner (en)owlejecute el siguiente código:
    from owl.utils import parse_document
    text = parse_document("sample.pdf")
    print(text)
    
  • Vídeo de procesamiento: Soporte para analizar vídeo local o en red, por ejemplo:
    from owl.multimodal import process_video
    result = process_video("https://example.com/video.mp4")
    print(result)
    

Función destacada Operación

Recuperación de información en tiempo real

  • procedimiento: Especifica la fuente de información en la descripción de la tarea, por ejemplo:
    question = "从Wikipedia获取人工智能的最新定义。"
    society = construct_society(question)
    answer, chat_history, token_count = run_society(society)
    print(answer)
    
  • al final: Volver a los últimos contenidos de Wikipedia.

Replicación de pruebas GAIA

  • prueba de funcionamientoReproduzca los resultados de GAIA utilizando el script proporcionado:
    python run_gaia_roleplaying.py
    
  • ResultadosSalida de las puntuaciones de cada tarea para comprobar el rendimiento de OWL en la prueba comparativa (puntuación media: 58,18).

Precauciones de uso

  • Git y Python 3.11+ deben estar instalados en el sistema.
  • Cuando se ejecutan tareas a gran escala, se recomienda utilizar equipos de alto rendimiento y garantizar la estabilidad de la red.
  • Si la ventana de Chrome está en blanco pero hay salida de la consola, esto es normal y la ventana sólo se activará si la tarea requiere la interacción del navegador.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...