¿Cómo funcionan las inteligencias genéricas de tareas, como Manus?

Las inteligencias de tareas genéricas, como Manus, están diseñadas para imitar las capacidades humanas de resolución de problemas mediante la comprensión de la intención del usuario, el desensamblaje de tareas complejas y el trabajo conjunto para alcanzar los objetivos.El núcleo de Manus es su arquitectura basada en Multi-Agente, que permite a múltiples agentes inteligentes trabajar juntos en tareas genéricas propuestas por el usuario. El flujo de trabajo puede resumirse en los siguientes pasos clave:

Reconocimiento de intenciones: el primer paso para entender las necesidades del usuario

El punto de partida para la ejecución inteligente de tareas es una comprensión precisa de las necesidades del usuario; el módulo de reconocimiento de intenciones de Manus toma primero la entrada del usuario, por ejemplo, una instrucción de texto. A continuación, el sistema realiza el reconocimiento de intenciones y la extracción de palabras clave necesarios. Por ejemplo, si el usuario introduce "Quiero viajar a Japón y necesito un plan de viaje", Manus extraerá la palabra clave "japan-trip" e identificará el tipo de tarea como " viaje".

Cuando el usuario introduce un requisito más general y al sistema le resulta difícil identificar con precisión su intención, Manus adopta una estrategia de guía e inicia varias rondas de diálogo con el usuario para aclarar los detalles del requisito paso a paso. Además, el sistema también permite a los usuarios cargar documentos, imágenes y otra información diversa como material auxiliar para el reconocimiento de intenciones, con el fin de comprender mejor la intención del usuario.

 

Inicialización de tareas: creación de un entorno de ejecución aislado

Tras captar con precisión la intención del usuario, Manus entrará en la fase de inicialización de la tarea. El sistema utilizará las palabras clave identificadas de la tarea, por ejemplo "japan-trip", para crear automáticamente una carpeta independiente relacionada con la tarea, que se utilizará para almacenar todos los productos intermedios y los resultados finales durante la ejecución de la tarea.

Es más, Manus inicia un contenedor Docker independiente para cada tarea, lo que garantiza el aislamiento, es decir, que cada tarea se ejecuta en un entorno limpio y aislado, garantizando la independencia de ejecución de las tareas y evitando interferencias entre diferentes tareas. El sistema también limpia automáticamente el contenedor Docker una vez finalizadas las tareas, manteniendo el sistema limpio y eficiente.

 

Planificación paso a paso: modelos de razonamiento para desmontar tareas complejas

El siguiente paso en la inicialización de tareas es la planificación de pasos, que es Manus Manus utiliza un potente modelo de razonamiento para descomponer las tareas en pasos detallados, un componente clave de la automatización de tareas complejas. El modelo de inferencia descompone de forma inteligente una gran tarea objetivo en una serie de subtareas ejecutables combinando los resultados del reconocimiento de intenciones y la información contextual sobre la tarea.

Por ejemplo, para el requisito "Planificar el viaje a Japón", el modelo de inferencia puede dividirlo en varios pasos, como "Buscar consejos para viajar a Japón", "Buscar información sobre billetes de avión y hoteles", "Hacer los preparativos detallados del viaje", etc. La información de los pasos divididos se escribirá en la carpeta de tareas bajo la etiqueta [todo.md](https://t.co/tYosIUPa9o) para formar una lista de tareas estructurada que guíe la ejecución de las tareas posteriores.

 

Ejecución de tareas: colaboración multiagente para un funcionamiento eficiente

La fase de ejecución de tareas es la operación central de Manus. El sistema recorre el [todo.md](https://t.co/tYosIUPa9o) que contiene una lista de tareas en formato Markdown.[ ] indica una tarea a realizar.[x] entonces representa una tarea completada.

El centro de programación de tareas de Manus, o el hilo principal, leerá las tareas a ejecutar una a una, y lanzará la llamada "llamada a función" con la información de contexto de la tarea. La "llamada a función" significa en realidad que el sistema llama a los módulos de función predefinidos, es decir, a varios tipos de agentes, según los requisitos de la tarea. Manus cuenta con diversos agentes integrados, como agentes de búsqueda, agentes de código, agentes de análisis de datos, etc., cada uno de los cuales se centra en un tipo específico de tarea.

Basándose en el resultado de la "llamada a función", Manus programa el agente correspondiente para ejecutar la tarea, y cualquier producto de contenido generado por el agente durante la ejecución, como resultados de búsqueda, archivos de código, informes de análisis, etc., se escriben en la carpeta de tareas del contenedor Docker para lograr una gestión y almacenamiento unificados de los datos. El agente se escribe en la carpeta de tareas del contenedor Docker para lograr una gestión y un almacenamiento unificados de los datos. Una vez ejecutada la tarea, el subproceso principal actualizará el archivo [todo.md](https://t.co/tYosIUPa9o) marque la tarea completada y pase a la siguiente tarea de la lista hasta completar todos los pasos.

 

Resumir: producir resultados y recoger opiniones de los usuarios

(coll.) suspender (a un estudiante) [todo.md](https://t.co/tYosIUPa9o) Una vez marcadas como completas todas las tareas del expediente, Manus entra en la fase final de síntesis. El hilo principal consolidará y sistematizará todos los productos de contenido generados durante la ejecución de las tareas para formar la salida estructurada final de acuerdo con los requisitos iniciales del usuario.

Los resultados finales de las tareas se presentarán en diversas formas, como documentos, código, imágenes, enlaces, etc., y se pondrán a disposición de los usuarios para que puedan consultarlos o descargarlos. Con el fin de optimizar continuamente el rendimiento del sistema y la experiencia del usuario, Manus también recoge la satisfacción de los usuarios con la calidad de las tareas completadas y los resultados finales, proporcionando una valiosa referencia para iteraciones y actualizaciones posteriores.

 

Explicación del flujo de trabajo del agente de búsqueda: imitación del comportamiento de navegación humano

El núcleo de la solución Manus reside en el diseño del agente que ejecuta las tareas y en el proceso de programación del hilo principal. Tomando como ejemplo el agente de búsqueda, una comprensión más profunda de sus pasos de ejecución para tareas como "plan de viaje a Japón" puede ayudarnos a entender mejor cómo funciona Manus.

  1. Extracción y búsqueda de palabras clave: el agente de búsqueda obtiene primero la información de la palabra clave, como "japan-trip", y llama a Google y a otras API de terceros para lanzar una petición de búsqueda y obtener entre 10 y 20 resultados de búsqueda relevantes.
  2. Navegación web simulada: el agente de búsqueda simula el comportamiento de un usuario que navega por una página web. Hace "clic" en el primer enlace de los resultados de búsqueda, utiliza la tecnología de navegador sin cabeza para navegar por el contenido de la página web, captura el texto de la página web y hace una captura de pantalla de la página web para obtener información visual.(Nota: Un navegador headless es un navegador que se ejecuta sin interfaz gráfica de usuario y se utiliza habitualmente para automatizar la manipulación web y el rastreo de datos).
  3. Extracción de información multimodal: A continuación, el agente de búsqueda llamará a modelos que admitan entradas multimodales,* (Nota: los modelos multimodales son capaces de manejar simultáneamente varios tipos de datos, como texto, imágenes, etc.).Tomando como entrada los requisitos de la tarea actual y la información de la página web, el agente extrae información válida de la página web visualizada en ese momento, por ejemplo, determinando si el contenido de la página web contiene resultados que cumplan los requisitos del plan de viaje. Si no hay suficiente información en la página web actual, el agente tambiénAnálisis de la estructura de una página web* para encontrar y devolver el siguiente elemento de botón que pueda contener información útil.
  4. Recopilación iterativa de información: el agente de búsqueda simula los clics y desplazamientos del usuario para obtener contenidos web e información visual adicionales. Este proceso se repite varias veces hasta que la información recopilada cumple los requisitos de la tarea.
  5. Guardado del contenido: Por último, el AGENTE DE BÚSQUEDA guarda toda la información recopilada en la carpeta de tareas para proporcionar datos de apoyo para los pasos posteriores.

El núcleo del agente de búsqueda es simular el comportamiento real de los usuarios que navegan por páginas web, lo que le permite localizar y extraer con precisión la información requerida de entre la ingente cantidad de información que hay en Internet al igual que los seres humanos. La aplicación de navegadores sin cabeza y modelos multimodales es el soporte técnico clave para lograr este objetivo.

 

Agente de código y agente de análisis de datos: agilización de las tareas de código y análisis de datos

En comparación con el agente de búsqueda, el agente de código y el agente de análisis de datos tienen un flujo de trabajo relativamente sencillo pero igualmente eficaz.

El agente de código es el principal responsable de la generación y ejecución de código. Al recibir una tarea de escritura de código, el agente de código creará un archivo de código local, por ejemplo, código Python o código HTML, según los requisitos de la tarea, y escribirá el código generado en el archivo. Para las tareas de análisis de datos, el agente de código puede generar código Python, mientras que para la presentación de resultados, puede generar código HTML para la presentación visual. A continuación, el agente de código ejecuta el código mediante llamadas al sistema y guarda los resultados en la carpeta de la tarea. Para facilitar que los usuarios vean cómo se ejecuta el código, Manus también proporciona un servicio de vista previa del código para previsualizar el contenido del archivo HTML.

El agente de análisis de datos se centra en tareas de procesamiento y análisis de datos. Su flujo de trabajo es similar al de un agente de código, pero la principal diferencia es que un agente de análisis de datos se centra más en la implementación de la lógica de análisis de datos y la extracción de información.

 

Perspectivas de futuro: Inteligencia multiagente en continua evolución

Aunque Manus ha demostrado una gran capacidad en el ámbito de las inteligencias de tareas de uso general, aún queda mucho por mejorar en este tipo de productos multiagente.

En primer lugar, en el ámbito de la gestión de la dependencia del mandato, la actual [todo.md](https://t.co/tYosIUPa9o) Las tareas de la tarea muestran dependencias más lineales. En el futuro, se podrán introducir DAG (grafos acíclicos dirigidos) (Nota: DAG, Directed Acyclic Graph, un modelo gráfico para representar dependencias de tareas y secuencias de ejecución, permite representar flujos de tareas más complejos). para permitir dependencias de tareas más complejas y flexibles para hacer frente a los requisitos de escenarios más complejos del mundo real.

En segundo lugar, en cuanto a la precisión y fiabilidad de la ejecución de la tarea, se puede introducir un agente de prueba automatizado, capaz de evaluar y juzgar automáticamente los resultados de la tarea, y si la calificación de un determinado paso es demasiado baja, el sistema puede volver a un nodo de tarea anterior y reejecutar el paso correspondiente, a fin de lograr la corrección y optimización automáticas de la tarea.

Además, la convergencia de los modos de colaboración entre el hombre y el ordenador es también un avance importante. manus puede permitir modos híbridos de automatización total e intervención del usuario. Por ejemplo, después de realizar un paso, el sistema puede pedir primero la opinión del usuario, y si éste no la da en un plazo determinado, seguirá ejecutándose automáticamente, encontrando así el equilibrio óptimo entre automatización y flexibilidad.

 

Resumen y retos

En general, Manus ha progresado notablemente en su aplicación de ingeniería, y su experiencia global de interacción se compara favorablemente con la de otros productos similares. Sin embargo, desde un punto de vista técnico, Manus sigue dependiendo en gran medida de la capacidad del modelo subyacente. Se especula con la posibilidad de que Manus utilice modelos ligeros para el reconocimiento de intenciones, mientras que la planificación de tareas y el razonamiento dependan de DeepSeek-R1 Estos modelos lingüísticos a gran escala. Para el reconocimiento de imágenes y la generación de códigos, modelos avanzados como Claude-3.7-Sonnet son también la tecnología elegida por Manus.

alta ficha El consumo indica que el control de costes se convertirá en un reto clave para la popularidad de aplicaciones como Manus. En el futuro, la forma de reducir eficazmente los costes simbólicos y mejorar la precisión en la ejecución de tareas y la satisfacción del usuario será la dirección clave que todos los productos multiagente, incluido Manus, deberán seguir explorando y optimizando. Queda por ver si Manus podrá utilizarse a gran escala y gozar de un amplio reconocimiento en el mercado en aplicaciones más prácticas.

通用任务智能体,例如 Manus,是如何工作的?
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...