Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Como funcionam as inteligências de tarefas de uso geral, como a Manus?

As inteligências de tarefas genéricas, como a Manus, são projetadas para imitar os recursos humanos de solução de problemas, compreendendo a intenção do usuário, desmontando tarefas complexas e trabalhando em conjunto para atingir metas. O fluxo de trabalho pode ser resumido nas seguintes etapas principais:

Reconhecimento de intenção: a primeira etapa para entender as necessidades do usuário

O ponto de partida para a execução inteligente de tarefas é uma compreensão precisa das necessidades do usuário; o módulo de reconhecimento de intenção da Manus primeiro recebe a entrada do usuário, por exemplo, uma instrução de texto. Em seguida, o sistema executa o reconhecimento de intenção e a extração de palavras-chave necessários na entrada. Por exemplo, se o usuário digitar "Quero viajar para o Japão e preciso de um plano de viagem", o Manus analisará a palavra-chave "japan-trip" e identificará o tipo de tarefa como " travel" (viagem).

Quando o usuário inserir um requisito mais geral e for difícil para o sistema identificar com precisão sua intenção, o Manus adotará uma estratégia de orientação e iniciará várias rodadas de diálogo com o usuário para esclarecer os detalhes do requisito passo a passo. Além disso, o sistema também permite que os usuários carreguem documentos, imagens e outras informações diversificadas como materiais auxiliares para o reconhecimento da intenção, a fim de entender a intenção do usuário de forma mais abrangente.


 

Inicialização de tarefas: criação de um ambiente de execução isolado

Depois de captar com precisão a intenção do usuário, o Manus entrará na fase de inicialização da tarefa. O sistema usará as palavras-chave identificadas da tarefa, por exemplo, "japan-trip", para criar automaticamente uma pasta separada relacionada à tarefa, que será usada para armazenar todos os produtos intermediários e resultados finais durante a execução da tarefa.

Além disso, o Manus inicia um contêiner do Docker separado para cada tarefa, o que garante o isolamento, ou seja, cada tarefa é executada em um ambiente limpo e isolado, garantindo a independência da execução da tarefa e evitando a interferência entre diferentes tarefas. O sistema também limpa automaticamente o contêiner do Docker após a conclusão das tarefas, mantendo o sistema limpo e eficiente.

 

Planejamento passo a passo: modelos de raciocínio para desmontar tarefas complexas

A próxima etapa da inicialização da tarefa é o planejamento da etapa, que é Manus O Manus usa um modelo de raciocínio avançado para dividir as tarefas em etapas detalhadas, um componente essencial da automação de tarefas complexas. O modelo de inferência divide de forma inteligente uma grande tarefa de objetivo em uma série de subtarefas executáveis, combinando os resultados do reconhecimento de intenção e as informações contextuais sobre a tarefa.

Por exemplo, para o requisito "planejamento de viagem ao Japão", o modelo de inferência pode dividi-lo em várias etapas, como "pesquisa de dicas de viagem ao Japão", "verificação de informações sobre passagens aéreas e hotéis", "Fazer preparativos detalhados para a viagem" e assim por diante. As informações das etapas divididas serão gravadas na pasta de tarefas sob o nome [todo.md] (https://t.co/tYosIUPa9o) para formar uma lista de tarefas estruturada que orienta a execução das tarefas subsequentes.

 

Execução de tarefas: colaboração de vários agentes para uma operação eficiente

A fase de execução da tarefa é a operação principal do Manus. O sistema percorre o [todo.md] (https://t.co/tYosIUPa9o) que contém uma lista de tarefas no formato Markdown.[ ] indica uma tarefa a ser executada.[x] então ele representa uma tarefa concluída.

O centro de agendamento de tarefas do Manus, ou o thread principal, lê as tarefas a serem executadas uma a uma e inicia a chamada "chamada de função" combinando as informações de contexto da tarefa. A "chamada de função" aqui significa, na verdade, que o sistema chama os módulos de função predefinidos, ou seja, vários tipos de agentes, de acordo com os requisitos da tarefa. O Manus tem uma variedade de agentes incorporados, como agente de pesquisa, agente de código, agente de análise de dados e assim por diante, cada um deles focado em um tipo específico de tarefa.

Com base no resultado da "chamada de função", o Manus programa o agente correspondente para executar a tarefa, e todos os produtos de conteúdo gerados pelo agente durante a execução, como resultados de pesquisa, arquivos de código, relatórios de análise etc., são gravados na pasta de tarefas do contêiner do Docker para obter gerenciamento e armazenamento unificados de dados. O agente é gravado na pasta de tarefas do contêiner do Docker para obter o gerenciamento e o armazenamento unificados dos dados. Depois que a tarefa for executada, o thread principal atualizará o [todo.md] (https://t.co/tYosIUPa9o) marque a tarefa concluída e passe para a próxima tarefa da lista até que todas as etapas sejam concluídas.

 

Resumindo: produzindo resultados e coletando feedback do usuário

(col.) reprovar (um aluno) [todo.md] (https://t.co/tYosIUPa9o) Depois que todas as tarefas do arquivo são marcadas como concluídas, o Manus entra no estágio final de sumarização. O thread principal consolidará e sistematizará todos os produtos de conteúdo gerados durante a execução das tarefas para formar o resultado final estruturado de acordo com os requisitos iniciais do usuário.

Os resultados finais das tarefas serão apresentados de várias formas, como documentos, códigos, imagens, links, etc., e ficarão disponíveis para navegação ou download pelos usuários. Para otimizar continuamente o desempenho do sistema e a experiência do usuário, o Manus também coleta a satisfação do usuário com a qualidade das tarefas concluídas e os resultados finais, fornecendo uma referência valiosa para iterações e atualizações subsequentes.

 

Explicação do fluxo de trabalho do agente de pesquisa: imitando o comportamento humano de navegação

O núcleo da solução Manus está no design do agente que executa tarefas e no processo de agendamento do thread principal. Tomando o agente de pesquisa como exemplo, uma compreensão mais profunda de suas etapas de execução para tarefas como "plano de viagem ao Japão" pode nos ajudar a entender melhor como a Manus funciona.

  1. Extração e pesquisa de palavras-chave: o agente de pesquisa primeiro obtém as informações de palavras-chave, como "japan-trip", e chama uma API de terceiros, como o Google, para iniciar uma solicitação de pesquisa e obter de 10 a 20 resultados de pesquisa relevantes.
  2. Navegação simulada na Web: o agente de pesquisa simula o comportamento de um usuário navegando em uma página da Web. Ele "clica" no primeiro link dos resultados da pesquisa, usa a tecnologia de navegador sem cabeça para navegar pelo conteúdo da página da Web, captura o texto da página da Web e faz uma captura de tela da página da Web para obter informações visuais.(Observação: um navegador headless é um navegador executado sem uma interface gráfica de usuário e é normalmente usado para automatizar a manipulação da Web e o rastreamento de dados).
  3. Extração de informações multimodais: em seguida, o agente de pesquisa chamará modelos que suportam entradas multimodais* (Observação: os modelos multimodais são capazes de lidar com vários tipos de dados, como texto, imagens etc., simultaneamente).Tomando como entrada os requisitos da tarefa atual e as informações da página da Web, o agente extrai informações válidas da página da Web visualizada no momento, por exemplo, determinando se o conteúdo da página da Web contém resultados que atendem aos requisitos do plano de viagem. Se não houver informações suficientes na página da Web atual, o agente tambémAnalisar a estrutura de uma página da Web* para localizar e retornar o próximo elemento de botão que possa conter informações úteis.
  4. Coleta iterativa de informações: o agente de pesquisa simula os cliques e as ações de rolagem do usuário para obter conteúdo adicional da Web e informações visuais. Esse processo é repetido várias vezes até que as informações coletadas atendam aos requisitos da tarefa.
  5. Salvamento de conteúdo: por fim, o SEARCH AGENT salva todas as informações coletadas na pasta de tarefas para fornecer suporte de dados para as etapas subsequentes.

O núcleo do agente de pesquisa é simular o comportamento real dos usuários que navegam em páginas da Web, o que permite localizar e extrair com precisão as informações necessárias da enorme quantidade de informações na Internet, assim como os seres humanos. A aplicação de navegadores sem cabeça e modelos multimodais é o principal suporte técnico para atingir esse objetivo.

 

Agente de código e agente de análise de dados: simplificando as tarefas de código e a análise de dados

Em comparação com o agente de pesquisa, o agente de código e o agente de análise de dados têm um fluxo de trabalho relativamente simples, mas igualmente eficiente.

O agente de código é o principal responsável pela geração e execução do código. Ao receber uma tarefa de gravação de código, o agente de código criará um arquivo de código local, por exemplo, código Python ou código HTML, de acordo com os requisitos da tarefa, e gravará o código gerado no arquivo. Para tarefas de análise de dados, o agente de código pode gerar código Python, enquanto para apresentação de resultados, ele pode gerar código HTML para apresentação visual. Em seguida, o agente de código executa o código por meio de chamadas do sistema e salva os resultados na pasta da tarefa. Para que os usuários possam ver mais facilmente como o código é executado, o Manus também oferece um serviço de visualização de código para visualizar o conteúdo do arquivo HTML.

O agente de análise de dados se concentra em tarefas de processamento e análise de dados. Seu fluxo de trabalho é semelhante ao de um agente de código, mas a principal diferença é que um agente de análise de dados se concentra mais na implementação da lógica de análise de dados e na mineração de insights de dados.

 

Perspectivas futuras: inteligência multiagente em evolução contínua

Embora a Manus tenha demonstrado recursos sólidos na área de inteligências de tarefas de uso geral, ainda há muito espaço para melhorias nesses produtos multiagentes.

Primeiro, na área de gerenciamento de dependência de mandatos, o atual [todo.md] (https://t.co/tYosIUPa9o) As tarefas na tarefa mostram dependências mais lineares. No futuro, os DAGs (gráficos acíclicos direcionados) poderão ser introduzidos (Observação: DAG, Directed Acyclic Graph, um modelo gráfico para representar dependências de tarefas e sequências de execução, permite a representação de fluxos de tarefas mais complexos). para permitir dependências de tarefas mais complexas e flexíveis para responder a requisitos de cenários mais complexos do mundo real.

Em segundo lugar, em termos de precisão e confiabilidade da execução da tarefa, pode ser introduzido um agente de teste automatizado, capaz de avaliar e julgar automaticamente os resultados da tarefa e, se a classificação de uma determinada etapa for muito baixa, o sistema poderá voltar a um nó de tarefa anterior e reexecutar a etapa relevante, de modo a obter correção e otimização automáticas da tarefa.

Além disso, a convergência dos modos de colaboração entre homem e computador também é um desenvolvimento importante. O manus pode permitir modos híbridos de automação total e intervenção do usuário. Por exemplo, após a execução de uma etapa, o sistema pode primeiro solicitar o feedback do usuário e, se o usuário não der feedback dentro de um determinado período de tempo, ele continuará a ser executado automaticamente, encontrando assim o equilíbrio ideal entre automação e flexibilidade.

 

Resumo e desafios

De modo geral, a Manus fez progressos significativos em sua implementação de engenharia, e sua experiência geral de interação se compara favoravelmente a outros produtos semelhantes. Entretanto, do ponto de vista técnico, a Manus ainda depende muito da capacidade do modelo subjacente. Especula-se que a Manus possa usar modelos leves para reconhecimento de intenção, enquanto o planejamento e o raciocínio de tarefas podem depender de DeepSeek-R1 Tais modelos de linguagem em larga escala. Para reconhecimento de imagens e geração de códigos, modelos avançados como o Claude-3.7-Sonnet também são a tecnologia preferida da Manus.

alta token O consumo indica que o controle de custos se tornará um desafio importante para a popularidade de aplicativos como o Manus. No futuro, como reduzir efetivamente os custos de tokens e melhorar a precisão da execução de tarefas e a satisfação do usuário será a principal direção que todos os produtos multiagentes, inclusive o Manus, precisarão continuar a explorar e otimizar. Resta saber se a Manus poderá ser usada em grande escala e ser amplamente reconhecida no mercado em aplicações mais práticas.

Como funcionam as inteligências de tarefas de uso geral, como a Manus? -1

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Como funcionam as inteligências de tarefas de uso geral, como a Manus?

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil