O autor principal do OpenManus compartilha: Como completar a estrutura do Agente em três horas!

Notícias sobre IAPublicado há 6 meses Círculo de compartilhamento de IA

16.4K 00

A tecnologia de agente (corpo inteligente) tem se espalhado pelo mundo da tecnologia esta semana em uma velocidade sem precedentes e, por trás desse boom, há um salto nos recursos de modelagem de raciocínio.

Na noite de 5 de março, a Manus fez uma estreia impressionante com uma demonstração poderosa que imediatamente incendiou a Internet. Apenas dois dias depois, a equipe nacional DeepWisdom MetaGPT e a CAMEL AI lançaram os projetos de código aberto OpenManus e OWL, replicando rapidamente o Manus mais uma vez incendiaram a comunidade da Web e do GitHub, provocando um amplo e profundo debate.

Especialmente digno de nota é o fato de que a equipe do OpenManus, com a longa experiência técnica acumulada do MetaGPT, concluiu a construção do sistema principal em apenas uma hora e colocou o projeto on-line em apenas três horas. Essa velocidade incrível não só ajudou o OpenManus a ganhar mais de 10.000 estrelas no GitHub, mas também o tornou o foco de atenção dentro e fora do setor.

Na manhã do dia 8 de março, a JQF convidou três membros principais da equipe do OpenManus para uma sessão de compartilhamento aprofundado, com o objetivo de analisar os princípios da implementação técnica do OpenManus e discutir a tendência de desenvolvimento futuro da tecnologia Agent.

Os três convidados são especialistas sênior na área de Agente: Siren Hong, o primeiro autor do artigo MetaGPT (ICLR 2024 Oral) e do artigo Data Interpreter, e um dos autores do artigo AFLOW (ICLR 2025 Oral), cujos resultados de pesquisa foram publicados várias vezes nas principais conferências acadêmicas internacionais, como TPAMI e ICLR, Os resultados de sua pesquisa foram publicados no TPAMI, ICLR e outras conferências e revistas internacionais importantes. Liang Xinbing, o principal desenvolvedor do OpenManus. Jinyu Xiang é coautor do OpenManus e o primeiro autor do AFlow e do SPO.

Em seus comentários, os três convidados apresentaram as seguintes ideias prospectivas sobre a direção futura da tecnologia Agent, bem como os desafios enfrentados pelo setor:

À medida que os recursos dos modelos de linguagem grandes (LLMs) continuarem a crescer, a taxa de sucesso dos aplicativos de agentes aumentará drasticamente em muitos domínios, especialmente em tarefas relativamente padronizadas, como questionários de controle de qualidade, avaliações de proficiência de código HumanEval e problemas de programação MBPP Python, em que um único modelo demonstrou excelentes recursos de solução.
No entanto, há um grande número de problemas do mundo real que são complexos e têm efeitos de cauda longa, como tarefas complexas de aprendizado de máquina, correções de bugs de código e problemas combinatórios de pesquisa que exigem a integração de várias informações para fornecer respostas eficazes aos usuários. Esses problemas ainda exigem uma inovação tecnológica significativa para melhorar o desempenho do agente, especialmente na solução de problemas de "ilusão" de modelos.
O progresso do agente na capacidade de planejamento de tarefas depende tanto do aprimoramento da capacidade do próprio modelo quanto da assistência da arquitetura externa. Um projeto arquitetônico mais sofisticado pode ajudar o agente a entender e decompor melhor as tarefas complexas.
Com a crescente variedade de ferramentas disponíveis para os agentes, será um novo desafio técnico permitir que os agentes tomem decisões precisas a partir de um grande número de ferramentas com funções semelhantes ao enfrentar a mesma tarefa, escolher a ferramenta mais adequada e evitar escolhas erradas.
A questão central do gerenciamento de memória para agentes é como encontrar um equilíbrio entre custo e eficiência. O uso direto de informações completas da memória, embora possa ser tratado pelos modelos atuais, leva a um aumento significativo no tempo e no custo de processamento, o que afeta seriamente a experiência do usuário em vez da degradação do desempenho.
Atualmente, uma abordagem eficaz para resolver o problema de gerenciamento de memória é adotar uma arquitetura de corpo multiinteligente ou uma estratégia assistida por ferramenta. Por exemplo, estruturas como o OpenManus geralmente usam ferramentas de planejamento para gerar previamente um plano de tarefa, decompor uma tarefa complexa em várias subtarefas, com compartilhamento incompleto de memória entre cada subtarefa, e resumir ou compactar o processo após a execução da tarefa, reduzindo assim os custos computacionais.
Embora possamos determinar claramente se o Agente concluiu a tarefa corretamente no benchmarking, ainda é um desafio avaliar quantitativamente a precisão ou a qualidade da conclusão da tarefa pelo Agente em cenários de aplicativos do mundo real.
O segredo para comercializar um Agente é maximizar as tarefas e as necessidades do usuário em cenários do mundo real, incluindo o fornecimento de funcionalidade altamente personalizada, que é a única maneira de atrair os usuários para que continuem usando o Agente.
Um grande número de desenvolvedores de aplicativos está explorando ativamente Token Esquemas de otimização de consumo, como mecanismos de cache ou técnicas de compactação de memória no nível de engenharia, para minimizar o tamanho do contexto que precisa ser passado para cada chamada de API e reduzir os custos.
No futuro, ao integrar os recursos de vários modelos pequenos, espera-se obter resultados comparáveis ou até mesmo superiores aos de modelos grandes e obter vantagens significativas na velocidade de inferência, no consumo de tokens e no custo.

Abaixo está uma explicação detalhada do conteúdo desse compartilhamento.

01 Uma noite de sucesso no GitHub, o caminho rápido técnico do OpenManus

Liang Xinbing: "Após a reunião do grupo em 6 de março, logo após as 17h, Xiang Jinyu sugeriu que, com algumas etapas importantes, poderíamos replicar o efeito de Manus."

Relembrando a oportunidade de iniciar o projeto OpenManus, Liang Xinbing disse: "Quando ele viu o vídeo de demonstração do Manus pela primeira vez, ficou impressionado com a experiência de interação suave. Quando viu o vídeo de demonstração do Manus pela primeira vez, ele ficou impressionado com a experiência de interação suave no vídeo e intuitivamente julgou que o Manus deveria ser um sistema de inteligência única. "Como um único corpo inteligente pode alcançar resultados tão excelentes e como ele planeja e realiza tarefas? Isso é muito chocante para mim."

Na conversa que se seguiu, a equipe começou a explorar a solução técnica para o Manus, um produto de corpo inteligente com IA de uso geral com uma experiência de usuário impressionante. No entanto, do ponto de vista técnico, a Manus é, na verdade, uma integração inteligente de muitas tecnologias fundamentais que foram acordadas pelo setor. Por fim, a equipe deduziu que a Manus emprega um mecanismo de planejamento externo para coordenar o trabalho de várias inteligências.

Após o jantar, o desenvolvimento do OpenManus foi lançado oficialmente e todo o processo levou cerca de três horas. "Naquela época, não prevíamos que o OpenManus se tornaria tão popular tão rapidamente". admite Liang Xinbing.

Manus Multi-Intelligence Architecture Explained: The Delicate Synergy of Planning and Execution (Arquitetura de multiinteligência Manus explicada: a delicada sinergia de planejamento e execução)

O núcleo do Manus é sua arquitetura de sistema de inteligência múltipla. Ele começa com uma decomposição de tarefas dos requisitos do usuário usando a ferramenta de planejamento PlanningTool, que gera um plano detalhado com várias subtarefas lineares. Em seguida, o sistema executa cada subtarefa sequencialmente e a atribui dinamicamente ao agente mais adequado, que executa a subtarefa usando a ferramenta de planejamento ReAct Um modelo cíclico (Raciocínio e Ação) que continuamente chama a ferramenta para concluir a tarefa.

A capacidade de planejamento e a capacidade de uso da ferramenta são os dois pilares da Manus. A inovação da Manus de trazer a ferramenta de planejamento PlanningTool para o Multi-Intelligence Framework foi fundamental. Conforme evidenciado pelo avanço do modelo Claude-3.7 na avaliação de competência do código SWEBench, as melhorias de desempenho se devem, em parte, aos avanços no próprio modelo e, em parte, ao planejamento mais eficaz das tarefas, e a pesquisa anterior da equipe do MetaGPT no projeto Data Interpreter mostrou que o planejamento é fundamental e eficaz para resolver problemas complexos no mundo real. A pesquisa anterior da equipe do MetaGPT no projeto Data Interpreter também mostrou que o planejamento é essencial e eficaz para resolver problemas complexos no mundo real. Como resultado, a integração de recursos de planejamento em estruturas de inteligência múltipla e até mesmo de inteligência única tornou-se uma direção importante no desenvolvimento da tecnologia de agentes.

A equipe especula que a Manus pode ter usado Claude combinado com seu próprio modelo de pós-treinamento e várias otimizações no nível de engenharia, o que melhora significativamente sua capacidade de usar a ferramenta em diferentes cenários.

Filosofia de design do OpenManus: minimalismo, capacidade de conexão e recursos avançados de planejamento

O conceito de design do OpenManus pode ser resumido em duas palavras-chave: "minimalista" e "conectável". De acordo com Liang Xinbing, o conceito inicial de design era criar uma estrutura de agente extremamente simples, por meio da combinação flexível de ferramentas e prompts conectáveis, para realizar as várias funções do agente. Com base nessa ideia, a equipe desenvolveu rapidamente uma mini-estrutura completa do Agent.

A orientação do Prompt e o uso de ferramentas são fatores essenciais para determinar a eficácia do ReAct Agent. No OpenManus, o Prompt é responsável pelo controle da lógica comportamental geral do Agente, enquanto as Ferramentas definem o espaço de ação do Agente. Além do ReAct Agent, a equipe do OpenManus implementou um ToolCall Agent leve, baseado na tecnologia Function Call, que permite que as ferramentas sejam selecionadas e executadas de forma mais estruturada. O OpenManus foi desenvolvido com base no ToolCall Agent.

O design "plugável" traz grande flexibilidade e extensibilidade, permitindo que os desenvolvedores combinem ferramentas de diferentes cenários para criar rapidamente novos agentes. Os desenvolvedores podem criar rapidamente novos agentes combinando livremente ferramentas de diferentes cenários, e a definição de ferramentas é muito fácil, não há necessidade de escrever uma lógica interna complexa, basta modificar o espaço de ação do agente (ferramentas), e as próprias ferramentas devem ter boa capacidade de combinação, e o OpenManus visa a tornar a camada de abstração mais concisa e clara. Ao fornecer um conjunto rico de ferramentas e ao dar suporte a vários agentes para que sejam equipados de forma flexível com diferentes combinações de ferramentas, o OpenManus é capaz de ampliar facilmente seus recursos em vários cenários de aplicativos.

Os recursos de planejamento também são essenciais. O OpenManus se baseia nos pontos fortes de planejamento do Manus, permitindo a decomposição de tarefas por meio da PlanningTool para lidar efetivamente com as complexidades do mundo real.

Fluxo de trabalho do OpenManus: Tarefas dinâmicas e execução colaborativa

O fluxo de trabalho do OpenManus é claro e eficiente. Ao receber uma solicitação do usuário, o sistema primeiro usa o PlanningTool para gerar um plano com subtarefas lineares e grava o plano em um arquivo markdown. Em seguida, o OpenManus analisa o plano e executa cada subtarefa por vez. À medida que cada subtarefa é executada, o sistema atribui dinamicamente a tarefa ao agente mais adequado para lidar com ela, equipado com um conjunto de ferramentas diferente para lidar com diferentes tipos de tarefas.

A alocação dinâmica de agentes é um dos destaques do OpenManus. Esse mecanismo de alocação flexível permite que o sistema selecione o agente mais adequado para executar a tarefa de acordo com as necessidades específicas e o contexto da tarefa, melhorando assim a eficiência e a qualidade do processamento da tarefa. Atualmente, o OpenManus usa a correspondência de expressões regulares para atribuir tarefas aos agentes. Se uma tarefa não puder ser associada a um agente específico, ela será executada usando o agente configurado por padrão.

No futuro, a equipe do OpenManus também está considerando a introdução de um modelo de linguagem grande (LLM) para cuidar da atribuição de tarefa a agente. Entretanto, o uso do LLM para reconhecimento de intenção e atribuição de agente para cada execução de tarefa aumentará, sem dúvida, o custo computacional e a latência.

O futuro do OpenManus: otimização contínua e desenvolvimento da comunidade

Para melhorar ainda mais o desempenho e a experiência do usuário do OpenManus, a equipe planeja trabalhar nas seguintes prioridades:

Recursos de planejamento aprimorados: o PlanningTool é continuamente otimizado para lidar com cenários mais complexos de decomposição de tarefas e planejamento.
Introdução de análises padronizadas: conjuntos de benchmarking do setor, como GAIA/TAU-Bench/SWE-Bench, são usados para avaliar e otimizar continuamente o desempenho do OpenManus.
Adaptação de modelo ampliada: Amplia o suporte ao modelo do Claude-3-5 para DeepSeek V2.5 e muitos outros modelos para otimizar cenários de aplicativos de baixo custo.
Permite a implementação em contêineres: simplifica a instalação e o uso do OpenManus, reduzindo a barreira de entrada para os usuários.
Biblioteca de amostras rica: foram adicionados mais exemplos práticos e análises aprofundadas de sucessos e fracassos para ajudar os usuários a entender e usar melhor o OpenManus.
Desenvolvimento front-end e back-end: desenvolva uma interface de usuário da Web amigável para aprimorar a experiência de interação do usuário.
RAG Integração do módulo: integre o módulo RAG (Retrieval Augmentation Generation) para fornecer ao agente uma base de conhecimento externa para aprimorar seus recursos de aquisição de conhecimento e raciocínio.

Liang Xinbing disse que a Manus fez um trabalho muito bom na interação com o produto e que há muito o que aprender com ela. No momento, o efeito do OpenManus ainda é relativamente limitado, e a equipe não realizou ajustes de efeitos especiais.

O objetivo inicial do OpenManus é obter os mesmos resultados que o Manus original. No longo prazo, a equipe espera contar com a grande comunidade de código aberto para otimizar continuamente o Computador Os principais recursos, como Uso do Computador, Uso do Navegador e Uso do Planejamento, bem como os recursos de invocação de ferramentas, levam o OpenManus a níveis mais altos de emergência de inteligência.

02 Equipe MetaGPT: Anos de precipitação técnica, três horas para replicar o Manus.

Siren Hong: "Na verdade, nossa equipe acumulou anos de experiência técnica no campo de automação e estruturas de corpos inteligentes para cenários de IA."

A equipe do MetaGPT está há muito tempo comprometida com a pesquisa de tecnologia de agentes e com o código aberto e, nos últimos dois anos, continuou a abrir o código aberto dos resultados da pesquisa da equipe e formou artigos acadêmicos e relatórios técnicos de alta qualidade, contribuindo ativamente para a comunidade. Esses resultados incluem:

MetaGPT: uma estrutura pioneira de metaprogramação de inteligência múltipla que estabelece a ideia central da colaboração de inteligência múltipla.
Interpretador de dados: um agente avançado de ciência de dados que demonstra o grande potencial do LLM no campo da análise de dados.
AFlow: uma estrutura automatizada de geração de fluxo de trabalho de agente que permite a exploração e a otimização automáticas de combinações de agentes.
FATO: tecnologia de reescrita de contexto, que melhora efetivamente a precisão da recuperação de vários fatores.
SELA: um agente LLM aprimorado por pesquisa em árvore para aprendizado automático de máquina que melhora significativamente o desempenho do AutoML.
Otimização de prompts autossupervisionada: um método de otimização de prompts autossupervisionado que melhora a eficiência e a eficácia da engenharia de prompts.
SPO (https://www.modelscope.cn/studios/AI-ModelScope/SPO): ferramenta de otimização de palavras-chave de código aberto para cenários com poucas amostras ou sem pontuação explícita.
Atom of Thoughts for Markov LLM Test-Time Scaling: uma abordagem Atom of Thoughts para aprimorar o raciocínio LLM em processos de decisão Markov.

A estrutura MetaGPT: uma pedra angular da colaboração de inteligência múltipla

Com código aberto em 2023, a estrutura do MetaGPT foi pioneira no campo da metaprogramação de corpos multiinteligentes, e a equipe do MetaGPT sentiu que, embora os modelos de grande escala na época tivessem demonstrado grande capacidade para tarefas de uso geral, a solução eficaz de problemas complexos nas sociedades humanas ainda exigiria a desmontagem atomística do problema e a incorporação de processos mais alinhados com os hábitos humanos de solução de problemas.

"Você deve estar familiarizado com o conceito de Procedimentos Operacionais Padrão (SOPs). Ao atribuir SOPs a diferentes funções e aproveitar a experiência e os recursos de ferramentas de cada função, podemos melhorar significativamente o desempenho de grandes modelos em problemas complexos." A estrutura do MetaGPT baseia-se nesse conceito e propõe uma arquitetura de corpo multiinteligente com SOPs incorporados, com o objetivo de realizar os recursos de meta-aprendizagem ou meta-programação das inteligências", explica Siren Hong.

Essa abordagem obteve melhorias significativas em benchmarks como HumanEval e MBPP, superando o modelo GPT-4 na época, e a equipe do MetaGPT também validou essa ideia em alguns cenários típicos de desenvolvimento de software, como o clássico minijogo 2048 e o jogo Snake. A taxa de sucesso geral do MetaGPT é significativamente maior do que a de outras estruturas de código aberto no mesmo período.

Interpretador de dados: um assistente inteligente em ciência de dados

Com base na estrutura do MetaGPT e no design das inteligências, a equipe percebeu que as inteligências também exigiam recursos de planejamento e uso de ferramentas mais robustos, especialmente ao resolver problemas de aprendizado de máquina ou modelagem de dados.

Por um lado, os processos de modelagem de dados/aprendizado de máquina geralmente podem ser planejados com os recursos de modelos grandes, que podem se concentrar mais na execução e implementação de tarefas. Por outro lado, ao trabalhar com dados tabulares grandes, não é possível inserir diretamente todos os dados devido à limitação de comprimento do contexto dos modelos grandes. Portanto, é necessário que as inteligências interajam com os dados por meio de formulários de código. Com base nessas considerações, a equipe do MetaGPT começou a explorar os recursos de planejamento e de uso da ferramenta no segundo semestre de 2023 com a inovação Data Interpreter.

existir Devin Durante o período em que projetos como esse atraíram muita atenção, a equipe do MetaGPT descobriu que o Data Interpreter havia atingido o nível de um analista de dados júnior em tarefas como modelagem de dados/aprendizado de máquina. Os usuários só precisam fornecer dados ao Data Interpreter, e ele pode concluir de forma independente tarefas complexas de IA, desde o pré-processamento de dados até o treinamento de modelos de NLP/CV.

SELA: aprimorando os recursos de depuração e feedback do agente

Para melhorar ainda mais o desempenho do Interpretador de Dados, a equipe do MetaGPT sentiu a necessidade de aprimorar a capacidade de depuração das inteligências e o mecanismo de feedback sobre os resultados dos experimentos. Para isso, a equipe desenvolveu um trabalho chamado "SELA", que introduz o método Monte Carlo Tree Search (MCTS) no Interpretador de Dados, o que permite que o corpo inteligente conduza o aprendizado de máquina por meio de experimentos autônomos otimização de tarefas, explorando a diversidade no processo de raciocínio e ajustando a estratégia e as etapas da solução com base no feedback dos resultados da execução, melhorando significativamente o desempenho geral da tarefa.

Aprimorados pelo SELA, os recursos do Data Interpreter em tarefas de aprendizado de máquina foram significativamente melhorados, atingindo um nível comparável ao das ferramentas de aprendizado de máquina automatizado (AutoML) e superando os melhores projetos de código aberto da época (por exemplo, AIDE).

AFlow: geração automatizada do fluxo de trabalho do agente

Enquanto isso, a equipe do MetaGPT também explorou o aprimoramento da capacidade de raciocínio de modelos grandes com base na tecnologia Monte Carlo Tree Search (MCTS) e desenvolveu o trabalho AFlow. Ao contrário das soluções com SOPs fixos, o AFlow é capaz de procurar automaticamente o fluxo de solução mais adequado para diferentes tarefas.

A inovação do AFlow é como aprimorar a solução de diferentes problemas. O AFlow tem como objetivo permitir que o sistema explore a combinação ideal de inteligências (topologia) com base no feedback do problema e, por fim, tornar a combinação de inteligências para resolver o problema mais dinâmica e sem a necessidade de definir a escala com antecedência.

O AFlow explora e otimiza a topologia combinatória de várias inteligências, definindo um espaço de pesquisa para atomização de problemas e usando métodos de Monte Carlo. Esse trabalho alcançou resultados SOTA (estado da arte) em todos os seis conjuntos de dados e foi reconhecido pelo ICLR 2025 como Oral, o que é uma prova de sua liderança tecnológica.

FATO: Aprimoramento dos recursos de gerenciamento de memória do agente

A equipe do MetaGPT também observou que, à medida que o número de etapas de solução de problemas de um corpo inteligente aumenta, o volume de sua memória (Memory) também aumenta. Portanto, como gerenciar com eficácia as informações contextuais do corpo inteligente durante todo o processo de solução de problemas torna-se uma questão urgente.

Para isso, a equipe apresenta o trabalho chamado "FACT", que melhora a precisão de modelos grandes na descoberta de fatos por meio de um mecanismo de descoberta com várias agulhas e mostra resultados significativos em tarefas de perguntas e respostas (QA). Esse trabalho também foi aceito pela NAACL.

Além disso, por volta de setembro do ano passado, a equipe do MetaGPT também explorou a plataforma de avaliação de capacidade de código SWE-Bench. Eles descobriram que, em problemas como o reparo de código, os agentes precisam contar com a localização e a localização de arquivos, bem como com os recursos de uso do computador, ao mesmo tempo em que exigem mais recursos de planejamento e uso de ferramentas. Muitos esforços de pesquisa têm usado uma abordagem de inteligência múltipla para resolver essas longas cadeias de processos de raciocínio complexos. Como resultado, a equipe do MetaGPT também adicionou e otimizou os recursos de localização e busca de arquivos às tarefas do SWE-Bench, que formam a base do código do OpenManus. Uma olhada no código do OpenManus revela que muitas das ferramentas estão relacionadas ao reparo e à localização de códigos.

SPO: uma ferramenta poderosa para otimização de palavras-chave

O SPO é um conjunto avançado de ferramentas para otimização de palavras-chave. Ao contrário dos métodos tradicionais de otimização que exigem grandes conjuntos de dados, o SPO é adequado para cenários em que as classificações precisas não estão disponíveis ou o conjunto de dados é limitado. Por exemplo, ao escrever um texto para o Xiaohongshu ou realizar a otimização de SEO, os usuários podem ter apenas um pequeno número de amostras satisfatórias, e o SPO é capaz de realizar uma otimização eficaz de palavras-chave nessas condições de amostras limitadas. A ferramenta é de código aberto e recebeu um bom feedback dos usuários na plataforma Magic Hitch e na Hugging Face na China.

AOT: O pensamento atômico alimenta o raciocínio informativo

A abordagem AOT (Atomic Thinking) é usada principalmente para tarefas de integração e raciocínio de informações de perguntas e respostas, como a integração de informações de diferentes passagens para compreensão de leitura. Esse trabalho recebeu 350.000 visualizações até o momento e será integrado à estrutura do MetaGPT no futuro para aprimorar ainda mais seus recursos de processamento de informações.

03 O verdadeiro desafio dos agentes: anatomia de dez questões centrais

Q1: É possível resolver completamente problemas complexos depois que os recursos de modelagem em larga escala foram aprimorados?

Siren Hong: "É verdade que a taxa de sucesso da solução de muitos problemas aumenta à medida que os recursos de modelos maiores aumentam, mas os problemas em si não desaparecem." Por exemplo, em problemas de geração de código de função única relativamente padronizados, como QA Q&A, HumanEval e MBPP, um único modelo agora é capaz de ter um desempenho muito bom.

Do ano passado para este ano, a taxa de sucesso dos modelos de larga escala nesses problemas se aproximou do nível dos aplicativos do mundo real. Ao mesmo tempo, porém, deve-se observar que a sociedade humana ainda tem um grande número de problemas extremamente complexos com efeitos de cauda longa, incluindo aprendizado de máquina, correção de código e problemas que exigem a busca de combinações de resultados antes que eles possam ser disponibilizados aos usuários. Essas áreas ainda exigem muita inovação tecnológica para melhorar o desempenho de modelos de grande escala, especialmente na solução de problemas de "ilusão" de modelos.

P2: Qual é a relação entre o aprimoramento da capacidade de modelos em larga escala e o avanço da tecnologia de agentes?

Xiang Jinyu: "O agente e o modelo em grande escala podem ter uma relação vertical ou ortogonal. O aprimoramento da estrutura em si ganhará mais funcionalidade devido ao aprimoramento da capacidade do modelo, e os dois não estão em conflito."

A estrutura do agente permite que modelos grandes interajam com o mundo físico ou com o ambiente mais amplo, ampliando-o com mais ferramentas. Ao mesmo tempo, os avanços nos próprios modelos grandes aprimoram seus recursos de raciocínio e planejamento. Os dois podem ser usados em conjunto ou desenvolvidos de forma independente.

"A relação é complementar e não conflitante". concluiu Xiang Jinyu.

P3: Qual é o nível atual de desenvolvimento do Foundation Agent Model?

Xiang Jinyu: "Recentemente, estou acompanhando alguns trabalhos de pesquisa relacionados, embora eles não pertençam exatamente à categoria Foundation Agent Model."

Ele mencionou as tentativas feitas pela equipe de Pan Jiayi no projeto SWE-GYM, que visa resolver o problema de reparo da base de código. Eles usaram dados gerados após a execução de modelos baseados no Claude ou no GPT-4o e coletaram dados de trajetória durante a operação do agente com a ajuda de estruturas como o Openhands. Os dados da trajetória contêm casos de sucesso e de falha. Eles reutilizaram os dados de trajetória coletados para treinar o modelo de código aberto Qwen e observaram que a capacidade de reparo de código do modelo Qwen foi significativamente aprimorada após esse treinamento. Os detalhes do estudo foram elaborados no documento e a pesquisa é sólida e confiável.

"A dificuldade atual em generalizar esse tipo de trabalho é que, por exemplo, na avaliação do SWE-Bench, podemos julgar explicitamente se uma tarefa foi concluída corretamente, mas em cenários de aplicativos do mundo real, é muito difícil avaliar quantitativamente a precisão ou a qualidade da conclusão da tarefa em muitos casos (por exemplo, escrever um romance ou uma piada)." Xiang Jinyu ressaltou: "Assim como em cenários reais de trabalho, quando estagiários e funcionários seniores são solicitados a concluir uma tarefa ao mesmo tempo, é realmente difícil fazer julgamentos objetivos quando se trata de classificar o desempenho deles, que precisa ser determinado com base em muitos critérios e lógica de negócios subjetivos. Esse tipo de design automático de feedback de avaliação em tarefas abertas também é uma direção importante para explorarmos no futuro."

P4: O progresso do agente em termos de recursos de planejamento depende em grande parte do próprio modelo de grande escala?

Xiang Jinyu: "O progresso atual no planejamento depende, por um lado, do aprimoramento dos recursos do próprio modelo e, por outro lado, não pode ser separado da assistência de estruturas externas, ou seja, da inclusão de estruturas mais complexas no nível do agente para auxiliar no planejamento." Por exemplo, os primeiros trabalhos sobre Tree of Thought (TOT, árvores de pensamento) melhoraram significativamente o desempenho dos modelos durante o raciocínio de tarefas ao introduzir uma estrutura adicional. Trabalhos de pesquisa semelhantes relacionados a auxílios de estrutura externa também existem no domínio do planejamento.

P5: Quais são as dificuldades de usar ferramentas externas para o Agent?

Xinbing Liang: "Atualmente, no OpenManus, ainda estamos usando principalmente algumas ferramentas de código aberto existentes, como o Cloud Computer e o Browser. Pesquisas realizadas por outras equipes sobre o uso do Browser mostraram que essas duas ferramentas sozinhas podem basicamente realizar muitas tarefas e, inicialmente, formaram o protótipo do Manus."

Além disso, sobre a questão de "se um agente quiser usar uma ferramenta, mas não houver nenhuma ferramenta no momento", Liang disse que a equipe também prevê a possibilidade de adicionar um recurso futuro que capacite os agentes a criar ferramentas por conta própria. "Quando um agente precisa de uma ferramenta para concluir uma tarefa, ele pode criá-la e usá-la por conta própria se não houver uma ferramenta adequada no ambiente atual. Isso capacitará ainda mais o agente."

Siren Hong: "Acho que o uso de ferramentas para grandes modelos ou agentes não é novidade em si. No entanto, com o aumento gradual do número de ferramentas, surgem dificuldades técnicas: se houver um grande número de ferramentas com funções semelhantes, como um agente pode tomar decisões precisas, escolher a ferramenta mais adequada e evitar erros de decisão ao resolver a mesma tarefa?"

Além disso, se, em vez de usar uma interface de ferramenta padronizada, for usada uma ferramenta personalizada, outro problema poderá ser enfrentado: os parâmetros da ferramenta não são definidos de forma razoável ou clara, o que fará com que os modelos grandes sejam propensos a erros na geração de decisões ao chamar a ferramenta, o que, por sua vez, afetará a eficácia da implementação da ferramenta. Essas são questões fundamentais que precisam ser abordadas na cadeia de uso da ferramenta.

"Outra dificuldade é que não se trata apenas da seleção e do uso da ferramenta em si, mas do contexto que pode conter muitas informações detalhadas. Por exemplo, quando um usuário abre várias páginas da Web ao mesmo tempo, as informações e os dados nessas páginas (por exemplo, a hora em um determinado currículo, a hora de início de um evento mencionado em outra página da Web) podem ser confusos ou incorretos quando o Agente os integra para gerar o resultado final. Como garantir que o agente lide com precisão com essas informações detalhadas ao usar a ferramenta também é um problema que precisa ser focado em aplicações práticas." acrescentou Hong Sirui.

Q6: Protocolos como o MCP se tornarão comuns em termos de uso de ferramentas?

Liang Xinbing: "O protocolo MCP está se tornando mais popular".

A capacidade de usar a ferramenta depende, na verdade, do fato de o próprio modelo ter uma boa capacidade de usar a ferramenta. Como alguns modelos podem não ter a capacidade de usar ferramentas, ou podem ser fracos nesse aspecto, sua eficácia no uso de ferramentas será limitada. Portanto, a popularidade dos protocolos de ferramentas está intimamente relacionada aos fortes recursos de ferramentas dos próprios modelos.

P7: Quais são alguns dos avanços e dificuldades do agente para lidar com contextos massivos (gerenciamento de memória)?

Siren Hong: "A esta altura, você já deve estar ciente de alguns trabalhos de pesquisa relacionados, como o MemoryGPT ou o projeto de código aberto Mem0, que têm algumas otimizações e tratamentos para contextos mais longos e gerenciamento de memória para agentes."

Por exemplo, o MemoryGPT resume contextos de um determinado tamanho, o que é uma maneira muito simples, mas eficaz, de pensar sobre isso, e o Mem0 usa ativamente ferramentas no processo de atualização da memória, envolvendo operações como exclusão, atualização e adição de memória.

"Atualmente, é um problema desafiador para os agentes compactar o contexto e armazená-lo na memória ao lidar com tarefas complexas e de longo alcance (por exemplo, ao navegar em páginas da Web, que podem ser muito longas em termos de informações) e garantir que as informações essenciais não sejam modificadas ou omitidas após a compactação." Siren Hong observa que "alguns trabalhos iniciais mostraram que a memória desaparece com o tempo ou com as etapas da tarefa".

Por outro lado, há vários tipos de memória humana, não apenas a memória de informações semânticas, mas também a memória processual gerada pelo uso de ferramentas, bem como a memória de relacionamentos associados a eventos. Os acadêmicos também otimizaram os diferentes tipos de memória separadamente.

A discussão acima é sobre o gerenciamento de memória em um único agente. Em um sistema com várias inteligências, entretanto, a memória pode ser usada com mais habilidade. Além de isolar as memórias até certo ponto, é desejável reutilizar as memórias geradas por outros agentes no processo de solução de problemas para aprimorar a própria experiência em lidar com tarefas específicas. Além disso, os agentes podem evoluir para reutilizar a experiência de resolução de problemas do grupo, formando, por fim, um tipo de inteligência de grupo.

Xinbing Liang: "O principal problema do gerenciamento de memória é o custo." Se o gerenciamento de memória não for levado em conta, sem compactação e nenhum processamento, e a memória completa for usada diretamente, os modelos atuais de grande escala ainda poderão ser processados, mas o problema que isso traz não é uma degradação do desempenho, mas um aumento significativo no tempo e no custo de processamento, o que afeta seriamente a experiência do usuário.

Portanto, o problema do gerenciamento de memória envolve a otimização em nível de engenharia. Já existem várias empresas ou organizações tentando otimizar as soluções de gerenciamento de memória.

"Uma abordagem atual para resolver o problema de gerenciamento de memória é usar uma abordagem de inteligência múltipla ou assistida por ferramentas. Por exemplo, em estruturas como o OpenManus, um plano de tarefa geralmente é gerado primeiro por uma ferramenta de planejamento, que divide uma tarefa complexa em várias subtarefas, com compartilhamento incompleto de memórias entre cada subtarefa, e resume ou comprime o processo após a execução da tarefa." explicou Liang Xinbing.

P8: Com o que o agente competirá em termos de comercialização no local?

Siren Hong: "Acho que o mais importante é tirar o melhor proveito das tarefas e dos efeitos em cenários reais, incluindo recursos de personalização." Muitos dos esforços de pesquisa atuais no meio acadêmico, seja para SWEBench, GAIA ou outras tarefas de teste de agentes, ainda têm taxas de sucesso de tarefas limitadas. Se esse padrão de tarefa relativamente pequeno for aplicado a cenários de negócios reais, a atual taxa de sucesso do agente ainda é bastante limitada diante de diferentes usuários e diferentes problemas de dificuldade.

"Portanto, sejam tarefas de programação ou tarefas de coleta de dados e geração de relatórios, se conseguirmos tirar o melhor proveito de uma ampla gama de problemas e cenários de usuários, aumentar a taxa de sucesso para um nível satisfatório e realmente perceber que o Agent é capaz de realizar as ações que as pessoas esperam que ele realize hoje, estou confiante de que os usuários continuarão a usar o Agent como assistente e ferramenta diária. " enfatizou Hong Si Rui.

P9: O custo atual do Manus, OpenManus e outros agentes é alto. Como podemos reduzir ainda mais o custo e melhorar a eficiência?

Siren Hong: "Em primeiro lugar, um grande número de fornecedores de aplicativos, inclusive nós mesmos, otimiza o consumo de tokens. Seja no nível de engenharia por meio de cache ou de técnicas de compactação de memória, o objetivo é minimizar o comprimento do contexto de cada chamada de API, e essa é a direção da otimização contínua no nível do aplicativo."

"Além disso, no futuro, é provável que as pessoas implementem um grande número de modelos pequenos para fazer o ajuste fino ou reforçar o aprendizado com base nos dados existentes, concentrando-se em otimizar a capacidade de usar determinados nós ou ferramentas específicos. Ao integrar os recursos de vários modelos pequenos, espera-se que eles completem ou até superem os modelos grandes. Isso pode levar a vantagens significativas de custo em termos de velocidade de inferência, consumo de token e despesas." acrescentou Siren Hong.

P10: Como podemos avaliar as perspectivas de negócios da inteligência múltipla?

Siren Hong: "Em primeiro lugar, acreditamos que, no espaço de geração de código, espera-se que os sistemas corporais de agente único e multiinteligente sejam comercialmente viáveis mais cedo."

"Descobrimos que um grande número de usuários, que têm um nível médio de programação, mas entendem alguns conceitos básicos, tem uma grande necessidade de assistência de pessoas inteligentes ou modelos grandes quando querem criar um site pessoal ou um aplicativo simples por conta própria. Se os usuários usarem modelos grandes diretamente, isso pode exigir várias rodadas de interação e um tedioso processo de depuração. No entanto, com um sistema de inteligências produzido, o processo é muito mais fácil. Os usuários talvez precisem gastar apenas 15 minutos ou meia hora, mesmo incluindo alterações subsequentes nos requisitos, para obter rapidamente um site ou aplicativo satisfatório."

"Portanto, acho que as perspectivas de negócios para a multiinteligência são claras e sólidas em termos de resolução realmente eficaz das necessidades reais dos usuários, e a geração de código também é um cenário que a tecnologia Agent pode resolver melhor no momento. No momento, a disposição dos usuários para pagar nesse sentido também é relativamente alta." concluiu Hong Sirui.

04 Comercialização de agentes: a geração de códigos assume a liderança na abertura de caminho

Q1: Você poderia apresentar brevemente o MGX, um produto de inteligência múltipla?

Siren Hong: "Se as pessoas estiverem familiarizadas com o MetaGPT, elas entenderão a MGX É um produto em que várias inteligências colaboram on-line ao mesmo tempo para ajudar os usuários a resolver problemas. Os usuários só precisam usá-lo como ChatGPT Assim que um requisito for inserido, uma inteligência poderosa desmontará a tarefa e a distribuirá a diferentes inteligências para executá-la."

"Atualmente, todo o produto está focado no campo da geração de código. Por exemplo, se um usuário quiser criar um site pessoal, um jogo ou um aplicativo de análise de dados, etc., nosso corpo inteligente pode realizar a tarefa muito bem. Durante o processo de desenvolvimento, os usuários podem modificar seus requisitos a qualquer momento, como ajustar o estilo, a tipografia ou o layout do projeto de front-end, o que nossas inteligências também são capazes de fazer naturalmente, reduzindo significativamente os custos de desenvolvimento."

Ao contrário de produtos como o Manus e o OpenManus, o MGX tem recursos de implementação automática. Durante o processo de desenvolvimento, o software é implantado automaticamente e os usuários podem visualizar e ajustar os resultados em tempo real. Além disso, cada uma das inteligências do produto MGX tem as chamadas de ferramentas de computador, chamadas de ferramentas de navegador e recursos de planejamento e execução de código mencionados anteriormente.

"Também estamos explorando internamente a avaliação estética dos efeitos de design ou de visualização de dados e, no futuro, poderemos formar um Benchmark correspondente para ajudar grandes modelos ou agentes a aprender a avaliar se as páginas geradas ou os painéis de dados atendem às expectativas dos usuários e aos padrões estéticos." revelou Hong Sirui.

Abaixo estão alguns exemplos de sites gerados pelo MGX:

Site pessoal:

https://alex-portfolio-yhx5c3-v1.mgx.world/
https://photographer-portfolio-myuf2t-v1.mgx.world

Blog pessoal:

https://personal-blog-v7amdv-v2.mgx.world
https://cute-cartoon-blog-p58801-v1.mgx.world

Cartões de visita pessoais:

https://portfolio-dveerm-v1.mgx.world
https://emma-anderson-homepage-8rnqm6-v1.mgx.world

P2: O MGX DEV fará o acompanhamento com novos tipos de agentes?

Siren Hong: "A MGX continuará a adicionar novos tipos de agentes no futuro. No momento, estamos experimentando internamente um novo tipo de inteligência chamado User Agent." Quando o projeto de um usuário é implantado, ele pode não ser executado diretamente ou apresentar defeitos, resultando em páginas em branco, etc. O User Agent detectará ativamente o efeito da implantação do projeto, como tirar capturas de tela da página, interagir ativamente com a página da Web, testar a viabilidade e a executabilidade do software gerado e, em seguida, notificar outras inteligências responsáveis pelo desenvolvimento para corrigi-lo, a fim de concluir o projeto com mais perfeição. "Além disso, também podemos precipitar internamente os Benchmarks para avaliação estética dos efeitos de design ou visualização de dados, permitindo que o Agente determine se a qualidade e o desempenho estético de uma página ou painel de dados atende às expectativas." acrescentou Hong Siren.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

A IA do telefone celular deu início à era do "corpo inteligente": o Samsung S25 se une ao Smart Spectrum para abrir uma nova era de chamadas de áudio e vídeo

Notícias sobre IA

7 meses atrás

015.3K

A OpenAI promove o novo modelo o3-mini, promovido pela DeepSeek? O preço ainda não pode ser superado

Notícias sobre IA

8 meses atrás

012.9K

Sam Altman: OpenAI confirma o lançamento de agentes de IA para revolucionar a eficiência das empresas

Notícias sobre IA

9 meses atrás

014.4K

谷歌 Veo 2 视频生成登陆 Gemini 与 Whisk，AI 创作工具版图再扩张

A geração de vídeo Veo 2 do Google chega ao Gemini e ao Whisk, expandindo o território da ferramenta de criação de IA

Notícias sobre IA

5 meses atrás

013.4K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

O autor principal do OpenManus compartilha: Como completar a estrutura do Agente em três horas!

01 Uma noite de sucesso no GitHub, o caminho rápido técnico do OpenManus

02 Equipe MetaGPT: Anos de precipitação técnica, três horas para replicar o Manus.

03 O verdadeiro desafio dos agentes: anatomia de dez questões centrais

04 Comercialização de agentes: a geração de códigos assume a liderança na abertura de caminho

Cursor, Windsurf e Cline: 8 plug-ins obrigatórios para MCP

Cline lança o 'Memory Bank': diga adeus à amnésia do assistente de IA e nunca perca o contexto do projeto

Artigos relacionados

A IA do telefone celular deu início à era do "corpo inteligente": o Samsung S25 se une ao Smart Spectrum para abrir uma nova era de chamadas de áudio e vídeo

A OpenAI promove o novo modelo o3-mini, promovido pela DeepSeek? O preço ainda não pode ser superado

Sam Altman: OpenAI confirma o lançamento de agentes de IA para revolucionar a eficiência das empresas

A geração de vídeo Veo 2 do Google chega ao Gemini e ao Whisk, expandindo o território da ferramenta de criação de IA

Sem comentários

Últimas coleções

Artigos mais recentes

O autor principal do OpenManus compartilha: Como completar a estrutura do Agente em três horas!

01 Uma noite de sucesso no GitHub, o caminho rápido técnico do OpenManus

02 Equipe MetaGPT: Anos de precipitação técnica, três horas para replicar o Manus.

03 O verdadeiro desafio dos agentes: anatomia de dez questões centrais

04 Comercialização de agentes: a geração de códigos assume a liderança na abertura de caminho

Cursor, Windsurf e Cline: 8 plug-ins obrigatórios para MCP

Cline lança o 'Memory Bank': diga adeus à amnésia do assistente de IA e nunca perca o contexto do projeto

Artigos relacionados

A IA do telefone celular deu início à era do "corpo inteligente": o Samsung S25 se une ao Smart Spectrum para abrir uma nova era de chamadas de áudio e vídeo

A OpenAI promove o novo modelo o3-mini, promovido pela DeepSeek? O preço ainda não pode ser superado

Sam Altman: OpenAI confirma o lançamento de agentes de IA para revolucionar a eficiência das empresas

A geração de vídeo Veo 2 do Google chega ao Gemini e ao Whisk, expandindo o território da ferramenta de criação de IA

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes