A automação do fluxo de trabalho está passando por uma nova onda de mudanças diante da rápida evolução da tecnologia de IA. Durante muito tempo, aProcessos automatizados tradicionaisConfiar em movimentos fixos predeterminados, que são esticados quando se lida com problemas complexos, é como pedir a um pianista que toque apenas mecanicamente uma partitura musical, o que carece de flexibilidade e criatividade.
No entanto, com o rápido aprimoramento dos recursos de raciocínio do Large Language Modelling (LLM), tornou-se possível transferir gradualmente o poder de decisão para os LLMs em determinadas partes do fluxo de trabalho. Recentemente, a plataforma Dify lançou oficialmente o plug-in do tipo Agent node Strategy, um recurso inovador criado para oferecer aos usuários uma experiência de automação de fluxo de trabalho mais inteligente e autônoma.
Relação entre os nós do agente e a estratégia: design desacoplado, atualizações flexíveis
Dify Fluxo de trabalho A função central dos nós de agente nos LLMs é quebrar a rigidez dos fluxos de trabalho tradicionais, de modo que determinados aspectos não estejam mais limitados a processos fixos e padrões de ferramentas. Em vez disso, os nós de agente permitem que os LLMs tomem decisões e façam julgamentos autônomos em pontos específicos do processo, respondendo assim a requisitos de tarefas mais complexos e dinâmicos.
Para permitir a flexibilidade e o dimensionamento dos nós do agente, a Dify apresenta o Estratégia do agente (A Agent Strategy é um modelo extensível que define o conteúdo de entrada e os formatos de saída padronizados. Por meio do desenvolvimento de interfaces específicas de configuração da Estratégia de Agente, a Dify permite que os usuários apliquem Estratégias de Agente avançadas, como CoT (Chain of Thought), ToT (Thinking Tree), GoT (Thinking Map) e BoT (Thinking Pillar), e estratégias de kernel semântico ainda mais complexas.
Na plataforma Dify, os nós do agente hospedam a estratégia do agente e estão fortemente conectados aos nós upstream e downstream do fluxo de trabalho. Semelhante aos nós LLM, os nós Agent concentram-se na solução de tarefas específicas e alimentam os resultados finais para os nós downstream.
Para entender melhor a relação entre os nós do agente e a estratégia do agente, ela pode ser comparada ao motor e ao sistema de controle de um carro:
- Nó de agente (unidade de execução)Atua como um "centro de decisões" no fluxo de trabalho, agendando recursos, gerenciando o status operacional e documentando todo o processo de raciocínio.
- Estratégia do agente (lógica de decisão)Estratégia do agente: Como um módulo conectável de algoritmos de raciocínio, a Estratégia do agente define regras para o uso de ferramentas e paradigmas de solução de problemas.
Esse design sutil de desacoplamento permite que os desenvolvedores atualizem de forma independente o "sistema de energia" (Agent Strategy) sem grandes alterações em toda a arquitetura do fluxo de trabalho, o que aumenta muito a flexibilidade e a capacidade de manutenção do sistema.
Atualmente, a Dify vem com duas políticas clássicas de Estratégia do Agente para os usuários escolherem:
- ReActO raciocínio clássico "pensar-agir-observar" que imita os padrões de pensamento e ação humanos.
- Chamada de funçãoChamadas de precisão funcional são suportadas, permitindo chamadas precisas para ferramentas ou APIs externas.
Os usuários podem fazer o download dessas estratégias predefinidas diretamente do Dify Marketplace e aplicá-las rapidamente aos seus próprios fluxos de trabalho. Além disso, a Dify introduziu um padrão de desenvolvimento de política aberta que incentiva os desenvolvedores a trabalharem juntos para criar um ecossistema de estratégia de agente próspero. Na plataforma Dify, qualquer desenvolvedor pode:
- Crie rapidamente plug-ins de política personalizados com a ferramenta CLI.
- Formulários de configuração e componentes de visualização para políticas personalizadas.
- Integração de algoritmos acadêmicos de ponta (por exemplo, Tree-of-Thoughts) em nós de agentes.
Isso significa que a Dify está se tornando uma "plataforma de inovação" para estratégias de inferência de IA, em que cada usuário pode compartilhar e se beneficiar dos frutos da co-construção da comunidade.
Visão geral da funcionalidade do nó de agente
O Functional Panorama mostra as principais funções do nó Agent.
Na próxima seção, apresentaremos o uso específico e os benefícios dos nós de agente para usuários em geral e desenvolvedores, respectivamente.
Para o usuário comum: arrastar e soltar, raciocínio transparente
1. arrastar e soltar para configuração rápida
A plataforma Dify minimiza a barreira para o uso dos nós do Agent. Os usuários podem arrastar e soltar os nós do Agent diretamente na tela do fluxo de trabalho a partir do painel Tools e configurá-los em três etapas simples:
- estratégia de inferência seletivaSelecione a estratégia de agente apropriada na lista de estratégias pré-configuradas ou personalizadas.
- Ferramentas/modelos de vinculaçãoVinculação: vincula o nó do agente à ferramenta ou ao modelo de linguagem desejado.
- Configuração de um modelo de lembreteConfigure um modelo de avisos claros para orientar o raciocínio e a tomada de decisões do LLM com base nas necessidades da tarefa.
2. processo de raciocínio transparente, registro em tempo real
Um recurso poderoso da estratégia de agente da Dify é seu mecanismo de registro incorporado. Esse mecanismo cria uma estrutura de árvore do processo de pensamento do agente, permitindo a visualização do caminho de execução do agente e facilitando a depuração de raciocínios complexos de várias etapas.
Os registros em tempo real oferecem ao usuário uma visão clara:
- Tempo total / consumo de tokensCompreender o consumo de recursos do nó do agente.
- processo de pensamento multiroundRastreie as várias rodadas de pensamento e as etapas de tomada de decisão do LLM.
- Trajetória de chamada da ferramentaMonitoramento do registro de chamadas do nó do agente para ferramentas externas: monitora o registro de chamadas do nó do agente para ferramentas externas.
O processo de raciocínio transparente e as informações de registro em tempo real aumentam muito a capacidade de depuração e interpretação dos nós do agente, ajudando os usuários a entender melhor e otimizar os fluxos de trabalho.
Para desenvolvedores: desenvolvimento padronizado, personalização flexível
Para os desenvolvedores, a Dify fornece um kit de desenvolvimento padronizado para ajudá-los a criar e personalizar rapidamente as estratégias de agente. No centro da definição de uma estratégia de agente está a definição dos seguintes módulos, que especificam como o modelo de linguagem funciona:
- Tratamento de consultas de usuáriosReceber e analisar consultas de linguagem natural dos usuários.
- Escolhendo a ferramenta certaEscolha a ferramenta adequada com base no conteúdo da pesquisa e nas necessidades da tarefa.
- Use a ferramenta correta de implementação de parâmetrosChama a ferramenta selecionada com os parâmetros corretos.
- A ferramenta de processamento retorna resultadosAnálise e processamento dos resultados retornados da execução da ferramenta.
- Julgar o tempo de conclusão da tarefaDeterminar quando a tarefa está concluída e emitir a resposta final.
Um conjunto de desenvolvimento padronizado que contém uma biblioteca de componentes de configuração de políticas (por exemplo, Model Selector / Tool Editor etc.), interfaces de registro estruturadas e um ambiente de teste sandbox simplifica o processo de desenvolvimento de políticas.
A definição de uma política consiste principalmente na identidade e nos metadados da política, nos parâmetros necessários (por exemplo, modelos, ferramentas, consultas etc.), nos tipos e nas restrições dos parâmetros e no local do código-fonte da implementação da política.
O processo de execução de um agente é dividido em três fases principais: inicialização, loop iterativo e resposta final.
- fase de inicializaçãoConfiguração: O sistema conclui a configuração dos parâmetros necessários, a configuração da ferramenta e a preparação do contexto.
- estágio do ciclo iterativoResposta: O sistema prepara um prompt contendo o contexto atual e usa as informações da ferramenta para invocar o LLM (Large Language Model). Em seguida, o sistema analisa a resposta do LLM para determinar se uma ferramenta foi chamada ou se uma resposta final foi obtida. Se for necessária uma chamada de ferramenta, o sistema executa a ferramenta apropriada e atualiza o contexto usando a saída da ferramenta. Esse loop continua até que a tarefa seja concluída ou o número máximo predefinido de iterações seja atingido.
- estágio de resposta finalResposta final: O sistema retorna a resposta ou o resultado final.
A plataforma Dify suporta a definição de políticas de forma declarativa por meio de arquivos YAML. Por exemplo, o código a seguir ilustra uma política denominada function_calling.yaml
Exemplo de um arquivo de configuração para o
parameters:
- name: model
type: model-selector
scope: tool-call&llm
- name: tools
type: array[tools]
- name: max_iterations
type: number
default: 5
extra:
python:
source: function_calling.py
Essa arquitetura declarativa torna a configuração da política tão fácil e intuitiva quanto o preenchimento de um formulário, ao mesmo tempo em que oferece suporte:
- Calibração dinâmica de parâmetrosValidação dinâmica de tipos de parâmetros, escopos e dependências.
- Renderização automática de rótulos multilínguesInterface de configuração para renderização automática de versões em vários idiomas.
Para obter informações mais detalhadas sobre as definições de políticas, consulte a documentação oficial da Dify: https://docs.dify.ai/plugins/schema-definition/agent
Perspectiva futura: Iteração contínua, possibilidades infinitas
A plataforma Dify planeja continuar a iterar na funcionalidade do nó do agente no futuro e adicionar mais bibliotecas de componentes voltadas para o desenvolvedor, por exemplo:
- Capacidade de acesso à base de conhecimento
- Componente de memória no Chatflow
- Mecanismos de tratamento de erros e novas tentativas
- Mais estratégias oficiais do agente
Os usuários podem fazer download de diferentes estratégias de agente da comunidade e carregá-las em diferentes nós de agente para resolver várias tarefas complexas de acordo com suas necessidades.
Ao experimentar os nós de agente pela primeira vez, os usuários podem usar o Chatflow de três nós para obter uma visão geral rápida de como eles funcionam e para simular os recursos básicos de um agente. Ao resolver tarefas mais complexas, experimente técnicas avançadas, como roteamento e handoffs, e pense no nó Agent como uma extensão avançada do nó LLM, resolvendo problemas complexos passo a passo.
Por exemplo, com os nós de agente, os usuários podem obter recursos complexos de processamento de tarefas semelhantes ao ChatGPT-4o da OpenAI com Task (imagem abaixo, do colaborador da comunidade Pascal).
Uma jogabilidade mais avançada será lançada oficialmente na Dify 1.0.0, e mais desenvolvedores são bem-vindos para contribuir com sua própria estratégia de agente para construirmos juntos um ecossistema Dify próspero!