Dify lance Agent Node : Injecter des capacités de prise de décision autonome dans le flux de travail
L'automatisation des flux de travail connaît une nouvelle vague de changements face à l'évolution rapide de la technologie de l'IA. Pendant longtemps, l'automatisation duProcessus traditionnels automatisésS'appuyer sur des mouvements fixes prédéterminés, qui sont mis à rude épreuve lorsqu'il s'agit de traiter des problèmes complexes, revient à demander à un pianiste de ne jouer que mécaniquement une partition musicale, ce qui manque de flexibilité et de créativité.
Cependant, avec l'amélioration rapide des capacités de raisonnement des modèles de grands langages (LLM), il est devenu possible de transférer progressivement le pouvoir de décision aux LLM pour certaines parties du flux de travail. Récemment, la plateforme Dify a officiellement lancé le plug-in Agent node Strategy type, une fonctionnalité innovante conçue pour offrir aux utilisateurs une expérience d'automatisation du flux de travail plus intelligente et plus autonome.
Relation entre les nœuds de l'agent et la stratégie : conception découplée, mises à niveau souples
DifyFlux de travail Le rôle principal des nœuds d'agents dans les LLM est de briser la rigidité des flux de travail traditionnels, de sorte que certains aspects ne sont plus limités à des processus fixes et à des modèles d'outils. Au contraire, les nœuds d'agents permettent aux LLM de prendre des décisions et de porter des jugements autonomes à des moments spécifiques du processus, répondant ainsi aux exigences de tâches plus complexes et plus dynamiques.
Pour permettre la flexibilité et l'évolutivité des nœuds de l'agent, Dify introduit l'option Stratégie de l'agent (La stratégie d'agent est un modèle extensible qui définit un contenu d'entrée et des formats de sortie standardisés. Grâce au développement d'interfaces de configuration de stratégies d'agents spécifiques, Dify permet aux utilisateurs d'appliquer des stratégies d'agents avancées telles que CoT (Chain of Thought), ToT (Thinking Tree), GoT (Thinking Map) et BoT (Thinking Pillar), et même des stratégies de noyaux sémantiques plus complexes.
Dans la plateforme Dify, les nœuds d'agent hébergent la stratégie d'agent et sont étroitement liés aux nœuds en amont et en aval du flux de travail. Comme les nœuds LLM, les nœuds agents se concentrent sur la résolution de tâches spécifiques et transmettent les résultats finaux aux nœuds en aval.
Afin de mieux comprendre la relation entre les nœuds des agents et la stratégie des agents, on peut l'assimiler au moteur et au système de contrôle d'une voiture :
- Nœud d'agent (unité d'exécution)Il agit comme un "centre de décision" dans le flux de travail, en programmant les ressources, en gérant l'état opérationnel et en documentant l'ensemble du processus de raisonnement.
- Stratégie de l'agent (logique de décision)La stratégie de l'agent : En tant que module enfichable d'algorithmes de raisonnement, la stratégie de l'agent définit des règles pour l'utilisation d'outils et de paradigmes de résolution de problèmes.
Ce découplage subtil permet aux développeurs de mettre à jour indépendamment le "système d'alimentation" (stratégie de l'agent) sans apporter de modifications majeures à l'ensemble de l'architecture du flux de travail, ce qui améliore considérablement la flexibilité et la facilité de maintenance du système.
Actuellement, Dify propose aux utilisateurs deux politiques classiques de stratégie de l'agent :
- ReActLes modèles de pensée et d'action : La chaîne de raisonnement classique "penser-agir-observer" qui imite les modèles de pensée et d'action de l'être humain.
- Appel de fonctionLes appels fonctionnels de précision sont pris en charge, ce qui permet d'effectuer des appels précis à des outils ou API externes.
Les utilisateurs peuvent télécharger ces stratégies prédéfinies directement à partir de la place de marché de Dify et les appliquer rapidement à leurs propres flux de travail. De plus, Dify a introduit une norme de développement de politique ouverte qui encourage les développeurs à travailler ensemble pour construire un écosystème de stratégie d'agent prospère. Sur la plateforme Dify, tout développeur peut :
- Créez rapidement des plug-ins de politique personnalisés à l'aide de l'outil CLI.
- Formulaires de configuration et composants de visualisation pour les politiques personnalisées.
- Intégration d'algorithmes universitaires de pointe, tels que l'arbre de pensée, dans les nœuds des agents.
Cela signifie que Dify devient une "plateforme d'innovation" pour les stratégies d'inférence de l'IA, où chaque utilisateur est en mesure de partager et de bénéficier des fruits de la co-construction de la communauté.
Vue d'ensemble de la fonctionnalité du nœud d'agent
Le Panorama fonctionnel présente les principales fonctions du nœud Agent.

Dans la section suivante, nous présenterons l'utilisation spécifique et les avantages des nœuds d'agents pour les utilisateurs généraux et les développeurs, respectivement.
Pour l'utilisateur moyen : glisser-déposer, raisonnement transparent
1. glisser-déposer pour une configuration rapide
La plateforme Dify minimise les obstacles à l'utilisation des nœuds d'agent. Les utilisateurs peuvent glisser et déposer les nœuds d'agent directement dans le canevas du flux de travail à partir du panneau Outils et les configurer en trois étapes simples :
- stratégie d'inférence sélectiveSélectionnez la stratégie d'agent appropriée dans la liste des stratégies préconfigurées ou personnalisées.
- Outils/modèles de reliureLier le nœud de l'agent à l'outil ou au modèle de langage souhaité.
- Mise en place d'un modèle de rappelLes tâches à accomplir sont les suivantes : établir un modèle d'invites claires pour guider le raisonnement et la prise de décision du MLD en fonction des besoins de la tâche à accomplir.

2. processus de raisonnement transparent, enregistrement en temps réel
Une caractéristique puissante de la stratégie de l'agent Dify est son mécanisme d'enregistrement intégré. Ce mécanisme crée une structure arborescente du processus de réflexion de l'agent, ce qui permet de visualiser le chemin d'exécution de l'agent et facilite le débogage des raisonnements complexes à plusieurs étapes.

Les journaux en temps réel donnent à l'utilisateur une vision claire :
- Temps total / consommation de jetonsComprendre la consommation de ressources du nœud de l'agent.
- processus de réflexion sur le multiroundLe LLM : retracer les multiples étapes de réflexion et de prise de décision du LLM.
- Trajectoire d'appel d'outilLe système d'enregistrement des appels de nœuds d'agents à des outils externes est contrôlé.
Le processus de raisonnement transparent et les informations de journal en temps réel améliorent considérablement la débogage et l'interprétabilité des nœuds d'agent, aidant les utilisateurs à mieux comprendre et à optimiser les flux de travail.
Pour les développeurs : développement standardisé, personnalisation flexible
Pour les développeurs, Dify fournit un kit de développement standardisé pour les aider à construire et à personnaliser rapidement des stratégies d'agent. Au cœur de la définition d'une stratégie d'agent se trouve la définition des modules suivants, qui spécifient le fonctionnement du modèle linguistique :
- Traitement des demandes des utilisateursLes services d'aide à la décision : recevoir et analyser les requêtes en langage naturel des utilisateurs.
- Choisir le bon outilLes outils de travail : Choisir l'outil approprié en fonction du contenu de l'enquête et des besoins de la tâche à accomplir.
- Utiliser le bon outil de mise en œuvre des paramètresAppel de l'outil : appelle l'outil sélectionné avec les paramètres corrects.
- L'outil de traitement renvoie des résultatsLe traitement et l'analyse des résultats obtenus lors de l'exécution de l'outil.
- Juger le moment de l'achèvement d'une tâcheDéterminer la fin de la tâche et produire la réponse finale.

Une suite de développement standardisée contenant une bibliothèque de composants de configuration des politiques (par exemple, le sélecteur de modèle / l'éditeur d'outils, etc.), des interfaces de journalisation structurées et un environnement de test en bac à sable simplifie grandement le processus d'élaboration des politiques.
La définition d'une politique consiste principalement en l'identité et les métadonnées de la politique, les paramètres requis (par exemple, les modèles, les outils, les requêtes, etc.), les types et les contraintes des paramètres, et l'emplacement du code source de mise en œuvre de la politique.
Le processus d'exécution d'un agent est divisé en trois phases principales : l'initialisation, la boucle itérative et la réponse finale.
- phase d'initialisationLe système effectue la configuration des paramètres nécessaires, la mise en place de l'outil et la préparation du contexte.
- étape du cycle itératifLe système prépare une invite contenant le contexte actuel et utilise les informations relatives à l'outil pour invoquer le grand modèle de langage (LLM). Le système analyse ensuite la réponse du LLM pour déterminer si un outil a été invoqué ou si une réponse finale a été obtenue. Si un appel d'outil est nécessaire, le système exécute l'outil approprié et met à jour le contexte à l'aide des résultats de l'outil. Cette boucle se poursuit jusqu'à ce que la tâche soit terminée ou que le nombre maximal d'itérations prédéfini soit atteint.
- étape de la réponse finaleLe système renvoie la réponse ou le résultat final.
La plateforme Dify permet de définir des politiques de manière déclarative via des fichiers YAML. Par exemple, le code suivant illustre une politique nommée function_calling.yaml
Exemple de fichier de configuration pour le
parameters:
- name: model
type: model-selector
scope: tool-call&llm
- name: tools
type: array[tools]
- name: max_iterations
type: number
default: 5
extra:
python:
source: function_calling.py
Cette architecture déclarative rend la configuration des politiques aussi simple et intuitive que le remplissage d'un formulaire, tout en assurant la prise en charge :
- Calibrage dynamique des paramètresValidation dynamique des types de paramètres, des champs d'application et des dépendances.
- Rendu automatique des étiquettes multilinguesInterface de configuration pour le rendu automatique des versions multi-langues.
Pour des informations plus détaillées sur les définitions des politiques, veuillez vous référer à la documentation officielle de Dify : https://docs.dify.ai/plugins/schema-definition/agent
Perspectives d'avenir : itération continue, possibilités illimitées
La plateforme Dify prévoit de continuer à développer les fonctionnalités du nœud d'agent à l'avenir et d'ajouter d'autres bibliothèques de composants destinées aux développeurs, par exemple :
- Capacité d'accès à la base de connaissances
- Composant mémoire dans Chatflow
- Traitement des erreurs et mécanismes de réessai
- Plus d'informations sur les stratégies officielles des agents

Les utilisateurs peuvent télécharger différentes stratégies d'agents à partir de la communauté et les charger dans différents nœuds d'agents pour résoudre diverses tâches complexes en fonction de leurs besoins.
Lorsqu'ils essaient les nœuds agents pour la première fois, les utilisateurs peuvent utiliser le Chatflow à trois nœuds pour obtenir un aperçu rapide de leur fonctionnement et simuler les capacités de base d'un agent. Lors de la résolution de tâches plus complexes, essayez des techniques avancées telles que le routage et les transferts, et considérez le nœud d'agent comme une extension puissante du nœud LLM, résolvant des problèmes complexes étape par étape.
Par exemple, avec les nœuds d'agent, les utilisateurs peuvent obtenir des capacités de traitement de tâches complexes similaires à celles de l'OpenAI ChatGPT-4o with Task (image ci-dessous de Pascal, contributeur de la communauté).

Un gameplay plus avancé sera officiellement publié dans Dify 1.0.0, et d'autres développeurs sont invités à contribuer à leur propre stratégie d'agent pour construire ensemble un écosystème Dify prospère !
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...