Dify lanza el nodo agente: inyectar capacidades autónomas de toma de decisiones en el flujo de trabajo
La automatización del flujo de trabajo está experimentando una nueva oleada de cambios ante la rápida evolución de la tecnología de IA. Durante mucho tiempo, laProcesos automatizados tradicionalesBasarse en movimientos fijos predeterminados, que se estiran al abordar problemas complejos, es como pedir a un pianista que sólo toque mecánicamente una partitura, lo que carece de flexibilidad y creatividad.
Sin embargo, con la rápida mejora de las capacidades de razonamiento de Large Language Modelling (LLM), se ha hecho posible ceder gradualmente el poder de decisión a los LLM para ciertas partes del flujo de trabajo. Recientemente, la plataforma Dify lanzó oficialmente el complemento de tipo Estrategia de nodo Agente, una función innovadora diseñada para ofrecer a los usuarios una experiencia de automatización del flujo de trabajo más inteligente y autónoma.
Relación entre los nodos del Agente y la Estrategia: diseño desacoplado, actualizaciones flexibles
DifyFlujo de trabajo La función principal de los nodos Agente en los LLM es romper la rigidez de los flujos de trabajo tradicionales, de modo que ciertos aspectos ya no se limiten a procesos y patrones de herramientas fijos. En su lugar, los nodos Agente permiten a los LLM tomar decisiones y juicios autónomos en puntos específicos del proceso, respondiendo así a requisitos de tareas más complejos y dinámicos.
Para permitir la flexibilidad y la escalabilidad de los nodos de Agente, Dify introduce la función Estrategia de los agentes (La Estrategia de Agente es una plantilla extensible que define contenidos de entrada y formatos de salida estandarizados. Mediante el desarrollo de interfaces de configuración de Estrategias de Agente específicas, Dify permite a los usuarios aplicar Estrategias de Agente avanzadas como CoT (Cadena de Pensamiento), ToT (Árbol de Pensamiento), GoT (Mapa de Pensamiento) y BoT (Pilar de Pensamiento), e incluso estrategias de núcleo semántico más complejas.
En la plataforma Dify, los nodos de Agente alojan la Estrategia de Agente y están estrechamente conectados a los nodos ascendentes y descendentes del flujo de trabajo. Al igual que los nodos LLM, los nodos Agente se centran en resolver tareas específicas y envían los resultados finales a los nodos posteriores.
Para entender mejor la relación entre los nodos del Agente y la Estrategia del Agente, se puede analogar con el motor y el sistema de control de un coche:
- Nodo agente (Unidad de Ejecución)Actúa como "centro de decisión" en el flujo de trabajo, programando los recursos, gestionando el estado operativo y documentando todo el proceso de razonamiento.
- Estrategia del agente (lógica de decisión)Estrategia de agente: como módulo conectable de algoritmos de razonamiento, la estrategia de agente define reglas para el uso de herramientas y paradigmas de resolución de problemas.
Este sutil diseño de desacoplamiento permite a los desarrolladores actualizar de forma independiente el "sistema de energía" (Estrategia de Agente) sin grandes cambios en toda la arquitectura del flujo de trabajo, lo que mejora enormemente la flexibilidad y la capacidad de mantenimiento del sistema.
Actualmente, Dify viene con dos políticas clásicas de Estrategia de Agente para que los usuarios elijan:
- ReActLa clásica cadena de razonamiento "pensar-actuar-observar" que imita los patrones de pensamiento y acción humanos.
- Llamada a función: Se admiten llamadas de precisión funcional, lo que permite realizar llamadas precisas a herramientas o API externas.
Los usuarios pueden descargar estas estrategias predefinidas directamente desde Dify Marketplace y aplicarlas rápidamente a sus propios flujos de trabajo. Es más, Dify ha introducido un estándar abierto de desarrollo de estrategias que anima a los desarrolladores a trabajar juntos para construir un próspero ecosistema de Estrategias de Agentes. En la plataforma de Dify, cualquier desarrollador puede:
- Cree rápidamente plug-ins de políticas personalizados con la herramienta CLI.
- Formularios de configuración y componentes de visualización para políticas personalizadas.
- Integración de algoritmos académicos de vanguardia (por ejemplo, Tree-of-Thoughts) en los nodos de los agentes.
Esto significa que Dify se está convirtiendo en una "plataforma de innovación" para las estrategias de inferencia de IA, en la que cada usuario puede compartir y beneficiarse de los frutos de la co-construcción comunitaria.
Visión general de la funcionalidad del nodo agente
El Panorama Funcional muestra las principales funciones del nodo Agente.

En la siguiente sección, presentaremos el uso específico y los beneficios de los nodos Agente para usuarios generales y desarrolladores, respectivamente.
Para el usuario medio: arrastrar y soltar, razonamiento transparente
1. Arrastrar y soltar para una configuración rápida
La plataforma Dify minimiza la barrera para utilizar los nodos de Agente. Los usuarios pueden arrastrar y soltar nodos Agente directamente en el lienzo de flujo de trabajo desde el panel Herramientas y configurarlos en tres sencillos pasos:
- estrategia de inferencia selectivaSeleccione la estrategia de agente adecuada de la lista de estrategias preconfiguradas o personalizadas.
- Herramientas/modelos de encuadernación: Vincula el nodo Agente a la herramienta o modelo de lenguaje deseado.
- Configurar una plantilla de recordatorioPlantilla: Establece una plantilla de indicaciones claras para guiar el razonamiento y la toma de decisiones del LLM en función de las necesidades de la tarea.

2. Proceso de razonamiento transparente, registro en tiempo real
Una potente característica de la estrategia de agentes de Dify es su mecanismo de registro incorporado. Este mecanismo crea una estructura de árbol del proceso de pensamiento del agente, lo que permite visualizar la ruta de ejecución del agente y facilita la depuración de razonamientos complejos de varios pasos.

Los registros en tiempo real ofrecen al usuario una visión clara:
- Tiempo total / Consumo de fichasComprender el consumo de recursos del nodo Agente.
- proceso de pensamiento multidireccional: Traza las múltiples rondas de pensamiento y pasos de toma de decisiones del LLM.
- Trayectoria de la llamada a la herramientaControla el registro de las llamadas del nodo Agente a herramientas externas.
El proceso de razonamiento transparente y la información de registro en tiempo real mejoran enormemente la capacidad de depuración e interpretación de los nodos del Agente, ayudando a los usuarios a comprender mejor y optimizar sus flujos de trabajo.
Para desarrolladores: desarrollo estandarizado, personalización flexible
Para los desarrolladores, Dify proporciona un kit de desarrollo estandarizado para ayudar a los desarrolladores a construir y personalizar rápidamente Estrategias de Agente. En el corazón de la definición de una Estrategia de Agente está la definición de los siguientes módulos, que definen cómo funciona el modelo de lenguaje:
- Tratamiento de las consultas de los usuarios: Recibe y analiza consultas en lenguaje natural de los usuarios.
- Elegir la herramienta adecuadaElección de la herramienta adecuada en función del contenido de la investigación y de las necesidades de la tarea.
- Utilice la herramienta de aplicación de parámetros adecuada: Llama a la herramienta seleccionada con los parámetros correctos.
- La herramienta de tratamiento devuelve los resultadosAnálisis y tratamiento de los resultados de la ejecución de la herramienta.
- Juzgar el tiempo de realización de las tareasDetermina cuándo se ha completado la tarea y emite la respuesta final.

Una suite de desarrollo estandarizada que contiene una biblioteca de componentes de configuración de políticas (por ejemplo, selector de modelos/editor de herramientas, etc.), interfaces de registro estructuradas y un entorno de pruebas sandbox simplifica el proceso de desarrollo de políticas.
La definición de una política consiste principalmente en la identidad y los metadatos de la política, los parámetros necesarios (por ejemplo, modelos, herramientas, consultas, etc.), los tipos y restricciones de los parámetros y la ubicación del código fuente de implementación de la política.
El proceso de ejecución de un Agente se divide en tres fases principales: inicialización, bucle iterativo y respuesta final.
- fase de inicializaciónEl sistema completa la configuración de los parámetros necesarios, la configuración de las herramientas y la preparación del contexto.
- etapa del ciclo iterativoRespuesta: El sistema prepara un aviso que contiene el contexto actual y utiliza la información de la herramienta para invocar el Modelo de Lenguaje Extenso (LLM). A continuación, el sistema analiza la respuesta del LLM para determinar si se ha invocado una herramienta o si se ha obtenido una respuesta final. Si es necesario llamar a una herramienta, el sistema ejecuta la herramienta adecuada y actualiza el contexto utilizando el resultado de la herramienta. Este bucle continúa hasta que se completa la tarea o se alcanza el número máximo de iteraciones preestablecido.
- fase de respuesta finalEl sistema devuelve la respuesta o resultado final.
La plataforma Dify soporta la definición de políticas de forma declarativa a través de archivos YAML. Por ejemplo, el siguiente código ilustra una política denominada function_calling.yaml
Ejemplo de fichero de configuración para el
parameters:
- name: model
type: model-selector
scope: tool-call&llm
- name: tools
type: array[tools]
- name: max_iterations
type: number
default: 5
extra:
python:
source: function_calling.py
Esta arquitectura declarativa hace que la configuración de políticas sea tan fácil e intuitiva como rellenar un formulario, a la vez que admite:
- Calibración dinámica de parámetrosValidación dinámica de tipos de parámetros, ámbitos y dependencias.
- Creación automática de etiquetas multilingües: Interfaz de configuración para la representación automática de versiones multilingües.
Para obtener información más detallada sobre las definiciones de las políticas, consulte la documentación oficial de Dify: https://docs.dify.ai/plugins/schema-definition/agent
Perspectivas de futuro: iteración continua, posibilidades ilimitadas
La plataforma Dify planea continuar iterando sobre la funcionalidad del nodo Agente en el futuro y añadir más bibliotecas de componentes orientadas al desarrollador, por ejemplo:
- Capacidad de acceso a la base de conocimientos
- Componente de memoria en Chatflow
- Tratamiento de errores y mecanismos de reintento
- Más estrategias de los agentes oficiales

Los usuarios pueden descargar diferentes Estrategias de Agente de la comunidad y cargarlas en diferentes nodos de Agente para resolver diversas tareas complejas según sus necesidades.
Al probar los nodos Agente por primera vez, los usuarios pueden utilizar el Chatflow de tres nodos para obtener una rápida visión general de su funcionamiento y simular las capacidades básicas de un Agente. Al resolver tareas más complejas, pruebe técnicas avanzadas como el enrutamiento y los traspasos, y piense en el nodo Agente como una potente extensión del nodo LLM, que resuelve problemas complejos paso a paso.
Por ejemplo, con los nodos Agente, los usuarios pueden conseguir capacidades de procesamiento de tareas complejas similares a las de OpenAI ChatGPT-4o con Task (imagen inferior del colaborador de la comunidad Pascal).

En la versión 1.0.0 de Dify se lanzará oficialmente un modo de juego más avanzado, ¡y más desarrolladores son bienvenidos a contribuir con su propia Estrategia de Agente para construir juntos un próspero ecosistema Dify!
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...