Die Automatisierung von Arbeitsabläufen erfährt angesichts der sich rasch verändernden KI-Technologie eine neue Welle des Wandels. Lange Zeit haben sich herkömmliche automatisierte Prozesse auf vordefinierte, festgelegte Aktionen verlassen, die bei der Bewältigung komplexer Probleme überfordert sind, so als würde man einen Pianisten mechanisch eine Partitur spielen lassen, ohne dass es ihm an Flexibilität und Kreativität fehlt.
Mit der raschen Verbesserung der Argumentationsfähigkeiten von Large Language Modelling (LLM) ist es jedoch möglich geworden, die Entscheidungsbefugnis für bestimmte Teile des Workflows schrittweise an LLMs zu übergeben. Kürzlich hat die Dify-Plattform offiziell das Plug-in Agent node Strategy type eingeführt, eine innovative Funktion, die den Benutzern eine intelligentere und autonomere Workflow-Automatisierung ermöglichen soll.
Beziehung zwischen Agentenknoten und Strategie: entkoppeltes Design, flexible Upgrades
Dify Arbeitsablauf Die Hauptaufgabe von Agentenknoten in LLMs besteht darin, die Starrheit traditioneller Arbeitsabläufe aufzubrechen, so dass bestimmte Aspekte nicht mehr auf feste Prozesse und Werkzeugmuster beschränkt sind. Stattdessen ermöglichen Agenten-Knotenpunkte den LLMs, an bestimmten Punkten des Prozesses autonome Entscheidungen und Beurteilungen zu treffen und so auf komplexere und dynamischere Aufgabenanforderungen zu reagieren.
Um Flexibilität und Skalierbarkeit von Agentenknoten zu ermöglichen, führt Dify die Agent-Strategie (Die Agentenstrategie ist eine erweiterbare Vorlage, die standardisierte Eingabeinhalte und Ausgabeformate definiert. Durch die Entwicklung spezifischer Agent-Strategie-Konfigurationsschnittstellen ermöglicht es Dify den Benutzern, fortgeschrittene Agent-Strategien wie CoT (Chain of Thought), ToT (Thinking Tree), GoT (Thinking Map) und BoT (Thinking Pillar) und sogar komplexere semantische Kernstrategien anzuwenden.
In der Dify-Plattform beherbergen Agent-Knoten die Agent-Strategie und sind eng mit den vor- und nachgelagerten Knoten des Workflows verbunden. Ähnlich wie LLM-Knoten konzentrieren sich Agent-Knoten auf die Lösung spezifischer Aufgaben und geben die Endergebnisse an nachgelagerte Knoten weiter.
Um die Beziehung zwischen Agentenknoten und Agentenstrategie besser zu verstehen, kann man sie mit dem Motor und dem Steuersystem eines Autos vergleichen:
- Agentenknoten (Ausführungseinheit)Die Funktion eines "Entscheidungszentrums" im Arbeitsablauf, das Ressourcen einplant, den Betriebsstatus verwaltet und den gesamten Argumentationsprozess dokumentiert.
- Agentenstrategie (Entscheidungslogik)Agent Strategy: Als steckbares Modul von Argumentationsalgorithmen definiert Agent Strategy Regeln für den Einsatz von Werkzeugen und Problemlösungsparadigmen.
Dieses subtile Entkopplungsdesign ermöglicht es den Entwicklern, das "Energiesystem" (Agentenstrategie) unabhängig voneinander zu aktualisieren, ohne größere Änderungen an der gesamten Workflow-Architektur vorzunehmen, was die Flexibilität und Wartbarkeit des Systems erheblich verbessert.
Derzeit bietet Dify zwei klassische Agent-Strategie-Policen an, aus denen die Nutzer wählen können:
- ReActDie klassische Denk-, Handlungs- und Beobachtungskette, die die menschlichen Denk- und Handlungsmuster nachahmt.
- Funktion AufrufenFunktionale Präzisionsaufrufe werden unterstützt und ermöglichen präzise Aufrufe externer Tools oder APIs.
Benutzer können diese vordefinierten Strategien direkt vom Dify Marketplace herunterladen und sie schnell auf ihre eigenen Workflows anwenden. Darüber hinaus hat Dify einen offenen Standard für die Entwicklung von Strategien eingeführt, der Entwickler ermutigt, zusammenzuarbeiten, um ein florierendes Ökosystem für Agentenstrategien aufzubauen. Auf der Dify-Plattform kann jeder Entwickler:
- Schnelles Erstellen von benutzerdefinierten Richtlinien-Plug-ins mit dem CLI-Tool.
- Konfigurationsformulare und Visualisierungskomponenten für benutzerdefinierte Richtlinien.
- Integration modernster akademischer Algorithmen wie z. B. des Gedankenbaums in Agentenknoten.
Das bedeutet, dass Dify zu einer "Innovationsplattform" für KI-Inferenzstrategien wird, auf der jeder Nutzer die Möglichkeit hat, an den Früchten der gemeinschaftlichen Ko-Konstruktion teilzuhaben und davon zu profitieren.
Überblick über die Funktionalität von Agentenknoten
Das Funktionspanorama zeigt die Hauptfunktionen des Agentenknotens.
Im nächsten Abschnitt werden wir die spezifische Verwendung und die Vorteile von Agentenknoten für allgemeine Benutzer bzw. Entwickler vorstellen.
Für den durchschnittlichen Benutzer: Drag-and-Drop, transparente Argumentation
1. per Drag-and-Drop für eine schnelle Konfiguration
Die Dify Plattform minimiert die Hürden für die Verwendung von Agent-Knoten. Benutzer können Agent-Knoten per Drag & Drop direkt aus dem Tools-Bedienfeld in den Workflow-Canvas ziehen und sie in drei einfachen Schritten konfigurieren:
- selektive SchlussfolgerungsstrategieWählen Sie die entsprechende Agentenstrategie aus der Liste der vorkonfigurierten oder benutzerdefinierten Strategien aus.
- Verbindliche Werkzeuge/ModelleBinden Sie den Agentenknoten an das gewünschte Werkzeug oder Sprachmodell.
- Einrichten einer Erinnerungsvorlage: Erstellen Sie eine Vorlage mit klaren Aufforderungen, um den LLM bei seiner Argumentation und Entscheidungsfindung entsprechend den Anforderungen der Aufgabe zu unterstützen.
2. transparenter Argumentationsprozess, Echtzeit-Protokollierung
Ein leistungsstarkes Merkmal der Dify-Agentenstrategie ist der integrierte Protokollierungsmechanismus. Dieser Mechanismus erstellt eine Baumstruktur des Denkprozesses des Agenten, die es ermöglicht, den Ausführungspfad des Agenten zu visualisieren und die Fehlersuche bei komplexen mehrstufigen Überlegungen zu erleichtern.
Die Echtzeitprotokolle geben dem Benutzer einen klaren Überblick:
- Gesamtzeit / Token-VerbrauchVerstehen Sie den Ressourcenverbrauch des Agentenknotens.
- vielseitiger DenkprozessVerfolgen Sie die verschiedenen Denk- und Entscheidungsprozesse des LLM.
- Flugbahn des WerkzeugaufrufsÜberwachung der Protokollierung von Aufrufen des Agentenknotens an externe Tools.
Der transparente Argumentationsprozess und die Echtzeit-Protokollinformationen verbessern die Debugging- und Interpretationsmöglichkeiten von Agentenknoten erheblich und helfen den Benutzern, Arbeitsabläufe besser zu verstehen und zu optimieren.
Für Entwickler: Standardisierte Entwicklung, flexible Anpassung
Für Entwickler stellt Dify ein standardisiertes Entwicklungskit zur Verfügung, mit dem sie Agentenstrategien schnell erstellen und anpassen können. Im Mittelpunkt der Definition einer Agentenstrategie steht die Definition der folgenden Module, die festlegen, wie das Sprachmodell funktioniert:
- Bearbeitung von BenutzeranfragenEmpfangen und Analysieren von Anfragen in natürlicher Sprache von Benutzern.
- Die Wahl des richtigen WerkzeugsAuswahl des geeigneten Werkzeugs auf der Grundlage des Inhalts der Untersuchung und der Anforderungen der Aufgabe.
- Verwenden Sie das richtige Werkzeug zur Implementierung der ParameterRuft das ausgewählte Werkzeug mit den richtigen Parametern auf.
- Verarbeitungswerkzeug liefert ErgebnisseParsing und Verarbeitung der Ergebnisse, die bei der Ausführung des Tools zurückgegeben werden.
- Beurteilung des Zeitpunkts der AufgabenerledigungErmitteln Sie, wann die Aufgabe abgeschlossen ist, und geben Sie die endgültige Antwort aus.
Eine standardisierte Entwicklungssuite mit einer Bibliothek von Komponenten zur Richtlinienkonfiguration (z. B. Model Selector / Tool Editor usw.), strukturierten Protokollierungsschnittstellen und einer Sandbox-Testumgebung vereinfacht den Prozess der Richtlinienentwicklung.
Die Definition einer Richtlinie besteht hauptsächlich aus der Identität und den Metadaten der Richtlinie, den erforderlichen Parametern (z. B. Modelle, Werkzeuge, Abfragen usw.), den Typen und Einschränkungen der Parameter und dem Ort des Quellcodes für die Richtlinienimplementierung.
Der Ausführungsprozess eines Agenten ist in drei Hauptphasen unterteilt: Initialisierung, Iterationsschleife und endgültige Antwort.
- InitialisierungsphaseDas System führt die erforderliche Parameterkonfiguration, die Einrichtung der Werkzeuge und die Vorbereitung des Kontextes durch.
- iterative ZyklusphaseDas System bereitet eine Eingabeaufforderung vor, die den aktuellen Kontext enthält, und verwendet die Werkzeuginformationen, um das Large Language Model (LLM) aufzurufen. Das System analysiert dann die Antwort des LLM, um festzustellen, ob ein Tool aufgerufen oder eine endgültige Antwort erhalten wurde. Wenn ein Tool-Aufruf erforderlich ist, führt das System das entsprechende Tool aus und aktualisiert den Kontext anhand der Tool-Ausgabe. Diese Schleife wird so lange fortgesetzt, bis die Aufgabe abgeschlossen ist oder die voreingestellte maximale Anzahl von Iterationen erreicht ist.
- endgültige AntwortphaseDas System gibt die endgültige Antwort oder das Ergebnis zurück.
Die Dify-Plattform unterstützt die deklarative Definition von Richtlinien über YAML-Dateien. Der folgende Code veranschaulicht zum Beispiel eine Richtlinie namens function_calling.yaml
Beispiel für eine Konfigurationsdatei für den
Parameter: Name: Modell
- Name: Modell
Typ: Modell-Selektor
Bereich: Werkzeugaufruf&llm
- Name: Werkzeuge
Typ: Array[Werkzeuge]
- name: max_iterationen
name: max_iterationen
Voreinstellung: 5
name: werkzeuge: array[werkzeuge] name: max_iterations
Quelle: function_calling.py
Quelle: function_calling.py
Diese deklarative Architektur macht die Richtlinienkonfiguration so einfach und intuitiv wie das Ausfüllen eines Formulars und unterstützt gleichzeitig:
- Dynamische Kalibrierung der ParameterDynamische Validierung von Parametertypen, Geltungsbereichen und Abhängigkeiten.
- Automatisches Rendern mehrsprachiger EtikettenKonfiguration: Konfigurationsschnittstelle für die automatische Darstellung von mehrsprachigen Versionen.
Ausführlichere Informationen zu den Begriffsbestimmungen finden Sie in der offiziellen Dify-Dokumentation: https://docs.dify.ai/plugins/schema-definition/agent
Zukunftsaussichten: Kontinuierliche Iteration, unbegrenzte Möglichkeiten
Die Dify-Plattform plant, die Funktionalität der Agentenknoten in Zukunft weiter zu verbessern und beispielsweise weitere Komponentenbibliotheken für Entwickler hinzuzufügen:
- Zugriffsmöglichkeit auf die Wissensdatenbank
- Speicherkomponente in Chatflow
- Fehlerbehandlung und Wiederholungsmechanismen
- Mehr offizielle Agent-Strategien
Die Benutzer können verschiedene Agent-Strategien von der Community herunterladen und in verschiedene Agent-Knoten laden, um verschiedene komplexe Aufgaben nach ihren Bedürfnissen zu lösen.
Wenn Sie Agenten-Knoten zum ersten Mal ausprobieren, können Sie den Chatflow mit drei Knoten verwenden, um einen schnellen Überblick über deren Funktionsweise zu erhalten und die grundlegenden Fähigkeiten eines Agenten zu simulieren. Bei der Lösung komplexerer Aufgaben sollten Sie fortgeschrittene Techniken wie Routing und Übergabe ausprobieren und den Agentenknoten als eine leistungsstarke Erweiterung des LLM-Knotens betrachten, der komplexe Probleme Schritt für Schritt löst.
Mit Agent-Knoten können Benutzer beispielsweise komplexe Aufgaben verarbeiten, ähnlich wie OpenAI ChatGPT-4o mit Task (Bild unten von Community-Mitarbeiter Pascal).
Ein fortschrittlicheres Gameplay wird offiziell in Dify 1.0.0 veröffentlicht werden, und weitere Entwickler sind herzlich eingeladen, ihre eigene Agentenstrategie beizusteuern, um gemeinsam ein erfolgreiches Dify-Ökosystem aufzubauen!