Dify, 에이전트 노드 출시: 워크플로우에 자율적 의사 결정 기능 도입

102.9K 00

워크플로 자동화는 빠르게 변화하는 AI 기술에 직면하여 새로운 변화의 물결을 맞이하고 있습니다. 오랫동안기존의 자동화 프로세스복잡한 문제를 다룰 때 미리 정해진 고정된 동작에 의존하는 것은 피아니스트에게 기계적으로 악보만 연주하라고 요구하는 것과 같아서 유연성과 창의성이 부족합니다.

그러나 대규모 언어 모델링(LLM) 추론 기능이 빠르게 향상됨에 따라 워크플로우의 특정 부분에 대한 의사 결정 권한을 점차적으로 LLM에 넘길 수 있게 되었습니다. 최근 Dify 플랫폼은 사용자에게 보다 스마트하고 자율적인 워크플로 자동화 경험을 제공하기 위해 설계된 혁신적인 기능인 에이전트 노드 전략 유형 플러그인을 공식적으로 출시했습니다.

에이전트 노드와 전략 간의 관계: 분리형 설계, 유연한 업그레이드

Dify 워크플로 LLM에서 에이전트 노드의 핵심 역할은 기존 워크플로우의 경직성을 깨고 특정 측면이 더 이상 고정된 프로세스와 도구 패턴에 국한되지 않도록 하는 것입니다. 대신 에이전트 노드를 사용하면 LLM이 프로세스의 특정 지점에서 자율적으로 결정하고 판단하여 보다 복잡하고 동적인 작업 요구 사항에 대응할 수 있습니다.

에이전트 노드의 유연성과 확장성을 지원하기 위해 Dify에서는 에이전트 전략 (에이전트 전략은 표준화된 입력 콘텐츠와 출력 형식을 정의하는 확장 가능한 템플릿입니다. 특정 에이전트 전략 구성 인터페이스의 개발을 통해 Dify는 사용자가 CoT(생각의 사슬), ToT(생각의 나무), GoT(생각의 지도), BoT(생각의 기둥) 등의 고급 에이전트 전략과 훨씬 더 복잡한 시맨틱 커널 전략을 적용할 수 있게 해줍니다.

Dify 플랫폼에서 에이전트 노드는 에이전트 전략을 호스팅하며 워크플로우의 업스트림 및 다운스트림 노드와 긴밀하게 연결되어 있습니다. LLM 노드와 마찬가지로 에이전트 노드는 특정 작업을 해결하는 데 집중하고 최종 결과를 다운스트림 노드에 제공합니다.

에이전트 노드와 에이전트 전략 간의 관계를 보다 명확하게 이해하기 위해 자동차의 엔진과 제어 시스템에 비유할 수 있습니다:

에이전트 노드(실행 단위)워크플로우에서 '의사 결정 센터' 역할을 하며 리소스를 예약하고 운영 상태를 관리하며 전체 추론 과정을 문서화합니다.
에이전트 전략(의사 결정 로직)에이전트 전략은 추론 알고리즘의 플러그 가능한 모듈로서 도구 사용 규칙과 문제 해결 패러다임을 정의합니다.

이 미묘한 디커플링 설계를 통해 개발자는 전체 워크플로 아키텍처를 크게 변경하지 않고도 '전원 시스템(에이전트 전략)'을 독립적으로 업그레이드할 수 있으므로 시스템의 유연성과 유지 관리성이 크게 향상됩니다.

현재 Dify에는 사용자가 선택할 수 있는 두 가지 기본 상담원 전략 정책이 제공됩니다:

ReAct인간의 사고와 행동 패턴을 모방한 고전적인 '생각-행동-관찰' 추론의 연쇄.
함수 호출함수 정밀도 호출이 지원되어 외부 도구나 API에 대한 정밀한 호출이 가능합니다.

사용자는 Dify 마켓플레이스에서 이러한 사전 정의된 전략을 직접 다운로드하여 자신의 워크플로에 빠르게 적용할 수 있습니다. 또한 Dify는 개발자들이 함께 협력하여 성공적인 에이전트 전략 생태계를 구축하도록 장려하는 개방형 정책 개발 표준을 도입했습니다. Dify 플랫폼에서는 누구나 개발할 수 있습니다:

CLI 도구로 사용자 지정 정책 플러그인을 빠르게 만들 수 있습니다.
사용자 지정 정책을 위한 구성 양식 및 시각화 구성 요소.
트리 오브 씽킹과 같은 최첨단 학술 알고리즘을 에이전트 노드에 통합합니다.

즉, Dify는 모든 사용자가 커뮤니티 공동 구축의 결실을 공유하고 혜택을 누릴 수 있는 AI 추론 전략의 '혁신 플랫폼'이 되고 있습니다.

에이전트 노드 기능 개요

기능 파노라마는 에이전트 노드의 주요 기능을 보여줍니다.

다음 섹션에서는 일반 사용자와 개발자를 위한 에이전트 노드의 구체적인 사용법과 이점에 대해 각각 소개합니다.

일반 사용자를 위한: 드래그 앤 드롭 방식의 투명한 추론

1. 드래그 앤 드롭으로 빠르게 구성하기

Dify 플랫폼은 에이전트 노드 사용에 대한 장벽을 최소화합니다. 사용자는 도구 패널에서 에이전트 노드를 워크플로 캔버스에 직접 드래그 앤 드롭하여 간단한 3단계로 구성할 수 있습니다:

선택적 추론 전략: 사전 구성되거나 사용자 지정한 전략 목록에서 적절한 상담원 전략을 선택합니다.
바인딩 도구/모델에이전트 노드를 원하는 도구 또는 언어 모델에 바인딩합니다.
미리 알림 템플릿 설정하기작업의 필요에 따라 LLM의 추론과 의사 결정을 안내하는 명확한 프롬프트의 템플릿을 설정하세요.

2. 투명한 추론 프로세스, 실시간 로깅

Dify 에이전트 전략의 강력한 기능은 내장된 로깅 메커니즘입니다. 이 메커니즘은 에이전트의 사고 과정에 대한 트리 구조를 생성하여 에이전트의 실행 경로를 시각화하고 복잡한 다단계 추론의 디버깅을 용이하게 합니다.

실시간 로그는 사용자에게 명확한 시각을 제공합니다:

총 시간/토큰 소비량에이전트 노드의 리소스 소비량을 파악합니다.
다각적 사고 프로세스LLM의 여러 단계의 사고와 의사 결정 과정을 추적합니다.
도구 호출 궤적외부 도구에 대한 에이전트 노드 호출 로깅을 모니터링합니다.

투명한 추론 프로세스와 실시간 로그 정보는 에이전트 노드의 디버깅 가능성과 해석 가능성을 크게 향상시켜 사용자가 워크플로를 더 잘 이해하고 최적화할 수 있도록 도와줍니다.

개발자를 위한: 표준화된 개발, 유연한 사용자 지정

개발자를 위해 Dify는 개발자가 신속하게 상담원 전략을 구축하고 사용자 지정할 수 있도록 표준화된 개발 키트를 제공합니다. 상담원 전략 정의의 핵심은 언어 모델의 작동 방식을 지정하는 다음 모듈의 정의입니다:

사용자 쿼리 처리사용자로부터 자연어 쿼리를 수신하고 구문 분석합니다.
올바른 도구 선택하기문의 내용 및 작업의 필요에 따라 적절한 도구를 선택합니다.
올바른 매개변수 구현 도구 사용: 선택한 도구를 올바른 매개변수로 호출합니다.
처리 도구 결과 반환도구 실행에서 반환된 결과를 구문 분석하고 처리합니다.
작업 완료 타이밍 판단하기: 작업이 완료된 시점을 결정하고 최종 답을 출력합니다.

정책 구성 구성 요소 라이브러리(예: 모델 선택기/도구 편집기 등), 구조화된 로깅 인터페이스, 샌드박스 테스트 환경이 포함된 표준화된 개발 제품군을 통해 정책 개발 프로세스를 간소화할 수 있습니다.

정책의 정의는 주로 정책의 ID 및 메타데이터, 필요한 매개변수(예: 모델, 도구, 쿼리 등), 매개변수의 유형 및 제약 조건, 정책 구현 소스 코드의 위치로 구성됩니다.

에이전트의 실행 프로세스는 초기화, 반복 루프, 최종 응답의 세 가지 주요 단계로 나뉩니다.

초기화 단계시스템이 필요한 매개변수 구성, 도구 설정 및 컨텍스트 준비를 완료합니다.
반복 주기 단계시스템이 현재 컨텍스트가 포함된 프롬프트를 준비하고 도구 정보를 사용하여 대규모 언어 모델(LLM)을 호출합니다. 그런 다음 시스템은 LLM의 응답을 구문 분석하여 도구가 호출되었는지 또는 최종 답변을 얻었는지 확인합니다. 도구 호출이 필요한 경우, 시스템은 적절한 도구를 실행하고 도구의 출력을 사용하여 컨텍스트를 업데이트합니다. 이 루프는 작업이 완료되거나 미리 설정된 최대 반복 횟수에 도달할 때까지 계속됩니다.
최종 답변 단계시스템이 최종 답변 또는 결과를 반환합니다.

Dify 플랫폼은 YAML 파일을 통해 선언적으로 정책을 정의할 수 있도록 지원합니다. 예를 들어, 다음 코드는 다음과 같은 이름의 정책을 보여줍니다. function_calling.yaml 에 대한 구성 파일의 예

parameters:
- name: model
type: model-selector
scope: tool-call&llm
- name: tools
type: array[tools]
- name: max_iterations
type: number
default: 5
extra:
python:
source: function_calling.py

이 선언적 아키텍처는 양식을 작성하는 것처럼 쉽고 직관적으로 정책을 구성할 수 있도록 지원하면서 동시에 정책을 지원합니다:

매개변수 동적 보정매개변수 유형, 범위 및 종속성에 대한 동적 유효성 검사.
다국어 레이블 자동 렌더링다국어 버전 자동 렌더링을 위한 구성 인터페이스입니다.

정책 정의에 대한 자세한 내용은 Dify 공식 문서(https://docs.dify.ai/plugins/schema-definition/agent)를 참조하세요.

향후 전망: 지속적인 반복, 무한한 가능성

Dify 플랫폼은 향후 에이전트 노드 기능을 계속 반복하고 개발자 대상 컴포넌트 라이브러리 등을 추가할 계획입니다:

지식창고 액세스 기능
Chatflow의 메모리 구성 요소
오류 처리 및 재시도 메커니즘
더 많은 공식 에이전트 전략

사용자는 커뮤니티에서 다양한 에이전트 전략을 다운로드하여 여러 에이전트 노드에 로드하여 필요에 따라 다양하고 복잡한 작업을 해결할 수 있습니다.

에이전트 노드를 처음 사용해 볼 때는 3노드 채팅 플로우를 사용하여 작동 방식을 간략히 살펴보고 에이전트의 기본 기능을 시뮬레이션해 볼 수 있습니다. 좀 더 복잡한 작업을 해결할 때는 라우팅 및 핸드오프와 같은 고급 기술을 시도하고, 에이전트 노드를 LLM 노드의 강력한 확장으로 생각하여 복잡한 문제를 단계별로 해결해 보세요.

예를 들어, 에이전트 노드를 사용하면 작업(아래 커뮤니티 기여자 파스칼의 이미지)을 사용하여 OpenAI ChatGPT-4o와 유사한 복잡한 작업 처리 기능을 구현할 수 있습니다.

더 발전된 게임플레이는 1.0.0에서 공식적으로 출시될 예정이며, 더 많은 개발자가 자신만의 에이전트 전략을 제공하여 함께 번영하는 Dify 생태계를 구축할 수 있습니다!