2025년 AI 에이전트 랜딩 전망: 계획, 상호작용, 기억의 세 가지 요소에 대한 분석

AI 뉴스게시됨 6 개월 전 AI 공유 서클
10.2K 00
2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

AI 에이전트는 빠르게 진화하는 AI 기술 분야에서 많은 기대를 모으고 있는 패러다임의 전환점이 되고 있습니다. 선도적인 AI 기술 리뷰 기관인 AI Share는 최근 AI 에이전트의 동향을 심층적으로 분석하고, 독자들이 에이전트의 미래를 더 잘 이해할 수 있도록 랭체인 팀이 발표한 일련의 심층 기사를 참조했습니다.

이 글은 개발자, 제품 관리자, 기업 임원 등 1,300명 이상의 업계 실무자를 대상으로 설문조사를 진행한 랭체인에서 발표한 AI 에이전트 현황 보고서의 핵심 결과를 통합한 것입니다. 조사 결과에 따르면 2024년 AI 에이전트 개발 현황과 병목 현상은 다음과 같습니다. 90%의 기업이 AI 에이전트를 적극적으로 계획하고 적용하고 있지만, 현재 기능의 한계로 인해 특정 프로세스 및 애플리케이션 시나리오에서만 에이전트를 배포할 수 있습니다. 사람들은 비용과 지연 시간 같은 요인보다는 에이전트의 기능과 행동의 관찰 가능성 및 신뢰성을 개선하는 데 더 관심을 갖고 있습니다. 에이전트 행동의 관찰 가능성과 제어 가능성은 비용과 지연 시간보다 더 중요합니다.

또한 이 글은 랭체인 공식 웹사이트의 인더루프 시리즈에서 AI 에이전트의 핵심 요소에 대한 심층 분석을 정리한 것으로, 다음 사항에 중점을 두고 있습니다. 기획, UI/UX 인터랙티브 혁신 및 메모리. 이 세 가지 핵심 요소. 이 백서에서는 대규모 언어 모델(LLM)을 기반으로 다섯 가지 기본 제품 상호 작용 패턴을 심층 분석하고 인간의 복잡한 기억 메커니즘 세 가지를 비유하여 독자들이 AI 에이전트의 본질과 핵심 요소를 이해하는 데 유용한 통찰력을 제공하고자 합니다. 산업 실무에 더 가까이 다가가기 위해 이 백서에는 다음 섹션의 핵심 요소에 대한 분석도 포함되어 있습니다. 반사 AI 창업자와의 인터뷰 및 기타 직접적인 사례를 통해 2025년 AI 에이전트에게 다가올 주요 혁신에 대해 미리 살펴봅니다.

위의 분석 프레임워크를 기반으로 AI Share는 2025년 AI 에이전트 애플리케이션이 폭발적으로 성장하고 점차 인간과 컴퓨터의 협업이라는 새로운 패러다임으로 나아갈 것으로 예상하고 있습니다. AI 에이전트의 기획 능력 측면에서 볼 때, o3 모델로 대표되는 신흥 모델은 강력한 반영 및 추론 능력을 보여주며, 이는 모델 기술의 발전이 Reasoner에서 Agent 단계로 빠르게 진화하고 있음을 나타냅니다. 추론 능력이 지속적으로 향상됨에 따라 AI 에이전트가 실제로 대규모 착륙을 달성 할 수 있는지 여부는 제품 상호 작용 및 메모리 메커니즘의 혁신에 달려 있으며 이는 또한 스타트 업이 차별화와 돌파구를 달성하는 데 중요한 기회가 될 것입니다. 인터랙션 수준에서 업계는 인공지능 시대의 'GUI의 순간'과 유사한 인간과 컴퓨터의 상호작용 혁명을 기대하고 있으며, 메모리 수준에서는 개인 차원의 컨텍스트 개인화든 기업 차원의 컨텍스트 통합이든 컨텍스트가 에이전트 랜딩의 핵심 키워드가 될 것입니다. 컨텍스트(맥락)는 개인 차원의 개인화든 기업 차원의 통합이든 상담원 랜딩의 핵심 키워드가 될 것입니다.

 

01 AI 에이전트 현황: AI 에이전트 개발 현황

상담원 도입 동향: 모든 기업이 적극적으로 상담원 배포를 계획하고 있습니다.

에이전트 분야의 경쟁은 날이 갈수록 뜨거워지고 있습니다. 지난 한 해 동안 많은 인기 있는 에이전트 프레임워크가 등장했습니다. 예를 들어 ReAct 추론과 액션을 위한 LLM, 멀티에이전트 프레임워크를 사용한 작업 오케스트레이션, 그리고 다음과 같은 방법을 결합한 LangGraph 관리하기 쉬운 프레임워크입니다.

에이전트의 인기는 소셜 미디어에서의 화제에서 멈추지 않습니다. 조사에 따르면, 조사 대상 기업 중 약 511개 기업이 이미 프로덕션 환경에서 에이전트를 사용하고 있는 것으로 나타났습니다. 또한 기업 규모별로 데이터를 분석한 결과, 100~2,000명의 직원이 있는 중견 기업이 무려 631개 기업으로 에이전트 프로덕션 배포에 가장 적극적인 것으로 나타났습니다.

또한 응답자의 78%는 가까운 시일 내에 프로덕션 환경에 에이전트를 배포할 계획이 있다고 답했습니다. 이는 산업 전반에 걸쳐 AI 에이전트에 대한 관심이 높다는 것을 분명히 보여줍니다. 프로덕션 지원(프로덕션 환경에서 사용 가능) 에이전트는 여전히 많은 기업이 직면한 과제입니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

흔히 기술 업계가 에이전트 기술의 선구자로 여겨지지만, 모든 산업 분야에서 에이전트에 대한 관심이 빠르게 증가하고 있습니다. 비기술 기업에 근무하는 응답자 중 에이전트를 프로덕션 환경에 도입했거나 도입할 계획이 있는 조직은 901곳으로, 기술 기업(891곳)과 거의 동일한 비율을 차지했습니다.

에이전트 사용 사례

연구 결과에 따르면 가장 일반적인 에이전트는 다음과 같습니다. 사용 사례(애플리케이션 시나리오) 정보 조사 및 콘텐츠 요약(58%), 맞춤형 에이전트를 통한 워크플로우 간소화(53.5%)가 그 뒤를 이었습니다.

이는 사용자가 에이전트 제품이 시간과 노동 집약적인 작업을 도와줄 것으로 기대한다는 사실을 반영합니다. 사용자는 대량의 데이터를 직접 검토하거나 연구 분석을 수행하지 않고도 AI 에이전트를 통해 대량의 정보에서 핵심 정보와 인사이트를 빠르게 추출할 수 있습니다. 마찬가지로 AI 에이전트는 일상적인 업무를 지원하여 개인의 생산성을 높이고 사용자가 업무의 더 중요한 측면에 집중할 수 있도록 도와줍니다.

효율성 향상이 필요한 것은 개인 사용자뿐만 아니라 조직과 팀도 마찬가지입니다. 고객 서비스(45.8%)는 에이전트의 또 다른 주요 활용 분야입니다. 에이전트는 조직이 고객 문의를 처리하고 문제를 해결하며 팀 전체의 고객 응답 시간을 단축하는 데 도움이 됩니다. 네 번째와 다섯 번째로 많이 사용되는 애플리케이션 시나리오는 보다 낮은 수준의 코드 및 데이터 처리입니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

모니터링: 에이전트 애플리케이션은 관찰 및 제어가 가능해야 합니다.

에이전트가 더욱 강력해짐에 따라 에이전트의 행동을 효과적으로 관리하고 모니터링하는 것이 중요해졌습니다. 추적 및 통합 가시성 도구는 기업 사용자의 에이전트 기술 스택에서 필수 옵션이 되어 개발자가 에이전트의 행동과 성능에 대한 인사이트를 얻을 수 있도록 돕고 있습니다. 또한 많은 기업에서 가드레일 를 사용하여 에이전트의 동작이 미리 정의된 경로에서 벗어나지 않도록 합니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

LLM 애플리케이션을 테스트할 때오프라인 평가 (39.8%)보다 더 자주 사용되었습니다. 온라인 평가 (32.5%)를 기록했는데, 이는 LLM을 실시간으로 모니터링하는 데 여전히 많은 어려움이 있음을 반영합니다. LangChain의 개방형 설문조사에 대한 답변에서 많은 기업이 추가적인 보안 계층으로 에이전트 응답 결과를 수동으로 확인하거나 평가할 수 있는 전문가를 배치할 것이라고 답했습니다.

상담원에 대한 열의에도 불구하고 사람들은 일반적으로 상담원 권한 제어에 대해 보수적인 입장을 취하고 있습니다. 상담원이 자유롭게 읽고, 쓰고, 삭제할 수 있도록 허용하는 응답자는 거의 없었습니다. 대신 대부분의 팀은 상담원에게 '읽기 전용' 권한만 부여하거나 상담원이 쓰기나 삭제와 같은 보다 위험한 작업을 수행할 때 수동 승인을 요구합니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

상담원 제어에 중점을 두는 것은 회사 규모에 따라 다릅니다. 직원 수가 2,000명 이상인 대규모 조직은 불필요한 위험을 최소화하기 위해 '읽기 전용' 권한에 크게 의존하는 등 보다 신중한 태도를 취하는 경우가 많습니다. 또한 가드레일 오프라인 평가와 결합하여 고객에게 부정적인 영향을 미칠 수 있는 모든 문제를 방지합니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

반면, 소규모 기업 및 스타트업(직원 수 100명 미만)은 다른 제어 기능보다는 에이전트 애플리케이션이 실제로 어떻게 작동하는지에 대한 인사이트를 얻기 위해 에이전트를 추적하는 데 더 관심이 많습니다. LangChain의 연구에 따르면 소규모 기업은 결과를 이해하기 위해 데이터를 분석하는 경향이 있는 반면, 대규모 조직은 전체적인 제어 시스템을 구축하는 데 집중하는 것으로 나타났습니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

에이전트를 생산에 적용하기 위한 장벽과 과제

LLM이 고품질로 출력되는지 확인 성능 여전히 어려운 과제입니다. 상담원 응답은 매우 정확해야 할 뿐만 아니라 문체도 정확해야 합니다. 이는 에이전트 개발자가 비용이나 보안과 같은 다른 요소보다 두 배 이상 중요하게 생각하는 주요 관심사입니다.

LLM 에이전트는 기본적으로 확률 기반 콘텐츠 출력 모델이므로 그 결과를 예측할 수 없습니다. 이러한 예측 불가능성은 오류 발생 가능성을 높이고 개발 팀이 에이전트가 일관되게 정확하고 상황에 맞는 응답을 제공하도록 보장하기 어렵게 만듭니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

소규모 기업의 경우성능 품질 특히 소규모 기업의 경우 45.81 TP3T가 비용(두 번째로 중요한 관심사)을 22.41 TP3T에 비해 가장 큰 관심사로 꼽아 그 중요성이 두드러졌습니다. 이러한 격차는 조직이 에이전트를 개발 단계에서 생산 단계로 전환하는 데 있어 안정적이고 고품질의 성능이 중요하다는 것을 강조합니다.

보안은 엄격한 규정 준수 요건을 준수하고 고객 데이터를 신중하게 처리해야 하는 대규모 조직에도 매우 중요합니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

품질 문제 외에도 LangChain의 개방형 설문조사에 대한 응답에 따르면 많은 조직이 에이전트 개발 및 테스트에 계속 투자하는 것에 대해 여전히 의구심을 가지고 있는 것으로 나타났습니다. 두 가지 주요 장애물이 공통적으로 언급되었는데, 첫째, 에이전트 개발에는 많은 전문 지식이 필요하고 최첨단 기술을 계속 추적해야 한다는 점, 둘째, 에이전트 개발 및 배포에 드는 시간 비용이 높지만 안정적으로 작동하고 기대하는 이점을 제공할 수 있을지에 대한 불확실성이 여전히 존재한다는 점입니다.

기타 새로운 테마

개방형 질문 세션에서 응답자들은 AI 에이전트가 다음과 같은 기능을 보여준다는 점에서 높은 평가를 내렸습니다:

  • 다단계 작업 관리하기. AI 에이전트는 더 심층적인 추론과 컨텍스트 관리가 가능하여 더 복잡한 작업을 수행할 수 있습니다.
  • 반복적인 작업의 자동화. AI 에이전트는 여전히 자동화된 작업을 처리하는 핵심 도구로 간주되며, 사용자가 보다 창의적인 작업에 집중할 수 있는 시간을 확보할 수 있도록 도와줍니다.
  • 미션 계획 및 협업. 작업 계획 기능이 향상되면 적절한 에이전트가 적시에 적절한 문제를 해결할 수 있으며, 이는 다중 에이전트 시스템에서 특히 중요합니다.
  • 인간과 같은 추론. 기존 LLM과 달리 AI 에이전트는 새로운 정보를 바탕으로 과거의 결정을 검토하고 수정하는 등 의사 결정 과정을 추적할 수 있습니다.

또한 응답자들은 AI 에이전트의 미래에 대한 두 가지 주요 기대치를 확인했습니다:

  • 오픈 소스 AI 에이전트에서 기대할 수 있는 사항. 많은 사람들이 집단 지성을 통해 에이전트 기술의 혁신 속도를 가속화할 수 있다고 믿으며 오픈 소스 AI 에이전트에 많은 관심을 보이고 있습니다.
  • 더 강력한 모델에 대한 기대. 많은 사람들이 더 크고 강력한 모델로 구동되는 AI 에이전트가 더 복잡한 작업을 더 효율적이고 자율적으로 처리할 수 있게 될 다음 단계의 도약을 기대하고 있습니다.

Q&A 세션에서도 많은 응답자가 에이전트 개발의 가장 큰 어려움으로 에이전트의 행동을 이해하는 것을 꼽았습니다. 일부 엔지니어는 에이전트를 회사에 소개할 때 에이전트의 행동을 이해하는 데 어려움을 겪었다고 말했습니다. 이해관계자 AI 에이전트의 기능과 동작을 설명할 때 어려움을 겪게 됩니다. 시각화 플러그인이 에이전트 동작을 설명하는 데 어느 정도 도움이 될 수 있지만, 대부분의 경우 LLM은 여전히 '블랙박스'로 남아 있습니다. 해석 가능성에 대한 추가적인 부담은 여전히 엔지니어링 팀에 있습니다.

02 AI 에이전트의 핵심 요소 분석

인공지능 에이전트 현황 보고서가 발표되기 전, 랭체인 팀은 이미 자체 개발한 랭그래프 프레임워크를 기반으로 에이전트 영역을 탐구했으며, 인더루프 블로그를 통해 인공지능 에이전트의 주요 구성 요소 분석에 대한 여러 기사를 게시했습니다. 이번 글에서는 인 더 루프 시리즈 글의 핵심 내용을 정리하고 에이전트의 핵심 요소에 대해 심도 있게 분석해 보겠습니다.

에이전트의 핵심 요소를 더 잘 이해하려면 먼저 다음과 같은 요소를 더 잘 이해해야 합니다. 에이전트 시스템 정의. 랭체인 창립자 해리슨 체이스는 AI 에이전트에 대해 다음과 같이 정의합니다:

💡

AI 에이전트는 LLM을 사용하여 애플리케이션 제어 흐름 결정을 제어하는 시스템입니다.

AI 에이전트는 LLM을 사용하여 애플리케이션의 제어 흐름을 결정하는 시스템입니다.

에이전트가 구현되는 방식과 관련하여 이 문서에서는 인지 아키텍처 컨셉. 인지 아키텍처 인지 아키텍처는 에이전트가 생각하는 방식과 시스템이 코드 또는 프롬프트를 조율하는 방식으로, 에이전트가 작동하는 방식에 대한 인사이트를 얻는 데 도움이 됩니다:

  • 인지. 에이전트는 의미론적 추론에 LLM을 사용하여 코딩 방법을 결정하거나 LLM을 프롬프트합니다.
  • 아키텍처. 에이전트 시스템에는 여전히 기존 시스템 아키텍처와 유사한 많은 엔지니어링 관행이 수반됩니다.

아래 다이어그램은 다양한 수준의 인지 아키텍처 예시:

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析
  • 표준화된 소프트웨어 코드(코드). 모든 로직은 하드 코드 구현에서는 입력 및 출력 매개변수가 소스 코드에서 직접 구체화됩니다. 이 접근 방식은 다음과 같은 부족으로 인해 인지 아키텍처를 구성하지 않습니다. 인지 Part.
  • LLM 호출. 소량의 데이터 전처리를 제외하고 애플리케이션의 대부분의 기능은 단일 LLM 호출에 의존합니다. 간단한 챗봇이 보통 이 범주에 속합니다.
  • 체인. 체인이 복잡한 문제를 여러 단계로 나누고 이를 하나씩 풀기 위해 다른 LLM을 호출하는 일련의 LLM 호출입니다. 복잡한 RAG (검색 강화 생성) 시스템이 이 범주에 속합니다. 예를 들어 첫 번째 LLM은 검색 및 쿼리를 위해 호출되고 두 번째 LLM은 답변을 생성하기 위해 호출됩니다.
  • 라우터. 이 세 가지 시스템 모두에서 사용자는 프로그램이 수행할 모든 단계에 대한 사전 지식을 가지고 있습니다. 그러나 라우터 아키텍처에서는 LLM이 호출할 LLM과 수행할 단계를 자율적으로 결정할 수 있습니다. 따라서 시스템의 무작위성과 예측 불가능성이 증가합니다.
  • 상태 머신. LLM을 라우터와 결합하면 시스템의 예측 불가능성이 더욱 향상됩니다. 이 조합은 루프를 생성하기 때문에 시스템은 이론적으로 무한히 많은 횟수만큼 LLM을 호출할 수 있습니다.
  • 에이전트 시스템. 흔히 "자율 에이전트(자율 에이전트)" 스테이트 머신을 사용하는 경우에도 시스템이 수행할 수 있는 작업과 그에 따르는 프로세스에는 여전히 제한이 있습니다. 스테이트 머신을 사용할 때는 시스템에서 수행할 수 있는 작업과 작업이 수행된 후의 흐름에 여전히 몇 가지 제한이 있습니다. 그러나 자율 에이전트를 사용하면 이러한 제한이 해제됩니다. LLM은 다양한 프롬프트, 도구 또는 코드를 사용하여 수행해야 할 단계와 다양한 LLM을 프로그래밍하는 방법을 결정할 수 있는 완전한 자율성을 갖습니다.

요컨대, 시스템 "에이전트" 시스템 작동 방식을 결정하는 데 있어 LLM의 역할이 커질수록 시스템 작동 방식을 결정하는 데 있어 LLM의 역할도 커집니다.

에이전트의 핵심 요소: 기획 기능

에이전트 신뢰성은 현재 애플리케이션 사례의 고질적인 문제입니다. 많은 기업이 LLM을 기반으로 에이전트를 구축했지만 에이전트의 계획 및 추론 능력이 부족하다는 피드백을 받고 있습니다. 그렇다면 에이전트의 계획 및 추론 능력은 무엇을 의미할까요?

에이전트 계획 노래로 응답 추론 역량: 어떤 조치를 취해야 하는지에 대해 생각하고 결정을 내릴 수 있는 LLM의 능력을 말합니다. 여기에는 단기 및 장기 추론 . LLM은 사용 가능한 모든 정보를 평가한 다음 최종 목표를 달성하기 위해 어떤 단계를 밟아야 할지를 결정해야 합니다. 현재 가장 중요한 첫 단계는 무엇인가요?

실제로 개발자는 일반적으로 함수 호출 기술을 사용하여 LLM이 수행할 작업을 선택할 수 있도록 합니다. 함수 호출 는 OpenAI가 2023년 6월에 LLM API에 처음 추가한 기능입니다. 함수 호출을 통해 사용자는 다양한 함수에 대한 JSON 구조를 제공하고 LLM이 해당 구조 중 하나(또는 그 이상)와 일치하도록 할 수 있습니다.

복잡한 작업을 성공적으로 완료하려면 일반적으로 에이전트 시스템에서 일련의 작업을 순차적으로 수행해야 합니다. 장기적인 계획과 추론 첫째, LLM은 장기적인 작업 계획을 고려한 다음 현재 수행해야 하는 단기 작업으로 구체화해야 하고, 둘째, 에이전트가 점점 더 많은 작업을 수행함에 따라 작업 결과가 LLM에 지속적으로 피드백되어 컨텍스트 창이 지속적으로 증가하여 LLM이 "주의가 산만해져" 성능이 저하될 수 있습니다. "되어 성능이 저하될 수 있습니다.

기획 능력을 향상시키는 가장 간단한 방법은 LLM이 합리적으로 추론하고 계획하는 데 필요한 모든 정보를 갖출 수 있도록 하는 것입니다. 이는 간단해 보이지만, 실제로는 LLM에게 전달되는 정보가 LLM이 올바른 결정을 내리기에는 불충분한 경우가 많습니다. 검색 단계를 추가하거나 프롬프트를 최적화하는 것만으로도 간단하게 개선할 수 있습니다.

한 단계 더 나아가 애플리케이션의 인지 아키텍처 . 상담원의 추론 능력을 향상시키는 데 사용할 수 있는 인지 아키텍처에는 크게 두 가지 유형이 있습니다: 일반 인지 아키텍처 노래로 응답 도메인별 인지 아키텍처.

1. 일반적인 인지 아키텍처

일반 인지 아키텍처 는 다양한 작업 시나리오에 적용할 수 있습니다. 학계에서는 두 가지 대표적인 일반 아키텍처를 제안했습니다: "계획 및 해결" 아키텍처 노래로 응답 리플렉션 아키텍처.

"계획 및 해결" 아키텍처 계획 및 해결 프롬프트: 대규모 언어 모델에 의한 제로 샷 연쇄 추론 개선이라는 논문에서 처음 제시되었습니다. 이 아키텍처에서는 에이전트가 먼저 세부 계획을 세운 다음 계획의 각 단계를 단계별로 실행합니다.

리플렉션 아키텍처 Reflexion: 언어 강화 학습을 갖춘 언어 에이전트라는 논문에서 소개되었습니다. 이 아키텍처에서는 에이전트가 작업을 수행한 다음 명시적인 "리플렉션." 단계를 통해 작업이 올바르게 수행되는지 평가할 수 있습니다. 이 두 가지 아키텍처에 대한 구체적인 내용은 다루지 않으므로 관심 있는 독자는 위에서 언급한 두 가지 원본 논문을 참조하시기 바랍니다.

'계획 및 해결' 아키텍처와 리플렉션 아키텍처는 이론적으로는 개선의 여지가 있지만, 너무 일반적이어서 에이전트를 실제로 사용하는 데는 유용하지 않은 경우가 많습니다. (번역자 주: 이 백서를 작성할 당시에는 o1 모델 제품군이 아직 출시되지 않았습니다.)

2. 도메인별 인지 아키텍처

일반적인 인지 아키텍처와 달리 많은 에이전트 시스템에서는 도메인별 인지 아키텍처 . 이는 일반적으로 도메인별 분류 또는 계획 단계와 도메인별 검증 단계에 반영됩니다. 일반적인 인지 아키텍처에서 제시된 계획 및 반영 아이디어는 도메인별 인지 아키텍처에서 차용하여 적용할 수 있지만, 일반적으로 보다 도메인에 특화된 방식으로 조정하고 최적화해야 합니다.

AlphaCodium의 논문은 도메인별 인지 아키텍처의 대표적인 예입니다. AlphaCodium 팀은 다음과 같은 방법을 사용하여 이를 수행했습니다. "흐름 엔지니어링." (본질적으로 인지 아키텍처를 설명하는 또 다른 방식)를 개발하여 당시로서는 최첨단 성능을 달성했습니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

위 그림에서 볼 수 있듯이 AlphaCodium 에이전트의 프로세스 설계는 해결하려는 프로그래밍 문제와 매우 관련이 있습니다. 먼저 테스트 케이스를 제안하고, 솔루션을 제안한 다음 더 많은 테스트 케이스를 반복하는 등 단계별로 수행해야 하는 작업을 에이전트에 자세히 알려줍니다. 이러한 인지 아키텍처는 일반적이지 않고 매우 도메인에 특화되어 있으며 다른 도메인에 바로 일반화하기 어렵습니다.

사례 연구: Reflection AI 설립자 라스킨의 에이전트의 미래에 대한 비전

세쿼이아 캐피털이 Reflection AI의 창립자인 미샤 라스킨과 진행한 인터뷰에서 미샤 라스킨은 에이전트의 미래에 대한 비전을 다음과 같이 공유합니다. RL(강화 학습)을 위한 검색 기능 리플렉션 AI는 LLM과 함께 뛰어난 성능을 갖춘 에이전트 모델을 구축하는 데 주력하고 있습니다. 미샤 라스킨과 공동 설립자 이오아니스 안토노글루(AlphaGo, AlphaZero, Gemini RLHF의 책임자)는 특별히 설계된 에이전트 모델 훈련에 집중하고 있습니다. 에이전트 워크플로 디자인 모델링. 인터뷰의 핵심 아이디어는 아래에 제시되어 있습니다:

  • 깊이는 AI 에이전트에서 놓치기 쉬운 핵심 요소입니다. 현재의 언어 모델은 지식의 폭은 뛰어나지만 복잡한 작업을 안정적으로 완수하는 데 필요한 깊이가 부족합니다. 미샤 라스킨은 진정한 능력을 갖춘 AI 에이전트를 만들기 위해서는 '깊이 문제'를 해결하는 것이 중요하다고 주장합니다. "여기서 '역량'이란 복잡한 작업을 여러 단계로 계획하고 실행할 수 있는 에이전트의 능력을 의미합니다.
  • Learn과 검색을 결합하면 초인적인 성능을 발휘할 수 있습니다. 미샤 라스킨은 알파고의 성공을 예로 들며 AI에서 가장 심오한 아이디어는 **학습**(LLM에 의존)과 **검색**(최적 경로 찾기)의 효과적인 조합이라고 강조했습니다. 이 접근 방식은 복잡한 작업에서 인간을 능가하는 에이전트를 만드는 데 매우 중요합니다.
  • 사후 교육 및 보상 모델링은 큰 도전 과제입니다. 명시적인 보상 메커니즘이 있는 게임과 달리 실제 작업에는 일반적으로 명시적인 보상 신호가 없습니다. 신뢰할 수 있는 개발 방법 보상 모델 핵심 과제는 신뢰할 수 있는 AI 에이전트를 만드는 것입니다.
  • 유니버설 에이전트는 우리가 생각하는 것보다 더 가까이 있을 수 있습니다. 미샤 라스킨은 우리가 달성하기까지 불과 3년밖에 남지 않았다고 예측합니다. "디지털 AGI(디지털 일반 인공 지능)." 이 가속화된 타임라인은 보안 및 안정성 문제를 해결하는 동시에 에이전트 기능을 빠르게 개발해야 하는 시급성을 강조합니다. 이 가속화된 타임라인은 보안 및 안정성 문제를 해결하는 동시에 에이전트 기능을 빠르게 개발해야 하는 시급성을 강조합니다.
  • 유니버설 에이전트로 가는 길에는 방법이 필요합니다. Reflection AI는 브라우저, 코드 편집기, 컴퓨터 운영 체제 등 특정 환경부터 시작하여 에이전트의 기능적 경계를 확장하는 데 중점을 둡니다. 궁극적인 목표는 다음을 개발하는 것입니다. 유니버설 에이전트 이를 통해 특정 업무에 국한되지 않고 다양한 영역에서 업무를 수행할 수 있습니다.

UI/UX 인터랙션 혁신

인간-컴퓨터 상호작용(HCI)은 향후 몇 년 동안 AI의 핵심 연구 방향이 될 것입니다. 에이전트 시스템은 기존 컴퓨터 시스템과 매우 다르며 지연 시간, 불안정성, 자연어 인터페이스와 같은 새로운 기능으로 인해 새로운 과제가 제기됩니다. 따라서 새로운 종류의 UI/UX(사용자 인터페이스/사용자 경험) 새로운 패러다임이 등장할 것입니다. 에이전트 시스템은 아직 개발 초기 단계에 있지만 여러 가지 새로운 UX 패러다임이 등장하고 있습니다. 아래에서 각각에 대해 살펴보겠습니다.

1. 대화형 상호작용(채팅 UI)

대화형 상호작용(채팅 UI) 일반적으로 두 가지 주요 유형이 있습니다: 스트리밍 채팅 노래로 응답 비스트리밍 채팅 .

스트리밍 채팅 은 오늘날 가장 일반적인 UX 패러다임입니다. 챗봇은 본질적으로 상담원의 사고 과정과 행동을 파악하여 사람과 유사한 대화 형식으로 단계별로 처리하는 챗봇입니다. 스트림 스타일을 다시 사용자에게 반환합니다. ChatGPT 스트리밍 채팅의 대표적인 방식입니다. 이 대화 모드는 단순해 보이지만 다음과 같은 이유로 매우 효과적입니다. 첫째, 사용자는 자연어를 사용하여 LLM과 직접 대화할 수 있으며 사용자와 LLM 간의 커뮤니케이션 장벽이 거의 없습니다. 둘째, 일반적으로 LLM이 작업을 완료하는 데 시간이 걸리며 스트리밍 처리를 통해 가정에서는 백그라운드 작업의 실행 진행 상황을 실시간으로 알 수 있으며 셋째, LLM은 가끔 실수를 할 수 있으며 채팅 인터페이스는 다음을 제공합니다. 셋째, LLM은 때때로 실수를 할 수 있으며, 채팅 인터페이스는 사용자가 채팅 과정에서 후속 대화와 반복을 통해 요구 사항을 점차 명확히 하고 문제를 해결하는 데 매우 익숙해진 LLM을 자연스럽게 수정하고 안내할 수 있는 친숙한 방법을 제공합니다.

하지만.스트리밍 채팅 몇 가지 제한 사항도 있습니다. 첫째, 스트리밍 채팅은 아직 비교적 새로운 사용자 경험이며, 일반적인 채팅 플랫폼(예: iMessage, Facebook Messenger, Slack 등)에서 아직 일반적으로 채택되지 않았습니다. 둘째, 스트리밍 채팅의 사용자 경험은 런타임이 긴 작업에는 다소 부족하며 사용자는 에이전트가 작업을 완료할 때까지 오랜 시간 동안 채팅 인터페이스에 있어야 할 수 있으며, 셋째, 스트리밍 채팅은 일반적으로 인간 사용자가 트리거해야 하므로 작업을 실행하는 동안 여전히 많은 양의 인간 개입(Human-in-the-tray)이 필요합니다. 셋째, 스트리밍 채팅은 일반적으로 사람 사용자에 의해 트리거되므로 에이전트 실행 과정에서 여전히 많은 사람의 개입(휴먼 인 더 루프)이 필요합니다.

비스트리밍 채팅 스트리밍 채팅과의 가장 큰 차이점은 상담원의 응답이 일괄적으로 반환된다는 것입니다. LLM은 백그라운드에서 조용히 작동하므로 사용자는 상담원의 즉각적인 응답을 초조하게 기다릴 필요가 없습니다. 즉, 비스트리밍 채팅을 기존 워크플로우에 더 쉽게 통합할 수 있습니다. 사용자는 친구에게 문자를 보내는 데 익숙하므로 AI와 '문자 메시지'를 보내면 어떨까요? 비스트리밍 채팅을 사용하면 복잡한 상담원 시스템과 더 자연스럽고 쉽게 상호작용할 수 있습니다. 복잡한 상담원 시스템은 실행하는 데 시간이 오래 걸리는 경우가 많기 때문에 상담원으로부터 즉각적인 응답을 기대하는 사용자는 실망할 수 있습니다. 비스트리밍 채팅을 사용하면 즉각적인 응답에 대한 기대가 사라져 더 복잡한 작업을 더 쉽게 수행할 수 있습니다.

다음 표는 다음과 같이 요약됩니다. 스트리밍 채팅 노래로 응답 비스트리밍 채팅 의 장점과 단점

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

2. 배경 환경(앰비언트 UX)

사용자는 앞서 설명한 대로 AI에 적극적으로 메시지를 보낼 수 있습니다. 채팅 UI(채팅 인터페이스) 하지만 에이전트가 백그라운드에서 조용히 실행되고 있다면 어떻게 에이전트와 상호 작용할 수 있을까요? 하지만 에이전트가 백그라운드에서 조용히 실행되고 있다면 에이전트와 어떻게 상호 작용할 수 있을까요?

에이전트 시스템의 잠재력을 최대한 실현하기 위해서는 HCI 패러다임을 AI가 백엔드 환경(앰비언트 UX) 를 백그라운드에서 실행할 수 있습니다. 작업이 백그라운드에서 처리되면 사용자는 일반적으로 작업 완료 시간이 길어지는 것을 용인할 수 있습니다. 지연 시간 기대치). 이를 통해 상담원은 더 많은 작업을 수행할 수 있는 시간을 확보할 수 있으며, 일반적으로 채팅 UX보다 더 신중하고 효율적으로 더 많은 추론을 할 수 있습니다.

또한 백엔드 환경(앰비언트 UX) 채팅 인터페이스에서 상담원을 실행하면 인간 사용자의 기능을 확장하는 데 도움이 됩니다. 채팅 인터페이스는 일반적으로 사용자가 한 번에 하나의 작업만 할 수 있도록 제한합니다. 하지만 상담원이 백그라운드 환경에서 실행되는 경우에는 여러 상담원이 동시에 여러 작업을 할 수 있도록 지원할 수 있습니다.

에이전트가 백그라운드에서 안정적으로 작동하도록 하려면 에이전트에 대한 사용자의 신뢰를 구축하는 것이 핵심입니다. 이 신뢰를 어떻게 구축할 수 있을까요? 한 가지 간단한 아이디어는 에이전트가 수행하는 작업을 사용자에게 정확히 보여주는 것입니다. 에이전트가 수행하는 모든 단계를 실시간으로 보여주면 사용자는 어떤 일이 일어나고 있는지 관찰할 수 있습니다. 이러한 단계는 응답을 스트리밍하는 것만큼 즉각적이지 않을 수 있지만 사용자가 언제든지 클릭하여 에이전트의 실행 진행 상황을 볼 수 있도록 해야 합니다. 또한 사용자가 에이전트가 수행하는 작업을 볼 수 있도록 하는 것뿐만 아니라 사용자가 에이전트의 오류를 수정할 수 있도록 하는 것도 중요합니다. 예를 들어 사용자가 에이전트가 10단계 중 4단계에서 잘못된 결정을 내린 것을 발견한 경우 사용자는 4단계로 돌아가서 어떤 식으로든 에이전트의 행동을 수정할 수 있는 옵션이 있습니다.

이 접근 방식은 사용자-상담원 상호작용 모델을 결합합니다. '인더루프'에서 '온더루프'로. . "온더루프." 이 모델을 사용하려면 시스템이 에이전트가 수행하는 모든 중간 단계를 사용자에게 보여줄 수 있어야 하며, 사용자가 작업 실행 중에 워크플로를 일시 중지하고 피드백을 제공한 다음 에이전트가 사용자의 피드백에 따라 후속 작업을 계속 수행할 수 있도록 허용해야 합니다.

AI 소프트웨어 엔지니어 Devin 는 UX와 유사한 애플리케이션 구현의 대표적인 예입니다. 데빈의 런타임은 일반적으로 길지만 사용자는 에이전트가 실행하는 모든 단계를 명확하게 확인하고, 특정 시점의 개발 상태로 돌아가 해당 상태에서 수정 지시를 내릴 수 있습니다. 에이전트가 백그라운드에서 실행되고 있다고 해서 완전히 자율적으로 작업을 수행해야 하는 것은 아닙니다. 때로는 에이전트가 다음에 무엇을 해야 할지 모르거나 사용자의 질문에 어떻게 대답해야 할지 모를 수도 있습니다. 이 경우 에이전트는 적극적으로 인간 사용자의 주의를 끌고 인간 사용자에게 도움을 요청해야 합니다.

이메일 지원 상담원 예 앰비언트 UX(배경 환경) LangChain의 또 다른 사용 사례. LangChain의 창립자인 해리슨 체이스는 이메일 보조 에이전트를 구축하고 있습니다. 이 에이전트는 간단한 이메일에 자동으로 응답할 수 있지만, 경우에 따라 해리슨이 자동화에 적합하지 않은 작업(예: 복잡한 LangChain 버그 보고서 검토 등)에 수동으로 참여해야 하는 경우도 있습니다, 복잡한 LangChain 오류 보고서 검토, 회의 참석 여부 결정 등 자동화에 적합하지 않은 작업에 직접 참여해야 하는 경우가 있습니다. 이러한 경우 이메일 지원 에이전트는 작업을 계속 완료하기 위해 사람의 도움이 필요하다는 것을 해리슨에게 효율적으로 전달할 수 있는 방법이 필요합니다. 에이전트는 해리슨에게 직접 답변을 요청하는 대신 해리슨에게 특정 작업에 대한 의견을 요청하고, 에이전트는 그 사람의 피드백을 사용하여 양질의 이메일을 작성하거나 미팅 캘린더 초대를 예약할 수 있습니다.

현재 해리슨은 Slack 워크스페이스에 이 이메일 지원 에이전트를 설정해 두고 있습니다. 에이전트가 사람의 도움이 필요한 경우, 이 에이전트는 해리슨의 Slack에 질문을 보내면 해리슨은 대시보드에서 답변할 수 있으며, 이러한 상호작용은 해리슨의 일상 워크플로와 원활하게 통합되어 있습니다. 이러한 유형의 상호 작용은 해리슨의 일상적인 워크플로와 원활하게 통합됩니다. 대시보드 인터페이스는 어시스턴트에게 사람의 도움이 필요한 모든 작업, 요청의 우선순위 및 기타 관련 데이터를 명확하게 보여줍니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

3. 스프레드시트 UX

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

스프레드시트 UX 매우 직관적이고 사용자 친화적인 상호작용으로, 특히 일괄 처리 작업에 적합합니다. 스프레드시트 인터페이스에서 각 테이블 또는 각 열은 특정 작업을 조사하고 처리하기 위한 별도의 에이전트로 취급할 수 있습니다. 이 일괄 처리 기능을 통해 사용자는 여러 에이전트와의 상호 작용을 쉽게 확장할 수 있습니다.

스프레드시트 UX 다른 장점도 있습니다. 스프레드시트 형식은 대부분의 사용자에게 익숙한 UX이므로 기존 워크플로우에 쉽게 통합할 수 있습니다. 이러한 유형의 UX는 스프레드시트의 각 열이 확장해야 하는 다른 데이터 속성을 나타낼 수 있는 데이터 보강 시나리오에 이상적입니다.

Exa AI, 클레이 AI, 마나플로우 등에서는 스프레드시트 UX 다음은 Manaflow의 예시입니다. 다음은 Manaflow의 예시입니다. 스프레드시트 UX 상담원 상호작용 워크플로우에 어떻게 적용되는지 알아보세요.

사례 연구: Manaflow가 상담원 상호 작용에 스프레드시트를 사용하는 방법

마나플로우의 설립자인 로렌스가 근무하던 회사인 Minion AI에서 영감을 받았습니다. Minion AI의 핵심 제품은 웹 에이전트입니다. 웹 에이전트는 로컬 컴퓨터의 Google 크롬 브라우저를 통해 사용자가 웹 에이전트를 통해 온라인 항공편 예약, 이메일 전송, 세차 예약 등 다양한 웹 애플리케이션과 상호 작용할 수 있도록 합니다. Minion AI에서 영감을 받은 Manaflow는 에이전트가 스프레드시트와 같은 도구를 직접 조작할 수 있도록 했습니다. Manaflow 팀은 에이전트가 인간 UI 인터페이스를 직접 다루는 데는 능숙하지 않으며, 에이전트가 정말 잘할 수 있는 것은 다음과 같다고 믿습니다. 코딩 마나플로는 세계 최초입니다. 따라서 Manaflow를 사용하면 에이전트가 UI 인터페이스에서 직접 Python 스크립트, 데이터베이스 인터페이스 및 API 인터페이스를 호출한 다음 데이터 읽기, 예약, 이메일 전송 등 데이터베이스에서 직접 작업을 수행할 수 있습니다.

Manaflow의 워크플로는 다음과 같습니다: Manaflow의 기본 대화형 인터페이스는 스프레드시트(Man시트)입니다. Man시트의 각 열은 워크플로우의 단계를 나타내며, 각 행은 특정 작업을 수행하는 AI 에이전트에 해당합니다. 각 Man시트 워크플로는 자연어로 프로그래밍할 수 있습니다(비전문 사용자도 자연어로 작업과 단계를 설명할 수 있음). 각 매뉴얼시트에는 각 열의 실행 순서를 결정하는 내부 종속성 그래프가 있습니다. 이러한 실행 순서는 각 행의 에이전트에 할당되어 데이터 변환, API 호출, 콘텐츠 검색 및 메시지 전달과 같은 프로세스를 처리하면서 작업을 병렬로 수행합니다:

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

맨시트는 여러 가지 방법으로 생성할 수 있습니다. 가장 일반적인 방법은 위의 빨간색 상자 안에 있는 것과 같은 자연어 명령을 입력하는 것입니다. 예를 들어 고객에게 가격 정보가 포함된 이메일을 대량으로 발송하려는 경우 채팅 인터페이스에 프롬프트를 입력하면 상담원이 자동으로 매나시트를 생성합니다. 매나시트에는 고객의 이름, 이메일 주소, 업종, 이메일 발송 여부 등 주요 정보가 표시됩니다. 사용자는 '실행하기' 버튼을 클릭하기만 하면 대량 이메일 전송 작업을 수행할 수 있습니다.

4. 생성 UI

"생성형 UI." 크게 두 가지 구현 방식이 있습니다.

첫 번째 방법은 모델이 필요한 데이터를 자율적으로 생성하는 것입니다. UI 구성 요소 . 이는 다음과 유사합니다. 웹심 및 기타 제품. 에이전트는 주로 백그라운드에서 원시 HTML 코드를 작성하여 사용자 인터페이스에 표시되는 내용을 완전히 제어합니다. 그러나 이 접근 방식의 단점은 결과 웹 앱의 품질이 매우 불확실하고 사용자 경험이 가변적일 수 있다는 것입니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

좀 더 제한적인 또 다른 접근 방식은 일반적으로 사용되는 UI 컴포넌트 집합을 미리 정의한 다음 이를 도구 호출 를 사용하여 UI 컴포넌트를 동적으로 렌더링할 수 있습니다. 예를 들어 LLM이 날씨 API를 호출하면 날씨 지도 UI 컴포넌트의 렌더링이 트리거됩니다. 렌더링되는 UI 컴포넌트가 미리 정의되어 있고 사용자에게 더 많은 선택권이 주어지므로 결과 UI는 더 세련되지만 유연성은 다소 제한됩니다.

사례 연구: 개인용 AI 제품 닷

개인용 AI 제품 점 예 제너레이티브 UI 가장 좋은 예가 바로 닷은 2024년 '최고의 개인용 AI 제품'이라는 찬사를 받았습니다.

점 예 신규 컴퓨터 회사의 스타 제품입니다. 닷의 목표는 효율적인 작업 관리 도구가 아니라 사용자의 장기적인 디지털 동반자가 되는 것입니다. New Computer의 공동 창립자인 Jason Yuan은 "어디로 가야 할지, 무엇을 해야 할지, 무엇을 말해야 할지 모를 때 dot을 찾는다"고 말합니다. 다음은 닷의 일반적인 사용 사례 몇 가지입니다:

  • New Computer의 설립자인 Jason Yuan은 "취하고 싶다"는 생각에 종종 닷에게 심야 술집 추천을 요청합니다. 몇 달 동안 심야 술집에서 대화를 나누던 어느 날 제이슨 위안도 닷에게 비슷한 질문을 했고, 닷은 제이슨에게 "이대로는 안 된다"고 말하기 시작했습니다.
  • 패스트컴퍼니의 기자 마크 윌슨도 몇 달 동안 닷과 함께 지냈습니다. 어느 날 그는 캘리그라피 수업에서 자신이 직접 쓴 'O'자를 닷과 공유했습니다. 놀랍게도 닷은 몇 주 전에 마크 윌슨이 손글씨로 쓴 "O"의 사진을 바로 보여주며 그의 캘리그라피 실력이 "크게 향상되었다"고 칭찬했습니다.
  • 사용자가 점점 더 오랜 시간 동안 닷을 사용함에 따라, 닷은 사용자의 관심사와 선호도를 더 깊이 이해할 수 있게 됩니다. 예를 들어, 사용자가 카페 방문을 좋아한다는 사실을 알게 되면 닷은 사용자에게 근처의 좋은 카페를 적극적으로 푸시하고 추천 이유를 자세히 설명하며 마지막에 사용자에게 탐색이 필요한지 묻습니다.
2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

위의 카페 추천 사례에서 닷은 미리 정의된 UI 컴포넌트를 통해 LLM 네이티브를 기반으로 인간과 컴퓨터의 자연스러운 상호작용 효과를 구현합니다.

5. 협업 UX

에이전트와 일반 사용자가 함께 작업할 때 어떤 종류의 인간과 컴퓨터 간 상호 작용 패턴이 나타나나요? Google 문서와 마찬가지로 여러 사용자가 실시간으로 공동 작업하여 동일한 문서를 작성하거나 편집할 수 있습니다. 공동 작업자 중 한 명이 에이전트인 경우에는 어떻게 되나요?

잉크 & 스위치의 제프리 리트 패치워크 프로젝트 인간과 기계의 만남입니다. 협업 UX 패치워크 프로젝트는 OpenAI의 모든 것을 보여주는 좋은 예입니다. (번역자 주: 최근 출시된 OpenAI의 캔버스 제품 업데이트는 패치워크 프로젝트에서 영감을 받은 것으로 보입니다.)

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

협업 UX 앞서 설명한 것과는 대조적으로 앰비언트 UX(배경 환경) 차이점은 무엇일까요? LangChain의 창립 엔지니어인 누노는 이 둘의 주요 차이점은 다음과 같다고 강조합니다. 동시성 ::

  • 존재 협업 UX 이 경우 일반적으로 인간 사용자와 LLM은 동시에 작업하고 서로의 작업 결과물을 입력으로 사용해야 합니다.
  • 존재 앰비언트 UX(배경 환경) 이 경우 LLM이 백그라운드에서 지속적으로 실행되므로 사용자는 다른 작업에 집중할 수 있으며 에이전트의 실행 상태를 실시간으로 확인할 필요가 없습니다.

메모리

메모리 상담원의 사용자 경험을 개선하는 것이 중요합니다. 동료가 자신이 말한 내용을 전혀 기억하지 못하고 같은 내용을 계속 반복해서 물어본다면 끔찍한 협업 경험이 될 것입니다. LLM은 어떤 면에서 인간의 인지와 매우 유사하기 때문에 LLM 시스템이 본질적으로 기억할 수 있을 것으로 기대하는 것이 일반적입니다. 하지만 LLM은 본질적으로 기억 능력이 없습니다.

에이전트 메모리 디자인은 제품 자체의 특정 요구 사항에 맞게 조정되어야 합니다. UX 패러다임에 따라 정보를 수집하고 피드백을 업데이트하는 방법도 다릅니다. 에이전트 제품의 메모리 메커니즘을 보면 인간의 기억 유형을 어느 정도 모방한 다양한 유형의 높은 수준의 메모리 패턴을 관찰할 수 있습니다.

"CoALA: 언어 에이전트를 위한 인지 아키텍처" 논문에서는 인간의 기억 유형을 에이전트의 기억 메커니즘에 매핑하여 아래 그림과 같이 분류하고 있습니다:

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

1. 절차적 메모리

절차적 메모리 다음과 같이 이야기하는 방식입니다. 작업 수행 방법 의 장기기억을 구성하며, 이는 인간의 뇌에 있는 핵심 명령어 집합과 유사합니다.

  • 인간의 절차적 기억. 예를 들어 자전거 타는 법을 기억하세요.
  • 에이전트의 절차적 기억. CoALA 논문에서는 절차적 메모리를 에이전트의 작동 방식을 근본적으로 결정하는 LLM 가중치와 에이전트 코드의 조합으로 설명합니다.

실제로 랭체인 팀은 LLM을 자동으로 업데이트하거나 코드를 재작성하는 에이전트 시스템을 찾지 못했습니다. 그러나 동적으로 업데이트할 수 있는 에이전트 시스템은 존재합니다. 시스템 프롬프트 사례 대상.

2. 시맨틱 메모리

시맨틱 메모리 사실적인 지식을 저장하기 위한 장기적인 지식 저장소입니다.

  • 인간의 시맨틱 메모리. 학교에서 배운 사실, 개념 및 이들 간의 관계와 같은 다양한 정보로 구성됩니다.
  • 상담원을 위한 시맨틱 메모리. CoALA 논문에서는 시맨틱 메모리를 사실적 지식의 저장소로 설명합니다.

실제로 에이전트의 시맨틱 메모리는 보통 에이전트의 대화나 상호작용 프로세스에서 정보를 추출하기 위해 LLM을 사용하여 이루어집니다. 정보가 저장되는 정확한 방식은 일반적으로 특정 애플리케이션에 따라 다릅니다. 그런 다음 후속 대화에서 시스템은 이 저장된 정보를 검색하여 해당 정보를 시스템 프롬프트 를 사용하여 상담원의 응답에 영향을 줄 수 있습니다.

3. 에피소드 메모리

에피소드 메모리 과거의 특정 이벤트를 기억하는 데 사용됩니다.

  • 인간의 상황 기억. 상황 기억은 과거에 경험한 특정 사건(또는 '에피소드')을 회상할 때 사용됩니다.
  • 상담원을 위한 상황 기억. CoALA 논문에서는 상황 기억을 에이전트의 과거 행동을 저장하는 시퀀스로 정의합니다.

시나리오 메모리는 주로 에이전트가 예상대로 작동하는지 확인하는 데 사용됩니다. 실제로 상황 메모리는 일반적으로 몇 장 찍기 프롬프트 메서드를 사용하여 이를 달성할 수 있습니다. 초기 단계에서 시스템을 통과하는 경우 몇 장 찍기 프롬프트 상담원이 작업을 올바르게 완료하도록 안내받은 경우 상담원은 향후 유사한 문제에 직면했을 때 이 작업 방법을 직접 재사용할 수 있습니다. 반대로 에이전트가 올바르게 작동하도록 안내하는 효과적인 방법이 없거나 에이전트가 새로운 작동 방법을 시도해야 하는 경우 시맨틱 메모리 의 중요성이 더욱 커질 것입니다.에피소드 메모리 이러한 시나리오에서의 역할은 상대적으로 제한적입니다.

개발자는 에이전트에서 업데이트해야 하는 메모리 유형을 고려하는 것 외에도 다음 사항을 고려해야 합니다. 상담원의 메모리를 업데이트하는 방법 . 현재 에이전트 메모리를 업데이트하는 방법은 크게 두 가지가 있습니다:

첫 번째 방법은 "핫 경로에서(핫 경로 업데이트)" . 이 모델에서는 에이전트 시스템이 응답을 생성하기 전에 관련 사실 정보를 실시간으로 기억합니다(일반적으로 툴 호출을 통해 이루어짐). ChatGPT는 현재 이 접근 방식을 사용하여 메모리를 업데이트합니다.

두 번째 방법은 "백그라운드에서(백그라운드 업데이트)" . 이 모드에서는 세션이 끝날 때 백그라운드 프로세스가 비동기적으로 실행되어 백그라운드에서 상담원의 메모리를 업데이트합니다.

2025 AI Agent 落地展望:规划、交互、记忆三大要素解析

"핫 경로에서(핫 경로 업데이트)" 이 방법의 단점은 응답이 반환되기 전에 일정량의 지연 시간 . 또한 다음을 통합해야 합니다. 메모리 로직 와 함께 에이전트 로직 긴밀하게 통합됩니다.

"백그라운드에서(백그라운드 업데이트)" 메서드는 위의 문제를 효과적으로 피하고 응답 대기 시간을 늘리지 않으며 메모리 로직 는 비교적 독립적인 상태를 유지할 수 있습니다. 그러나 "백그라운드에서(백그라운드 업데이트)" 또한 메모리가 즉시 업데이트되지 않으며 백그라운드 업데이트 프로세스를 시작할 시기를 결정하기 위해 추가 로직이 필요하다는 단점도 있습니다.

메모리를 업데이트하는 또 다른 접근 방식은 사용자 피드백을 사용하는 것입니다. 에피소드 메모리 특히 관련성이 높습니다. 예를 들어 사용자가 상담원 상호작용에 높은 평점을 준 경우(사후 피드백), 상담원은 해당 피드백을 저장하여 향후 유사한 시나리오에서 요청할 수 있습니다.

위의 내용을 바탕으로 AI Share는 기획 능력, 상호작용 혁신, 기억 메커니즘이라는 세 가지 핵심 요소의 동시 개발과 지속적인 발전이 2025년에 더욱 실용적인 AI 에이전트 애플리케이션을 탄생시키고 인간과 기계가 협업하는 새로운 시대로 우리를 이끌 것이라고 믿습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...