감정 RAG: 감정 검색을 통해 향상된 역할 놀이를 위한 인텔리전스

AI 기술 자료9개월 전에 게시 됨 AI 공유 서클
10.1K 00

초록

사람과 유사한 반응을 생성하는 롤플레잉 연구 분야는 대규모 언어 모델(LLM)이 높은 수준의 인간과 유사한 기능을 입증함에 따라 점점 더 주목을 받고 있습니다. 덕분에 사용자와 자연스럽게 대화할 수 있는 챗봇, 개인화된 지원과 안내를 제공할 수 있는 가상 비서 등 다양한 애플리케이션에서 롤플레잉 에이전트를 쉽게 탐색할 수 있게 되었습니다. 롤플레잉 작업의 핵심 요소는 캐릭터의 프로필, 경험, 과거 대화를 저장하는 캐릭터 메모리를 효과적으로 사용하는 것입니다. 롤플레잉 에이전트의 반응 생성을 향상시키기 위해 검색 증강 생성(RAG) 기술을 사용하여 관련 기억에 액세스합니다. 현재 대부분의 연구는 캐릭터의 개인화된 특성을 유지하기 위해 기억의 의미적 유사성을 기반으로 관련 정보를 검색하는 반면, LLM을 롤플레잉 에이전트에서 사용하려는 시도는 거의 없었습니다. RAG 우리는 "감정 의존적 기억" 이론(사람들이 학습 중에 원래의 감정을 다시 활성화하면 사건을 더 잘 기억한다는 이론)에서 영감을 얻은 새로운 감정 인식 기억 이론을 제안합니다. '감정 의존적 기억' 이론(학습 당시의 원래 감정이 회상 시점에 다시 활성화되면 사건을 더 잘 기억한다는 이론)에서 영감을 받아, 새로운 감정 인식 기억 검색 프레임워크인 '감정 RAG(Emotional RAG)'를 제안합니다. "(Emotional RAG)는 롤플레잉 에이전트의 감정 상태를 고려하여 관련 기억을 불러오는 프레임워크입니다. 구체적으로는 기억의 의미와 정서 상태를 검색 과정에서 결합하기 위해 조합 전략과 순서 전략이라는 두 가지 검색 전략을 설계했습니다. 세 가지 대표적인 롤플레잉 데이터 세트에 대한 광범위한 실험을 통해 감정을 고려하지 않은 접근 방식에 비해 감정 RAG 프레임워크가 캐릭터의 개성을 보존하는 데 탁월한 성능을 보인다는 것을 확인했습니다. 이는 심리학의 감정 의존적 기억 이론을 더욱 뒷받침합니다. 코드는 https://github.com/BAI-LAB/EmotionalRAG 에서 공개적으로 사용할 수 있습니다.

중요한 결론:

기억 검색에 감정 상태를 통합하면 성격 일관성이 향상됩니다.
심리학의 감정 의존적 기억 이론을 AI 에이전트에 적용할 수 있습니다.
다양한 검색 전략은 성격 평가 지표에 따라 가장 효과적입니다.
정서적 일관성을 통해 생성된 응답의 인간화 향상

 

감정적 RAG, 롤플레잉 에이전트, 대규모 언어 모델링

Emotional RAG(情感 RAG): 通过情感检索增强角色扮演的智能体

그림 1: 감정 RAG 프레임워크의 일반적인 아키텍처. 쿼리 인코딩 구성 요소, 메모리 인코딩 구성 요소, 감정 검색 구성 요소, 응답 생성 구성 요소의 네 가지 구성 요소로 구성되어 있으며, Emotional RAG에서 검색된 감정 메모리는 역할 프로필 및 쿼리와 함께 LLM으로 전송되어 응답을 생성합니다.

 

교리

인공 지능이 대규모 언어 모델(LLM)에서 계속 발전함에 따라 LLM은 높은 수준의 인간과 유사한 능력을 발휘합니다. 인간의 반응을 모방하는 롤플레잉 에이전트로 LLM을 사용하면 캐릭터의 개인화된 특성을 유지하는 응답을 생성하는 데 강력한 능력을 발휘합니다. 롤플레잉 에이전트는 고객 서비스 에이전트나 여행 가이드 에이전트 등 여러 분야에서 사용되어 왔습니다. 이러한 에이전트는 상업적 응용 분야에서 큰 잠재력을 보여 왔으며 LLM 연구에서 점점 더 많은 관심을 받고 있습니다.

역할의 개인화된 특성과 기능을 유지하기 위해 가장 중요한 요소는 메모리입니다. 롤플레잉 에이전트는 메모리 장치에서 검색을 수행하여 사용자 프로필, 이벤트 경험, 최근 대화 등의 과거 데이터에 액세스하여 롤플레잉 작업에서 LLM에게 풍부한 개인화된 정보를 제공합니다. 검색 증강 생성(RAG) 기술은 관련 메모리에 액세스하여 롤플레잉 에이전트의 응답 생성을 강화하는 데 사용되며, 이를 메모리 RAG라고 합니다.

다양한 메모리 메커니즘이 여러 LLM 애플리케이션에서 사용되어 왔습니다. 예를 들어, 에빙하우스 망각 곡선은 보다 인간과 유사한 기억 체계를 구현할 수 있는 MemoryBank의 개발에 영감을 주었습니다. 또한, 카네만의 이중 프로세스 이론을 기반으로 한 MaLP 프레임워크는 장기기억과 단기기억을 효과적으로 통합하는 혁신적인 이중 프로세스 메모리 향상 메커니즘을 도입했습니다.

 

위에서 설명한 대규모 언어 모델링(LLM) 애플리케이션에서 메모리 사용의 효과는 여러 연구를 통해 입증되었지만, 롤플레잉 에이전트에서 인간과 유사한 반응을 얻는 것은 아직 완전히 탐구되지 않은 연구 분야로 남아 있습니다. 유니티는 심리학의 인지 연구에서 영감을 받아 기억을 회상하는 동안 인간의 인지 과정을 시뮬레이션하는 최초의 시도를 했습니다. 1981년 심리학자 고든 H. 바워가 제안한 감정 의존적 기억 이론을 기반으로 합니다:사람들은 학습 과정에서 경험한 생생한 감정을 어떻게든 회복하고 떠올릴 때 사건을 더 잘 기억합니다.. 그는 감정이 기억과 사고에 미치는 영향을 탐구하기 위해 실험적으로 피험자에게 행복하거나 슬픈 감정을 유도한 결과, 감정이 기억되는 정보의 선택뿐만 아니라 기억을 불러오는 방법도 결정한다는 사실을 발견했습니다. 이는 개인이 현재 감정 상태와 일치하는 정보를 기억할 가능성이 더 높다는 것을 시사합니다.

본 연구에서는 심리학의 감정 의존적 기억 이론을 기반으로 롤플레잉 에이전트의 반응 생성 과정을 개선하기 위한 새로운 감정 인식 기억 검색 프레임워크인 '감정 RAG'를 제안합니다. 감정 RAG에서는 감정 일관성 기준에 따라 기억을 검색하는데, 이는 기억의 의미적 연관성과 감정 상태를 모두 고려하여 기억을 검색하는 과정을 의미합니다. 특히 기억의 의미적 상태와 감정적 상태를 RAG 프로세스에 결합하기 위해 조합 전략과 시퀀스 전략이라는 두 가지 유연한 검색 전략을 설계했습니다. 감성 RAG를 사용함으로써 롤플레잉 에이전트는 보다 인간과 유사한 특성을 나타낼 수 있으며, 이는 대규모 언어 모델의 상호 작용성과 매력을 향상시킵니다. 이 논문이 기여한 바는 다음과 같습니다:

  • 감정 의존적 기억 이론에서 영감을 받아 롤플레잉 에이전트의 기억 회상에 감정 일관성 효과를 도입하여 인간의 인지 과정을 모델링하는 첫 번째 시도를 합니다. 바우어의 감정 기억 이론을 인공지능 개발에 적용했을 때의 효과를 종합적으로 입증하여 심리학의 감정 의존적 기억 이론을 뒷받침하는 증거를 제시합니다.
  • 우리는 롤플레잉 에이전트에서 의미적 관련성과 감정 상태를 기반으로 관련 기억을 불러오는 새로운 감정 인식 기억 검색 프레임워크인 Emotional RAG를 제안합니다. 또한 기억을 검색하는 동안 기억의 의미적 상태와 감정 상태를 융합하기 위한 유연한 검색 전략, 즉 조합 전략과 순차 전략을 제안합니다.
  • 세 가지 대표적인 롤플레잉 데이터 세트인 InCharacter, CharacterEval, Character-LLM을 대상으로 광범위한 실험을 진행한 결과, 감정 RAG 프레임워크가 롤플레잉 에이전트의 성격 특성을 보존하는 데 있어 감정을 고려하지 않는 방법보다 훨씬 뛰어난 성능을 보였음을 확인했습니다.

 

감성 걸레의 일반 아키텍처

이 섹션에서는 먼저 감성 RAG 롤플레잉 프레임워크의 일반적인 아키텍처를 소개한 다음 각 구성 요소에 대해 자세히 설명합니다.

롤플레잉 에이전트의 목표는 대화 생성 시 사람의 반응을 모방하는 것입니다. 에이전트는 LLM(대규모 언어 모델)에 의해 구동되며 대화의 컨텍스트에 따라 응답을 생성할 수 있습니다. 그림에서 볼 수 있듯이 1 위에서 살펴본 바와 같이 에이전트가 쿼리에 응답해야 하는 경우, 저희가 제안한 감성 RAG 역할 수행 에이전트를 위한 프레임워크는 쿼리 인코딩 컴포넌트, 메모리 구성 컴포넌트, 감성 검색 컴포넌트, 응답 생성 컴포넌트의 네 가지 구성 요소로 이루어져 있습니다. 각 구성 요소의 역할은 다음과 같습니다:

  • 쿼리 인코딩 컴포넌트: 이 컴포넌트에서는 쿼리의 의미 및 감성 상태가 벡터로 인코딩됩니다.
  • 메모리 인코딩 구성 요소: 메모리 유닛은 역할의 대화에 대한 정보를 저장합니다. 쿼리 인코딩과 마찬가지로 메모리의 의미 및 정서 상태도 인코딩됩니다.
  • 감정 검색 구성 요소: 인간의 기억 장치에서 리콜을 시뮬레이션한 다음 감정적으로 일치하는 기억을 제공하여 LLM 생성 프로세스를 향상시킵니다.
  • 응답 생성 구성 요소: 쿼리 정보, 역할 프로필, 검색된 감정 기억이 포함된 프롬프트 템플릿이 롤플레잉 에이전트에 입력되어 응답을 생성합니다.

 

쿼리 코딩 컴포넌트

  • 가져오기사용자 쿼리 텍스트
  • 수출쿼리에 대한 시맨틱 벡터 $\textbf{semantic}_q$ 및 감정 벡터 $\textbf{emotion}_q$입니다.
  • 방법론::
    • 쿼리 텍스트는 임베딩 모델(예: bge-base-zh-v1.5)을 사용하여 768차원 시맨틱 벡터로 변환됩니다.
    • GPT-3.5 및 감정 큐 템플릿을 사용하여 쿼리 텍스트를 8차원 감정(8개의 감정 상태 포함)으로 변환합니다.

메모리 코딩 컴포넌트

  • 가져오기모듈의 대화에서 정보를 암기합니다.
  • 수출메모리 조각을 위한 시맨틱 벡터 $\textbf{semantic}_m^k$ 및 이모션 벡터 $\textbf{emotion}_m^k$
  • 방법론::
    • 대화 텍스트는 쿼리 인코딩 구성 요소와 동일한 임베딩 모델을 사용하여 시맨틱 벡터로 변환됩니다.
    • 텍스트는 쿼리 인코딩 구성 요소와 동일한 GPT-3.5 및 감정 큐 템플릿을 사용하여 감정 벡터로 변환됩니다.

 

Emotional RAG(情感 RAG): 通过情感检索增强角色扮演的智能体

그림 2: 대규모 언어 모델에서 감정 채점 프롬프트용 템플릿.

 

중국어로 번역:

### 任务描述
你是一位情感分析大师,能够仔细辨别每位面试官问题中隐含的细微情感。这种情感能够引导参与者回忆起具有类似情感的事件,从而更好地回答问题。
### 评分标准
假设每个问题包含八种基本情感,包括喜悦(joy)、接纳(acceptance)、恐惧(fear)、惊讶(surprise)、悲伤(sadness)、厌恶(disgust)、愤怒(anger)和期待(anticipation)。
接下来我将输入一个问题,你的任务是对这八种情感维度中的每一种进行评分,评分范围为 1 到 10,其中较高的分数表示该问题更强烈地表现了这一情感维度。
### 输出格式
分析面试官问题在这八种情感维度上的表现,给出原因和评分,并以 Python 列表的形式输出,如下所示:
```python
[
{"analysis": <原因>, "dim": "joy", "score": <分数>},
{"analysis": <原因>, "dim": "acceptance", "score": <分数>},
...
{"analysis": <原因>, "dim": "anticipation", "score": <分数>}
]
```
你的回答必须是有效的 Python 列表,以便可以直接在 Python 中解析,无需额外内容!给出的结果需要尽可能准确,并符合大多数人的直觉。

 

감정 검색 구성 요소

  • 가져오기쿼리의 시맨틱 벡터 $\textbf{시맨틱}_q$, 감정 벡터 $\textbf{감정}_q$, 메모리 유닛의 시맨틱 벡터 $\textbf{시맨틱}_m^k$, 감정 벡터 $\textbf{{감정}_m^k$. emotion}_m^k$
  • 수출쿼리와 가장 관련성이 높은 메모리 세그먼트입니다.
  • 방법론::
    • 유클리드 거리를 사용하여 쿼리와 메모리 세그먼트 간의 유사성을 계산합니다.
    • 코사인 거리는 쿼리와 메모리 세그먼트 간의 감성 유사성을 계산하는 데 사용되었습니다.
    • 의미적 유사성과 감성 유사성을 융합하여 최종 유사성 점수를 계산합니다.
    • 검색은 두 가지 검색 전략(결합 전략 및 순차 전략)을 사용하여 수행됩니다.

 

응답 생성 구성 요소

  • 가져오기검색된 메모리 세그먼트, 역할 정보 및 쿼리 정보
  • 수출역할 생성 응답
  • 방법론::
    • LLM(예: ChatGLM, Qwen 또는 GPT) 프롬프트 템플릿을 사용하여 응답을 생성합니다.

 

검색된 메모리를 확보한 후 롤플레잉 에이전트를 위한 대규모 언어 모델(LLM)의 큐 템플릿을 설계했습니다. 큐 템플릿은 그림 3에 나와 있습니다. 쿼리, 역할 정보, 검색된 메모리 조각 및 작업 설명이 LLM으로 전송되는 템플릿에 형식화됩니다.

Emotional RAG(情感 RAG): 通过情感检索增强角色扮演的智能体

그림 3: CharacterEval 데이터 세트의 응답 생성 프롬프트 템플릿 예시.

 

중국어로 번역:

[角色信息] 
--- 
{role_information} 
---

[记忆内容] 
--- 
{memory_fragments} 
---

角色信息包含有关 {role} 的一些基本信息。 
记忆内容是由 {role} 回忆出的与当前问题相关的内容。

现在你是 {role},请模仿 {role} 的语气和说话方式,参考角色信息和记忆内容来回答面试官的问题。 
请不要偏离角色,绝对不要说自己是人工智能助手。

以下是面试官的问题: 
面试官:{question}

 

테스트

감정 기억으로 증강된 대규모 언어 모델의 역할 수행 능력을 평가하기 위해 공개적으로 사용 가능한 세 가지 데이터 세트에 대한 실험을 수행합니다.

 

공개적으로 사용 가능한 세 가지 롤플레잉 데이터 세트인 InCharacter, CharacterEval, Character-LLM을 대상으로 실험을 수행했으며, 그 통계는 표에 요약되어 있습니다. I 가운데.

  • InCharacter 데이터 세트: 이 데이터 세트에는 32개의 문자가 포함되어 있습니다. 이 문자들은 ChatHaruhi [3], RoleLLM [5] 및 C.AI11 https://github.com/kramcat/CharacterAI. 각 캐릭터는 평균 337개의 길이로 구성된 상징적인 장면의 대사가 포함된 메모리 유닛과 연결되어 있습니다.
  • CharacterEval 데이터 세트: 이 데이터 세트에는 77개의 고유 문자와 4,564개의 Q&A 쌍이 포함되어 있습니다. 이 캐릭터들은 잘 알려진 중국 영화와 TV 시리즈에 등장하는 캐릭터로, 대본에서 대화 데이터를 추출했습니다. 가장 인기 있는 캐릭터 31개를 선정했습니다. 각 캐릭터에 대해 모든 질문-답변 쌍을 추출하여 평균 113개의 메모리 단위를 만들었습니다.
  • Character-LLM 데이터 세트: Character-LLM 데이터 세트에는 베토벤, 헤르미온느 등 9개의 유명한 영어 캐릭터가 포함되어 있습니다. 메모리 단위는 장면 기반 대화 완성(GPT에서 수행)에서 가져옵니다. 각 캐릭터에 대해 1,000개의 Q&A 대화가 사용됩니다.

 

지표 평가

저희는 빅파이브 인벤토리(BFI)와 MBTI 평가 테스트를 통해 역할 에이전트의 성격 특성의 정확성을 평가했습니다. 각 평가 지표에 대한 자세한 설명은 아래에 나와 있습니다:

  • 빅 5 인벤토리(BFI): 빅 5 이론은 성격을 개방성, 성실성, 외향성, 동의성, 신경증의 다섯 가지 주요 차원으로 구분하는 널리 사용되는 심리 모델로, 성격을 크게 개방성, 성실성, 외향성, 동의성, 신경증의 세 가지 차원으로 구분합니다. 동의성) 및 정서적 불안정성(신경증).
  • MBTI: 마이어스-브릭스 유형 지표(MBTI) 이론에 기반한 인기 있는 성격 테스트입니다. 사람들의 성격 유형을 16가지 조합으로 분류합니다. 각 유형은 외향(E)과 내향(I), 현실감각(S)과 직관(N), 사고(T)와 느낌(F), 판단(J)과 지각(P)의 네 가지 차원에 해당하는 네 글자로 표시됩니다.

MBTI는 16가지 유형의 분류 작업으로 평가하는 반면, BFI는 5가지 성격 차원에 대한 값을 예측합니다. MBTI와 BFI의 실제 라벨은 성격 투표 웹사이트의 세 가지 데이터 세트에서 수집했습니다. 이 모델에서 역할 에이전트는 MBTI와 BFI를 위해 설계된 개방형 심리 설문지에 답하도록 요청받았습니다. 그 후 수집된 모든 응답을 GPT-3.5로 분석하여 MBTI와 BFI의 평가가 생성되었으며, GPT-3.5의 성격 평가 템플릿은 그림 4에 나와 있습니다.

평가 결과를 바탕으로 역할 프록시의 출력과 실제 레이블을 비교하여 정확도(Acc), 즉 Acc (Dim) 및 Acc (Full), 평균 제곱 오류(MSE) 및 평균 절대 오류(MAE)의 평가 지표 결과를 확인했습니다. Acc (Dim) 및 Acc (Full) 지표는 각각 각 차원 및 성격 유형의 모든 조합에 대한 예측 정확도를 나타냅니다. 각 차원 및 모든 조합에 대한 성격 유형 예측 정확도.MSE와 MAE는 캐릭터의 성격에 대한 예측 레이블과 실제 레이블 간의 오차를 측정합니다. InCharacter 데이터 세트에서는 테스트에 BFI와 MBTI를 사용하지만, CharacterEval 및 Character-LLM 데이터 세트에서는 실제 BFI 레이블을 수집하기 어렵기 때문에 MBTI만 사용합니다.

 

Emotional RAG(情感 RAG): 通过情感检索增强角色扮演的智能体

그림 4: MBTI 평가의 외향성(E) 및 내향성(I) 차원에 대한 프롬프트 템플릿의 예입니다.

 

중국어로 번역:

你是心理测量学方面的专家,尤其是 16 人格测试(与 MBTI 高度相似)。我(<实验者>)正在对某人进行 16 人格测试。我通过一系列开放式问题评估他/她在 E/I 维度上的表现。以下是关于此维度的一些背景信息:

===
E/I 维度:外向(E)与内向(I)

外向(E):外向者从与他人互动中获得能量。他们在社交环境中感到舒适,倾向于表达自己的想法。外向者通常更活跃,寻求社交刺激,并喜欢参与群体活动。对他们而言,与人建立联系、分享和交流想法往往是必要的。他们可能更关注外部世界的刺激,例如声音、色彩和社交动态。

内向(I):内向者在独处时感到更舒适。他们从内省和个人时间中获得能量。与外向者相反,长时间的社交互动可能让他们感到疲惫。内向者可能更加内省,喜欢深度思考,并倾向于建立有意义的人际关系。他们更关注内心世界,例如想法、情感和想象力。
===

我的名字是 <实验者>。我邀请了一位参与者,<参与者>,并且我们用英语进行了许多对话。我将输入这些对话。

请帮助我评估 <参与者> 在 16 人格测试中 E/I 维度上的得分。 
你需要提供每种类型的百分比,总和为 100%,例如:30% A 和 70% B。 
请按以下 JSON 格式输出:

===
```json
{
"analysis": "<基于对话的分析>",
"result": {
"E": "<百分比 1>",
"I": "<百分比 2>"
} 
}
```
(百分比 1 和百分比 2 的总和应为 100%。输出结果需包含百分号。)

 

Emotional RAG(情感 RAG): 通过情感检索增强角色扮演的智能体

 

관련 작업

롤 플레잉 에이전트

롤플레잉 대화 에이전트(RPA)는 대규모 언어 모델을 통해 캐릭터별 대화 행동과 패턴을 시뮬레이션하는 것을 목표로 합니다. 롤플레잉 에이전트는 큰 잠재력을 가지고 있으며 게임, 문학 및 창작 산업 분야를 크게 발전시킬 것으로 기대됩니다 [...].123456] 현재 롤플레잉 에이전트의 구현은 크게 두 가지 접근 방식으로 나눌 수 있습니다. 첫 번째 전략은 큐 엔지니어링과 생성 향상 기술을 통해 빅 언어 모델의 역할 수행 기능을 향상시키는 것입니다. 이 접근 방식은 문맥을 통해 역할별 데이터를 도입하고 최신 빅 언어 모델의 고급 문맥 학습 기능을 활용합니다. 예를 들어 ChatHaruhi [3는 캐릭터의 성격 특성과 언어 스타일을 포착하기 위해 소수의 예시를 통해 학습한 상징적인 장면의 역사적 대화를 사용하는 RAG(검색 증강 생성) 시스템을 개발했습니다. 이와는 대조적으로 RoleLLM [5)는 GPT 모델의 역할 기반 프롬프트를 설계하기 위해 RoleGPT를 도입했습니다.

롤플레잉에 대한 또 다른 접근 방식은 수집된 캐릭터 데이터를 사용하여 빅 언어 모델을 사전 학습하거나 미세 조정하여 특정 롤플레잉 시나리오에 맞게 빅 언어 모델을 커스터마이징하는 것입니다. 에서 [4해리포터 소설에서 추출한 대화 및 캐릭터 데이터를 사용하여 장면의 맥락과 캐릭터 간의 관계에 매우 일치하는 응답을 생성할 수 있는 에이전트를 훈련합니다.Character-LLM [1사용 ChatGPT 시나리오 구축을 위한 대화 데이터 생성 및 메타 프롬프트와 이러한 대화를 사용한 언어 모델 학습. 이 프로젝트는 메모리 업로드 및 보호 메모리 강화와 같은 전략을 구현하여 모델 학습 데이터세트에서 역할 불일치가 발생하는 문제를 완화했습니다.RoleLLM[5은 GPT를 사용하여 스크립트 기반 Q&A 쌍을 생성하고 질문, 답변 및 신뢰도 수준으로 구성된 삼항식으로 표시합니다. 신뢰도 메트릭을 도입하면 생성된 데이터의 품질이 크게 향상됩니다.CharacterGLM [2)는 다중 역할 데이터로 오픈 소스 역할 모델을 학습시켰습니다. 이 접근 방식은 역할별 지식을 모델 매개변수에 직접 포함시킵니다.

롤플레잉 에이전트에 대한 기존 연구에서는 캐릭터 프로필, 관계, 대화와 관련된 속성 등의 요소를 고려하지만, 핵심 요소인 캐릭터의 감정적 요소를 간과하는 경우가 많습니다. 유니티의 감성 RAG 프레임워크는 롤플레잉 에이전트의 대규모 언어 모델을 사전 교육하거나 미세 조정할 필요가 없는 큐 엔지니어링 기법을 기반으로 설계되었습니다.

 

대규모 언어 모델링 적용에서의 메모리 기반 RAG

롤플레잉 지능형 에이전트에서 기억은 캐릭터의 성격 특성을 유지하는 데 중요한 요소입니다. 롤플레잉 지능형 에이전트의 생성 기능을 향상시키기 위해 관련 기억에 액세스하는 데 널리 사용되는 검색 증강 생성(RAG) 기술을 메모리 RAG라고 합니다.35]. 예를 들어, 문헌 [36에서 제안한 대규모 언어 모델(LLM) 기반의 자동 에이전트 아키텍처는 프로파일링 모듈, 메모리 모듈, 플래닝 모듈, 액션 모듈의 네 가지 구성 요소로 이루어져 있습니다. 이 중 메모리 모듈은 지능형 에이전트 아키텍처 설계에서 가장 핵심적인 부분입니다. 이 모듈은 환경으로부터 정보를 수집하고 이렇게 기록된 메모리를 사용하여 향후 작업을 향상시키는 역할을 합니다. 메모리 모듈을 통해 지능형 에이전트는 경험을 축적하고 자율적으로 진화하며 보다 일관되고 합리적이며 효율적인 방식으로 행동할 수 있습니다.14]

대규모 언어 모델을 적용할 때 메모리 설계에 대한 연구는 크게 두 가지 범주로 나눌 수 있습니다. 첫 번째 범주는 모델 추론 중 중간 상태를 메모리 콘텐츠로 캡처하고 저장하는 것입니다. 이러한 메모리는 현재 응답의 생성을 지원하기 위해 필요할 때 검색됩니다. 예를 들어, MemTRM [37는 과거의 키-값 쌍을 유지하고 현재 입력의 쿼리 벡터를 사용하여 가장 가까운 이웃 검색을 수행함으로써 현재 입력과 과거 기억 모두에 하이브리드 주의 메커니즘을 적용합니다. 그러나 MemTRM은 훈련 중에 메모리 노후화라는 문제에 직면합니다. 이 문제를 해결하기 위해 LongMEM [38는 메모리 저장소와 검색 프로세스를 분리합니다. 이 전략은 특히 오픈 소스 모델에 적합하며 메모리 뱅크의 콘텐츠를 효과적으로 통합하려면 적응형 학습이 필요할 수 있습니다. 두 번째 메모리 설계 솔루션은 외부 메모리 뱅크를 통한 메모리 지원을 제공합니다. 외부 메모리 뱅크는 시스템의 정보 관리 및 검색 기능을 향상시키기 위해 다양한 형태를 취할 수 있습니다. 예를 들어, 메모리뱅크 [10은 과거 대화, 이벤트 요약, 사용자 특성을 벡터 라이브러리 형태로 저장합니다. 벡터 유사성 계산을 통해 메모리 검색 프로세스가 크게 가속화되어 관련 과거 경험 및 데이터에 빠르게 액세스할 수 있습니다.AI-town[12는 기억 보존에 자연어 접근 방식을 사용하며, 특정 조건에서 단순한 관찰을 보다 추상적이고 고차원적인 반영으로 변환하는 반영 메커니즘을 도입합니다. 이 시스템은 검색 과정에서 기억 관련성, 시의성, 중요도라는 세 가지 핵심 요소를 고려하여 현재 상호 작용에 가장 관련성이 높고 문맥상 의미 있는 정보를 검색할 수 있도록 합니다.

대규모 언어 모델을 기반으로 하는 롤플레잉 에이전트에서 메모리 유닛은 일반적으로 외부 메모리 뱅크를 통해 캐릭터의 사실성을 향상시키는 두 번째 접근 방식을 취합니다. 예를 들어 ChatHaruhi 시스템에서 롤플레잉 에이전트는 상징적인 장면에서 대화를 검색하여 캐릭터 개발과 상호 작용을 강화합니다. 메모리 RAG 기술에 대한 광범위한 연구에도 불구하고 인간과 더 유사한 반응을 구현하는 방법은 여전히 미개척 분야로 남아 있습니다. 유니티는 심리학의 인지 연구에서 영감을 받아 인간의 인지 과정을 모방하기 위해 기억 회상 과정에 감정적 요소를 통합하여 대규모 언어 모델의 반응을 더욱 감정적으로 공감하고 인간적으로 만드는 첫 번째 시도를 했습니다.

 

평결에 도달하기

이 논문에서는 롤플레잉 에이전트의 성능을 향상시키기 위해 감정적 기억을 도입하는 첫 번째 시도를 합니다. 우리는 롤플레잉 에이전트가 대화에서 보다 감정적이고 인간적인 모습을 보이도록 네 가지 검색 전략을 포함하는 새로운 정서적 RAG 프레임워크를 제안합니다. 다양한 캐릭터에 대한 세 가지 공개 데이터 세트에 대한 광범위한 실험 결과는 캐릭터의 성격 특성을 유지하는 데 있어 우리의 접근 방식이 효과적임을 보여줍니다. 유니티는 롤플레잉 에이전트에 감정을 통합하는 것이 핵심 연구 방향이라고 생각합니다. 이번 연구에서는 직관적인 기억 메커니즘에 기반한 정서적 RAG를 수행했으며, 향후 연구에서는 보다 발전된 기억 구성 및 검색 체계에 정서적 요소를 통합하려고 시도할 예정입니다.

© 저작권 정책

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...