ReAct: 대규모 언어 모델에서 함께 작동하는 추론과 행동

76.9K 00

원본: https://arxiv.org/pdf/2210.03629.pdf

리액트를 읽고도 어떻게 작동하고 적용되는지 이해가 안 되시나요? 그렇다면ReAct 구현 로직 실습'를 실제 사례와 함께 살펴보세요.

초록

대규모 언어 모델(LLM)은 언어 이해와 대화형 의사 결정 작업에서 인상적인 성능을 보여 왔지만, 추론 능력(예: 사고 사슬 단서)과 행동 능력(예: 행동 계획 생성)은 주로 별도의 주제로 연구되어 왔습니다. 이 논문에서는 추론 궤적과 작업별 액션을 인터리브 방식으로 생성하기 위해 LLM을 사용하여 둘 사이의 시너지 효과를 높이는 방법을 살펴봅니다. 추론 궤적은 모델이 실행 계획을 일반화, 추적 및 업데이트하고 예외를 처리하는 데 도움이 되며, 액션은 외부 소스(예: 지식 기반 또는 환경)와 상호 작용하고 추가 정보를 수집할 수 있도록 해줍니다. 제안된 방법 ReAct는 다양한 언어 및 의사 결정 작업에 적용되어 인간의 해석 가능성과 신뢰성을 향상시킬 뿐만 아니라 최첨단 기준에서 그 효과가 입증되었습니다. 특히, 질문 답변(HotpotQA)과 사실 확인(Fever)에서 ReAct는 간단한 Wikipedia API와 상호 작용하여 추론 궤적이 없는 기준선보다 해석하기 쉬운 인간과 유사한 작업 해결 궤적을 생성함으로써 연쇄 추론에 만연한 착각과 오류 전파 문제를 극복합니다. 또한, 두 가지 대화형 의사 결정 벤치마크(ALFWorld 및 WebShop)에서 ReAct는 각각 34%와 10%의 절대 성공률로 모방 및 강화 학습 접근법을 능가하는 성능을 보였으며 한두 개의 문맥적 예시만 필요했습니다.

1 소개

인간 지능의 독특한 특징은 과제 지향적 행동과 언어적 추론을 원활하게 결합하는 능력으로, 이는 인간의 인지에 중요한 역할을 하며 자기 조절이나 전략 수립은 물론 작업 기억 유지에 기여하는 것으로 여겨집니다. 주방에서 요리를 하는 경우를 예로 들면, 두 가지 구체적인 행동 사이에 언어적 추론을 사용하여 진행 상황을 추적하고("이제 다 다졌으니 물 냄비를 데워야겠어"), 이상 징후에 대처하거나 상황에 따라 계획을 조정하고("소금이 없으니 간장과 후추를 사용하자. 대신"), 외부 정보가 필요한 경우("반죽은 어떻게 준비할까요? 인터넷 검색을 해볼게요"). 또한 추론을 뒷받침하고 질문에 답하기 위해 행동(레시피 책을 열어 레시피를 읽고, 냉장고를 열어 재료를 확인)을 취할 수도 있습니다("지금 당장 무엇을 요리할 수 있을까?"). 이런 종류의 '행동'은 우리에게 문제가 되지 않습니다. '행동'과 '추론'의 긴밀한 시너지 덕분에 인간은 새로운 작업을 빠르게 학습하고 이전에 접해보지 못한 환경이나 불확실한 정보에 직면했을 때 강력한 의사 결정이나 추론을 내릴 수 있습니다.

최근의 연구 결과는 자율 시스템에서 언어적 추론과 대화형 의사 결정을 결합할 수 있는 가능성을 암시합니다. 한편으로 적절하게 안내된 대규모 언어 모델(LLM)은 산술, 상식 및 상징적 추론 작업에서 여러 단계의 추론을 수행할 수 있는 능력을 보여주었습니다. 그러나 이러한 '연쇄적 사고' 추론은 모델이 내부 표현을 사용하여 사고를 생성하고 외부 세계에 기반하지 않는 정적 블랙박스로, 반응적으로 추론하거나 지식을 업데이트하는 능력이 제한됩니다. 이는 추론 과정에서 사실 착각과 오류 전파로 이어질 수 있습니다(그림 1(1b)). 반면, 최근의 연구에서는 언어적 선행을 통한 행동 예측에 중점을 두고 대화형 환경에서 계획과 행동을 위해 사전 학습된 언어 모델을 사용하는 방법을 모색하고 있습니다. 이러한 접근 방식은 일반적으로 멀티모달 관찰 내용을 텍스트로 변환하고 언어 모델을 사용하여 도메인별 작업 또는 계획을 생성한 다음 컨트롤러를 사용하여 이를 선택하거나 실행합니다. 그러나 현재 상태에 대한 공간적 사실을 반복하기 위해 제한된 형태의 언어적 추론을 수행한 Huang 등(2022b)을 제외하고는 높은 수준의 목표에 대해 추상적으로 추론하거나 행동을 지원하기 위해 작업 기억을 유지하기 위해 언어 모델을 사용하지는 않습니다. 이처럼 여러 구성 요소와 상호작용하는 단순한 구현 과제 외에도 추론과 행동이 어떻게 시너지 효과를 발휘하여 일반적인 과제를 해결할 수 있는지, 그리고 이러한 조합이 추론이나 행동 단독에 비해 체계적으로 이점을 제공할 수 있는지에 대한 연구는 없었습니다.

그림 1: (1) (a) 표준 프롬프트, (b) 생각의 사슬(CoT, 추론만), (c) 행동만, (d) ReAct(추론 + 행동)의 네 가지 프롬프트 방식을 비교하여 핫팟QA(양 외, 2018) 문제를 풀기 위한 방법. (2) AlfWorld(Shridhar et al., 2020b) 게임을 풀기 위한 (a) 액션 전용과 (b) ReAct 힌트 접근법의 비교. 두 영역 모두 프롬프트에서 맥락적 예시를 생략하고 모델(행동, 사고)과 환경(관찰)에 의해 생성된 문제 해결 궤적만 표시합니다.

이 백서는 다음을 제시합니다._ReAct는 추론과 행동을 언어 모델과 결합하여 다양한 언어적 추론 및 의사 결정 작업을 해결하기 위한 일반화된 패러다임입니다(그림 1). ReAct는 작업 관련 언어 추론 추적과 행동을 교차하는 방식으로 생성하여 모델이 동적 추론을 수행하여 높은 수준의 행동 계획을 생성, 유지 및 조정(추론된 행동)하는 동시에 외부 환경(예: Wikipedia)과 상호 작용하여 다음을 통합할 수 있도록 합니다. 추가 정보를 추론(행동에 의한 추론)에 통합할 수 있습니다.

이 백서에서는 퀴즈, 사실 확인, 텍스트 게임, 웹 탐색 등 네 가지 벤치마크에서 ReAct와 최신 기준선을 경험적으로 평가합니다. HotPotQA와 Fever의 경우, ReAct는 모델이 상호 작용할 수 있는 Wikipedia API에 액세스함으로써 일반적인 액션 생성 모델보다 성능이 뛰어나며, 사고 추론(CoT)과도 경쟁력이 있는 것으로 나타났습니다. 전반적으로 가장 좋은 접근 방식은 추론 과정에서 내부 지식과 외부에서 얻은 정보를 모두 사용할 수 있는 ReAct와 CoT를 결합하는 것입니다. ALFWorld와 WebShop에서는 두 개 또는 하나의 ReAct 프롬프트가 10개의³∼ 10⁵과제 사례에 대해 훈련된 모방 또는 강화 학습 방법은 각각 34%와 10%의 절대적인 성공률 증가를 가져왔습니다. 의사 결정에서 희소하고 일반화된 추론의 중요성은 행동만 취하는 통제된 기준선에 비해 일관된 이점을 보여줌으로써 입증되었습니다. 추론과 행동의 결합은 일반적인 적용 가능성 및 성과 향상 외에도 인간이 모델의 내부 지식과 외부 환경에서 파생된 정보를 쉽게 구별하고 추론 궤적을 조사하여 모델 행동의 의사 결정 기반을 이해할 수 있기 때문에 모든 영역에서 모델의 해석 가능성, 신뢰성 및 진단 가능성에 기여합니다.

주요 기여 사항을 요약하면 다음과 같습니다.

(1) 일반적인 작업을 해결하기 위한 언어 모델링에서 협업적 추론과 행동을 위한 새로운 단서 기반 패러다임인 ReAct를 제안합니다.

(2) 샘플이 적은 학습 환경에서 추론 또는 액션 생성만 사용하는 이전 접근 방식에 비해 ReAct의 장점을 입증하기 위해 다양한 벤치마크에서 광범위한 실험을 수행했습니다.

(3) 추론 과제에서 행동의 중요성과 상호작용 과제에서 추론의 중요성을 이해하기 위해 체계적인 추론과 분석을 제안합니다.

(4) 큐 설정에서 ReAct의 한계(즉, 추론 및 행동에 대한 제한된 지원)를 분석하고 예비 미세 조정 실험을 수행하여 추가 훈련 데이터로 ReAct를 개선할 수 있는 잠재력을 보여줍니다. 추가 작업을 훈련하고 조작하도록 ReAct를 확장하고 강화 학습과 같은 상호 보완적인 패러다임과 결합하면 대규모 언어 모델의 잠재력을 더욱 발휘할 수 있습니다.

2 REACT: 협업적 추론 + 행동

작업을 해결하기 위해 환경과 상호 작용하는 지능형 객체의 일반적인 설정을 생각해 보세요. 시간 단계t켜짐, 에이전트가 환경으로부터 관찰을 수신합니다.o_t∈ O, 그리고 어떤 전략에 따르면π(a_t|c_t) 작업을 수행합니다.a_t∈ A, 여기서c_t= (o₁,a₁,--- ,o_t_-1,a_t_-1,o_t)는 상담원의 컨텍스트입니다. 매핑할 때c_t→7 a_t학습 전략이 매우 암시적이고 많은 양의 계산이 필요한 경우 학습 전략이 어려울 수 있습니다. 예를 들어 그림 1(1c)에 표시된 에이전트는 궤적 컨텍스트(질문, 행위 1-3, 관찰 1-3)에 대한 복잡한 추론이 필요하기 때문에 QA 작업을 완료하기 위한 올바른 최종 작업(행위 4)을 생성하지 못합니다. 마찬가지로 그림 1 (2a)에 표시된 에이전트는 싱크대 1에 후추통 1이 포함되어 있지 않다는 문맥을 이해하지 못하여 환각 행동을 계속 생성합니다.

ReAct의 개념은 간단합니다. 지능형 신체의 행동 공간을 Aˆ = A ∪ L로 확장하고, 여기서 L은 언어 공간입니다. 언어 공간에서의 동작aˆ_t∈ L은 생각 또는 추론의 흔적이라고 할 수 있으며, 외부 환경에 영향을 주지 않으므로 관찰 피드백으로 이어지지 않습니다. 이와는 대조적으로, 생각aˆ_t현재 컨텍스트를 추론하여 유용한 정보를 구성하는 것을 목표로 합니다.c_t를 클릭하고 컨텍스트를 업데이트합니다.c_t₊₁= (c_t,aˆ_t) 미래의 추론이나 행동을 지원하기 위한 것입니다. 그림 1에서 볼 수 있듯이 작업 목표를 세분화하고 실행 계획을 세우는 것(2b, 행위 1, 1d, 생각 1), 작업 해결과 관련된 상식적인 지식을 주입하는 것(2b, 생각 1), 관찰에서 중요한 부분을 추출하는 것(1d, 생각 2,4), 진행 상황을 추적하고 실행 계획을 옮기는 것(2b, 생각 8), 예외를 처리하고 실행 계획을 조정하는 것( 1d, 생각 3) 등입니다.

그러나 언어 공간 L은 무한하기 때문에 이 증강 액션 공간에서의 학습은 어렵고 강력한 언어적 선행이 필요합니다. 이 백서에서는 이러한 환경에서 고정된 대규모 언어 모델 PaLM-540B(Chowdhery et al., 2022)에 초점을 맞춥니다.^[1]샘플 수가 적은 맥락적 예시는 과제 해결을 위한 도메인별 행동과 자유 형식의 언어적 사고를 생성하기 위해 큐로 사용되었습니다(그림 1 (1d), (2b)). 각 맥락의 예는 과제 인스턴스를 해결하는 데 사용되는 인간의 행동, 생각, 환경 관찰의 궤적입니다(부록 C 참조). 추론이 가장 중요한 과제(그림 1(1))의 경우 생각과 행동을 번갈아 가며 생성하여 과제 해결 궤적이 여러 생각-행동-관찰 단계로 구성되도록 합니다. 반면, 다수의 행동을 수반할 수 있는 의사 결정 과제(그림 1(2)의 경우, 생각은 궤적의 가장 관련성이 높은 위치에만 드문드문 나타나면 되므로 언어 모델이 생각과 행동의 비동기적 발생을 스스로 결정하도록 합니다.

의사 결정 및 추론 기능이 대규모 언어 모델에 통합되어 있기 때문에 ReAct에는 몇 가지 고유한 기능이 있습니다.

A) 직관적이고 쉬운 디자인:인간 주석자는 행동 위에 자신의 생각을 말로 표현하기만 하면 되기 때문에 ReAct 프롬프트를 쉽게 디자인할 수 있습니다. 이 문서에서는 특정 형식 선택, 소리 내어 생각하기 디자인 또는 샘플 선택을 사용하지 않습니다. 각 작업에 대한 프롬프트 디자인은 섹션 3과 4에서 자세히 설명합니다.

B) 범용성과 유연성:유연한 사고 공간과 사고-행동-생성 형식으로 인해 ReAct는 QA, 사실 확인, 텍스트 게임, 웹 탐색 등 다양한 작업 공간과 추론이 필요한 다양한 작업에 적합하며, 이에 국한되지 않습니다.

C) 강력하고 견고한 성능:ReAct는 1~6개의 문맥적 예시에서 학습할 때 강력한 일반화를 보여주며, 여러 영역에서 추론이나 행동만 하는 기준선을 일관되게 뛰어넘습니다. 또한 섹션 3에서 미세 조정을 활성화할 때의 추가적인 이점과 섹션 4에서 선택 큐에 대한 ReAct 성능의 견고함을 보여줍니다.

D) 인간과 일치하고 제어할 수 있습니다:리액트는 인간이 추론과 사실의 정확성을 쉽게 확인할 수 있는 해석 가능한 순차적 의사 결정 및 추론 프로세스를 약속합니다. 또한 섹션 4의 그림 5에서 볼 수 있듯이, 인간은 편집에 대한 사고를 통해 지능적인 신체 행동을 제어하거나 수정할 수도 있습니다.

3가지 지식 집약적 추론 작업

멀티홉 퀴즈와 사실 확인과 같은 지식 집약적인 추론 작업부터 시작합니다. 그림 1 (1d)에서 볼 수 있듯이, Wikipedia API와 상호 작용하여 추론을 지원하는 정보를 검색하고 추론을 사용하여 다음에 검색할 내용을 결정함으로써 추론과 행동의 시너지를 보여줄 수 있는 ReAct가 있습니다.

3.1 설정

도메인 지식 검색 및 추론에 어려움을 주는 두 가지 데이터 세트, 즉 (1) 두 개 이상의 Wikipedia 문서에 대한 추론이 필요한 멀티홉 질문-답변 벤치마크인 HotPotQA와 (2) 각 진술에 SUPPORTS, REFUTES 또는 NOT 충분한 정보로 표시되는 사실 확인 벤치마크로, 해당 진술을 검증할 수 있는 위키백과 문서가 존재하는지 여부에 따라 다릅니다. 이 작업에서는 두 작업 모두에서 문제 전용 설정을 사용하여 모델이 문제/문장만 입력으로 받고 뒷받침하는 구절에 액세스할 수 없으며 추론을 지원하기 위해 내부 지식에 의존하거나 외부 환경과 상호 작용하여 지식을 검색해야 합니다.

액션 스페이스 저희는 대화형 정보 검색을 지원하기 위해 세 가지 유형의 연산을 포함하는 간단한 Wikipedia 웹 API를 설계했습니다:

(1) STH를 찾습니다. [엔티티]는 해당 엔티티 위키 페이지가 있는 경우 해당 위키 페이지에서 처음 5개의 문장을 반환하고, 그렇지 않은 경우 위키백과 검색 엔진에서 처음 5개의 유사한 엔티티를 제안합니다.

(2) 찾기 [문자열]을 입력하면 해당 문자열이 포함된 페이지의 다음 문장을 반환하여 브라우저에서 Ctrl+F 함수를 시뮬레이션합니다.

(3) 이행 [답]을 입력해 현재 작업을 완료하세요. 액션 스페이스는 대부분 정확한 단락 이름을 기준으로 단락의 일부만 검색할 수 있어 최첨단 어휘 검색기나 신경망 검색기보다 훨씬 약합니다. 목표는 인간이 Wikipedia와 상호 작용하는 방식을 시뮬레이션하고 모델이 언어의 명시적 추론을 통해 검색하도록 하는 것입니다.

3.2 방법론

리액트 프롬프트 핫팟QA와 피버에 적용한 결과, 훈련 세트에서 무작위로 6개와 3개의 사례를 선택하고 프롬프트에서 언더샘플링된 샘플로 사용할 ReAct 형식의 궤적을 수동으로 작성했습니다. 그림 1 (d)와 마찬가지로 각 궤적은 다양한 목적으로 자유 형식의 생각을 사용하는 여러 생각-행동-관찰 단계(즉, 밀도 있는 사고)로 구성됩니다. 구체적으로, 우리는 생각의 조합을 사용하여 문제를 분해하고("x를 검색하고, y를 찾은 다음 z를 찾아야 한다"), Wikipedia 관찰에서 정보를 추출하고("x는 1844년에 시작되었다", "구절은 x에게 x에게 알려줘"), 상식("x는 y가 아니므로 z는 ......")을 수행하거나 또는 산술적 추론("1844 < 1989"), 검색 재구성 지시(""아마도 x를 검색/찾을 수 있을 것 같습니다"), 최종 답변 종합(" "...... 그래서 답은 x입니다"). 자세한 내용은 부록 C를 참조하세요.

기준선 우리는 체계적으로 ReAct 궤적을 제거하여 여러 기준선 단서를 구성했습니다(그림 1 (1a-1c) 형식).

(a)표준 프롬프트/표준 프롬프트(표준)으로 설정하여 모든 생각, 행동, 관찰을 ReAct 궤적에서 제거합니다.

(b)생각의 연쇄 프롬프트 / 생각의 연쇄 프롬프트(CoT)는 행동과 관찰을 배제하고 추론의 기준선으로만 사용됩니다. 추론 중에 21개의 CoT 디코딩 온도 0.7의 궤적을 샘플링하고 대부분의 답변을 사용하여 자체 일관된 기준선(CoT-SC)을 설정했으며, 이 기준선은 CoT보다 일관되게 성능이 향상되는 것으로 나타났습니다.

(c)행동 전용 프롬프트(Act) 궤적에서 아이디어를 제거하는 것은 WebGPT가 인터넷과 상호작용하여 질문에 답하는 방식과 거의 유사하지만, 다른 작업 및 행동 공간에서 작동하고 프롬프트 대신 모방 및 강화 학습을 사용한다는 점이 다릅니다.

내부 및 외부 지식 결합하기 / 내부 및 외부 지식 결합하기 3.3절에서 자세히 설명하겠지만, 다음과 같이 관찰됩니다.ReAct는 보다 사실적이고 근거에 기반한 문제 해결 과정을 보여준 반면, CoT는 추론 구조를 공식화하는 데 더 정확했지만 환각에 빠지기 쉬웠습니다.따라서 ReAct와 CoT-SC를 병합하고 다음 휴리스틱에 따라 모델이 다른 방법으로 전환할 시점을 결정하도록 제안합니다.

a) ReAct→CoT-SC주어진 단계 수 내에 ReAct가 답을 반환하지 못하면 CoT-SC로 폴백합니다. 단계가 많을수록 ReAct 성능이 향상되지 않는다는 것을 발견했기 때문에 HotpotQA와 FEVER에 각각 7단계와 5단계를 설정했습니다.

b) CoT-SC→ReAct:: 언제nCoT-SC 샘플의 대부분의 답은 다음보다 적게 나타납니다.n/2번의 경우(즉, 내부 지식이 작업을 확실하게 지원하지 못할 수 있는 경우) ReAct로 돌아갑니다.

미세 조정/미세 조정 추론 궤적과 행동을 대규모로 수동으로 라벨링하는 데 따르는 어려움 때문에, 이 백서에서는 ReAct(다른 기준선에서도 사용됨)에서 생성된 정답이 있는 3000개의 궤적을 사용하여 더 작은 언어 모델(PaLM-8/62B)을 미세 조정하여 입력 질문/문장(모든 것)에 조건화된 궤적을 디코딩하는 Zelikman 외(2022)의 접근 방식과 유사한 자가 지원 방식을 고려합니다. 생각, 행동, 관찰). 자세한 내용은 부록 B.1을 참조하세요.

3.3 결과 및 관찰

ReAct가 전반적으로 Act를 능가하는 성능/ ReAct가 지속적으로 Act를 능가하는 성능 표 1은 PaLM-540B를 기본 모델로 사용하고 다양한 큐잉 방법을 사용한 HotpotQA와 Fever의 결과를 보여줍니다. 그림 1(1c-d)에서 볼 수 있듯이 두 작업 모두에서 ReAct가 Act보다 성능이 뛰어나며, 특히 최종 답변을 종합할 때 추론이 행동을 유도하는 데 있어 그 가치를 입증합니다. 미세 조정 결과 3에서도 추론 추적을 통해 더 많은 정보를 바탕으로 조치를 취할 수 있다는 이점을 확인할 수 있습니다.

표 1: HotpotQA 및 Fever에 대한 PaLM-540B 큐잉 결과.

ReAct vs. CoT 반면, ReAct는 발열에 대한 CoT(60.9 대 56.3)를 능가하고 핫팟QA에 대한 CoT(27.4 대 29.4)보다 약간 뒤처지는 것으로 나타났습니다. 찬성/반박 열성 발언의 경우 약간의 차이만 있을 수 있으므로(부록 D.1 참조) 정확한 최신 지식을 얻기 위한 조치를 취하는 것이 중요합니다. HotpotQA에서 ReAct와 CoT의 행동 차이를 더 잘 이해하기 위해, 저희는 각각 50개의 궤적에서 정답과 오답(EM 판단)을 무작위로 샘플링하고(총 200개의 예시), 표 2에서 성공 및 실패 패턴에 수동으로 태그를 붙였습니다. 다음은 몇 가지 주요 관찰 결과입니다.

표 2: 인간 연구에서 무작위로 선택한 사례에서 HotpotQA의 ReAct 및 CoT의 성공 및 실패 모드의 유형과 그 비율.

A) 환각은 CoT에게 심각한 문제입니다.는 성공 모드에서 ReAct보다 훨씬 높은 오경보율(14% 대 6%)을 보이며, 주요 실패 모드(56%)를 구성합니다. 반면, ReAct의 문제 해결 궤적은 외부 지식 기반에 액세스할 수 있기 때문에 더 관련성이 높고 사실에 기반하며 신뢰할 수 있습니다.

나) 추론, 행동, 관찰 단계가 서로 맞물려 있어 ReAct의 실용성과 신뢰성을 높이는 반면, 이러한 구조적 제약은 추론 단계를 공식화할 때 유연성을 떨어뜨립니다.ReAct에는 모델이 이전 생각과 행동을 재생성하는 특정 빈번한 오류 패턴이 있는데, 이는 모델이 다음 행동에 대해 적절하게 추론하지 못하고 루프에서 벗어나기 때문에 '추론 오류'의 일부로 분류합니다.

C) ReAct의 경우 검색을 통한 정보 지식의 성공적인 검색이 매우 중요합니다.비정보성 검색은 오류 사례의 23%를 차지하여 모델 추론을 방해하고 아이디어를 복구하고 재구성하는 것을 어렵게 만들었습니다. 이는 사실성과 유연성 사이에서 예상되는 상충 관계일 수 있으며, 이에 따라 두 가지 접근 방식을 결합하는 전략을 제안하게 되었습니다.

부록 E.1에 각 성공 및 실패 모드에 대한 예시가 나와 있습니다. 또한 일부 HotpotQA 질문에는 오래된 답변 레이블이 포함되어 있을 수 있음을 발견했습니다(예는 그림 4를 참조하세요).

ReAct + CoT-SC는 LLM을 유도하는 데 있어 가장 우수한 성능을 보였습니다.표 1에서 볼 수 있듯이 HotpotQA와 Fever에서 가장 우수한 큐잉 방법은 각각 ReAct → CoT-SC와 CoT-SC → ReAct였습니다. 또한 그림 2는 다양한 수의 CoT-SC 샘플을 사용할 때 다른 방법의 성능을 보여줍니다. 두 가지 ReAct + CoT-SC 방법은 각각의 작업에서 장점이 있지만, 다양한 샘플 수에 걸쳐 3~5개의 샘플만 사용해도 CoT-SC보다 유의미하고 일관되게 우수한 성능을 보였으며, 이는 모델 내부 지식과 추론 작업 외부 지식을 적절히 결합하는 것이 얼마나 중요한지 보여주는 결과입니다.

그림 2: 사용된 CoT-SC 샘플 수에 따라 표시되는 PaLM-540B 프롬프트 결과.

ReAct는 미세 조정 측면에서 최적의 성능을 발휘합니다.그림 3은 네 가지 방법(표준, CoT, Act, ReAct)에 대한 큐잉/미세 조정의 확장된 효과가 HotpotQA에 미치는 영향을 보여줍니다. PaLM-8/62B에서는 시나리오에서 추론하고 행동하는 학습의 어려움으로 인해 ReAct에 대한 프롬프트가 네 가지 방법 중 가장 낮은 성능을 보였습니다. 그러나 3,000개의 예제만으로 미세 조정했을 때 ReAct는 네 가지 방법 중 가장 우수한 성능을 보였으며, PaLM-8B로 미세 조정된 ReAct는 모든 PaLM-62B 프롬프트 방법보다, PaLM-62B로 미세 조정된 ReAct는 모든 540B 프롬프트 방법보다 우수한 성능을 보였습니다. 반면, PaLM8/62B에서 전자는 주로 모델에 (가상의) 지식 사실을 암기하도록 가르치고, 후자는 모델에 보다 일반적인 지식 추론 기술인 Wikipedia에서 정보를 얻는 방법을 (추론하고) 행동하는 방법을 가르치기 때문에 표준 또는 CoT를 미세 조정하는 것이 ReAct 또는 Act를 미세 조정하는 것보다 훨씬 더 나쁜 성능을 보였습니다. 모든 프롬프트 방식은 여전히 도메인별 최신 기술(표 1)에 크게 미치지 못하므로, 사람이 직접 작성한 데이터를 더 많이 사용하여 미세 조정하는 것이 ReAct의 기능을 발휘하는 더 좋은 방법일 수 있습니다.

그림 3: ReAct(당사 방법)와 기준선을 사용하여 큐잉 및 HotPotQA 미세 조정을 위한 확장된 결과.

4 의사 결정 작업

또한 두 가지 대화형 언어 기반 의사 결정 과제인 ALFWorld와 WebShop에서 ReAct를 테스트했는데, 두 과제 모두 보상이 희박하고 오랜 시간 동안 지능이 행동을 취해야 하는 복잡한 환경으로, 지능이 행동을 취하고 탐색하기 위해 효과적으로 추론해야 하는 과제입니다.

ALFWorld ALFWorld(그림 1(2))는 구현된 ALFRED 벤치마크와 일치하도록 설계된 합성 텍스트 기반 게임입니다. 이 게임은 텍스트 동작(예: 커피 테이블로 이동1 , 파일 집기2 , 책상 램프 사용1 )을 탐색하고 시뮬레이션된 가족과 상호 작용하여 높은 수준의 목표(예: 책상 램프 아래 파일 확인)를 달성하기 위해 지능이 필요한 6가지 유형의 작업으로 구성되어 있습니다. 작업 인스턴스에는 50개 이상의 위치가 있을 수 있으며, 이를 해결하기 위해 50단계 이상의 전문가 전략이 필요하므로 지능이 하위 목표를 계획하고 추적하는 것은 물론 체계적으로 탐색(예: 책상 램프를 찾기 위해 모든 테이블을 하나씩 확인)하도록 도전합니다. 특히 ALFWorld에 내장된 과제 중 하나는 일반적인 가정용품의 위치를 파악해야 하는 것(예: 테이블 램프가 테이블, 선반 또는 서랍장에 있을 가능성이 높음)으로, 이 설정은 LLM이 사전 학습된 상식 지식을 활용하기에 이상적입니다. ReAct에 힌트를 주기 위해 각 작업 유형에 대해 훈련 세트에 (1) 목표 분해, (2) 하위 목표 완료 추적, (3) 다음 하위 목표 결정, (4) 상식적인 추론을 통해 물체의 위치와 물체로 할 일 찾기라는 세 가지 궤적을 무작위로 주석으로 달았습니다. 부록 C.4에 ALFWorld에 사용된 힌트가 나와 있습니다. Shridhar 등의 접근 방식에 따라 특정 과제 환경에서 134개의 보이지 않는 평가 게임을 평가했습니다. 견고성을 위해 주석이 달린 3개의 궤적 각각을 순열하여 각 과제 유형에 대해 6개의 단서를 구성했으며, Act 단서는 동일한 궤적을 사용했지만 아이디어 없이 구성했습니다. 과제 인스턴스가 훈련 세트에서 무작위로 선택되었으므로 ReAct나 Act에 편향되지 않았습니다. Act로 편향되지 않았기 때문에 희박한 아이디어의 중요성을 테스트하기 위한 공정하고 통제된 비교를 제공합니다. 기준으로는 각 작업 유형에 대해 105개의 전문가 궤적으로 훈련된 모방 학습 인텔리전스인 BUTLER를 사용했습니다.

웹샵 ReAct가 노이즈가 많은 실제 언어 환경과도 상호 작용하여 실제 적용이 가능할까요? 저희는 최근 제안된 온라인 쇼핑 웹사이트 환경인 WebShop에 118만 개의 실제 제품과 12,000개의 인간 지침이 포함된 환경을 연구했습니다. ALFWorld와 달리 웹샵에는 대량의 정형 및 비정형 텍스트(예: 아마존에서 크롤링한 제품 제목, 설명, 옵션)가 포함되어 있으며, 사용자 명령(예: "서랍이 있는 협탁을 찾고 있어요.")에 따라 지능이 상호 작용하도록 요청합니다. 니켈 마감으로 140달러 미만이어야 합니다.") 웹 상호작용(예: '나이트스탠드 서랍'을 검색하고 '색상: 모던 니켈 화이트' 또는 '다음으로 돌아가기' 등의 버튼을 선택해 검색", "색상: 모던 니켈 화이트" 또는 "뒤로" 등의 버튼을 선택하여 제품을 구매하는 경우). 이 작업은 500개의 테스트 지침에 대해 평균 점수(선택한 제품에 포함된 필수 속성의 비율, 전체 에피소드의 평균)와 성공률(선택한 제품이 모든 요구 사항을 충족한 에피소드의 비율)로 평가되었습니다. 검색, 제품 선택, 옵션 선택 및 구매를 위한 작업을 포함하는 Act 프롬프트를 개발했으며, ReAct 프롬프트는 추가적으로 추론하여 탐색할 내용, 구매 시기 및 지침과 관련된 제품 옵션을 결정합니다. 예시 프롬프트는 표 6을, 모델 예측은 부록의 표 10을 참조하세요. 이를 1012개의 개인 주석이 달린 궤적으로 훈련된 모방 학습 접근 방식과 10587개의 훈련 지침으로 훈련된 추가 모방 + 강화 학습 접근 방식(IL + RL)과 비교합니다.

결국 ReAct는 ALFWorld(표 3) 및 웹샵(표 4) 플랫폼 모두에서 Act보다 성능이 뛰어나며, ALFWorld에서 최고 성능의 ReAct 실험은 평균 성공률 711 TP3T를 달성하여 최고의 Act(451 TP3T) 및 BUTLER(371 TP3T) 실험을 크게 뛰어넘는 결과를 얻었습니다. 실제로 가장 성능이 좋지 않은 ReAct 실험(481 TP3T)도 두 방법의 최고 실험을 능가했습니다. 또한, Act에 비해 ReAct의 우위는 6개의 대조 실험에서 지속되었으며, 상대적 성능 향상 폭은 331 TP3T에서 901 TP3T, 평균 621 TP3T에 달했습니다. 질적 관점에서 보면 Act는 목표를 더 작은 하위 목표로 정확하게 세분화하지 못하거나 전혀 생각이 없는 상태에서 환경의 현재 상태를 추적하지 못한다는 것을 알 수 있었습니다. ReAct와 Act를 비교한 궤적의 예는 부록 D.2.1과 부록 D.2.2에서 확인할 수 있습니다.

표 3: AlfWorld 작업별 성공률(%). 빔 검색을 사용하는 BUTLER를 제외한 모든 방법은 그리디 디코딩을 사용하지만, BUTLER 및 BUTLERg의 결과는 Shridhar 외. 2020b 표 4.

표 4: 웹샵의 점수 및 성공률(SR). IL/IL+RL 데이터는 Yao 외. (2022)에서 가져온 것입니다.

웹샵에서 일회성 액트 힌트는 IL 및 IL+RL 방식과 함께 사용할 수 있게 되었습니다. 희소 추론을 추가하면 ReAct는 이전 최고 성공률보다 10%의 절대적인 개선으로 훨씬 더 나은 성능을 달성할 수 있습니다. 예를 살펴본 결과, ReAct는 명령과 관련된 제품 및 옵션을 식별하는 추론을 통해 노이즈가 많은 관찰과 행동 사이의 간극을 메울 가능성이 더 높은 것으로 나타났습니다(예: "'공간 절약형 거실 발판 스툴'의 경우, 항목의 크기는 '. 39x18x18인치'와 '파란색' 옵션이 있어 구매 가치가 있어 보인다.") . 그러나 기존 방식은 훨씬 더 많은 제품 탐색과 쿼리 재구성을 수행하는 전문 인력(표 4)에 비해 여전히 성능이 훨씬 떨어지며, 이는 큐 기반 방식이 해결해야 할 과제로 남아 있습니다.

내부 추론과 외부 피드백의 가치에 대하여 우리가 아는 한, 대화형 환경에서 추론과 행동을 결합한 폐쇄 루프 시스템에 적용된 LLM의 첫 번째 데모는 ReAct입니다. 아마도 가장 근접한 선행 연구는 Huang 등(2022b)의 내부 독백(IM)으로, 구현된 에이전트의 행동이 시조인 '내부 독백'에 의해 주도됩니다.그러나 IM의 '내부 독백'은 환경의 상태와 목표를 달성하기 위해 에이전트가 수행해야 하는 작업에 대한 관찰로 제한됩니다.반면, ReAct의 의사 결정 추론 추적은 유연하고 드물기 때문에 작업마다 다양한 추론 유형을 유도할 수 있습니다(섹션 2 참조).

ReAct와 IM의 차이를 입증하고 외부 피드백에 대한 단순한 반응보다 내적 추론의 중요성을 강조하기 위해, IM 스타일의 밀도 높은 외부 피드백으로 구성된 사고 패턴을 사용하여 제거 실험을 실시했습니다. 표 3에서 볼 수 있듯이 ReAct는 전체 성공률에서 71% 대 53%로 IM 스타일의 프롬프트(ReAct-IM)를 크게 앞섰으며, 6개 과제 중 5개 과제에서 일관된 우위를 보였습니다. 질적으로 보면, ReAct-IM은 높은 수준의 목표 세분화가 부족하여 하위 목표가 언제 완료되었는지 또는 다음 하위 목표가 무엇인지 판단하는 데 자주 오류가 발생하는 것으로 나타났습니다. 또한, 많은 ReAct-IM 궤적은 상식적인 추론이 부족하여 ALFWorld 환경에서 항목이 어디에 위치할 수 있는지 판단하는 데 어려움을 겪었습니다.
이 두 가지 단점은 모두 ReAct 패러다임에서 해결할 수 있습니다. ReAct-IM에 대한 자세한 내용은 부록 B.2에서 확인할 수 있으며, ReAct-IM에 대한 예제 힌트는 부록 C.4에서, 예제 궤적은 부록 D.2.3에서 확인할 수 있습니다.

5 관련 작업

추론의 언어적 모델 대규모 언어 모델(LLM)을 이용한 추론에 관한 가장 잘 알려진 연구는 아마도 LLM이 문제를 해결하기 위해 자신만의 '사고 과정'을 공식화할 수 있는 능력을 밝혀낸 생각의 연쇄(CoT)일 것입니다. 이후 복잡한 작업에 대한 최소한의 프롬프트, 제로 샷 CoT, 자기 일관성 추론 등 여러 후속 연구가 수행되었습니다. 최근에는 (Madaan & Yazdanbakhsh, 2022)에서 CoT의 구성과 구조를 체계적으로 조사하여 기호, 스키마 및 텍스트의 존재가 CoT의 효과에 중요하다는 것을 관찰했습니다.
다른 작업은 단순한 힌트를 넘어 더 복잡한 추론 아키텍처로 확장되었습니다. 예를 들어, 선택-추론은 추론 프로세스를 '선택'과 '추론' 단계로 나누고, STaR은 모델 자체에서 생성된 올바른 추론을 기반으로 모델을 미세 조정하여 추론 프로세스를 안내합니다. 추론 프로세스. 충실한 추론은 다단계 추론을 세 단계로 분해하고 각 단계는 전용 LM에 의해 실행됩니다. 스크래치패드와 같은 유사한 접근 방식도 중간 계산 단계에서 LM을 미세 조정하여 다단계 계산 문제를 개선하는 방법을 보여줍니다.
이러한 접근 방식과 달리 ReAct는 고립되고 고정된 추론 그 이상을 수행하며 모델 작업과 해당 관찰을 일관된 입력 스트림으로 통합하여 모델이 더 정확하게 추론하고 추론 이상의 작업(예: 대화형 의사 결정)을 해결할 수 있도록 합니다.

의사 결정에 언어 모델 사용 강력한 LLM의 기능 덕분에 언어 생성 이상의 작업을 수행할 수 있으며, 특히 대화형 환경에서 의사 결정을 위한 전략 모델로 LLM을 활용하는 것이 점점 인기를 얻고 있습니다.WebGPT는 웹 브라우저와 상호 작용하고 웹 페이지를 탐색하며 ELI5 에서 복잡한 질문에 대한 답을 추론하기 위해 LLM을 사용합니다. 이와는 대조적으로 WebGPT는 사고와 추론 과정을 명시적으로 모델링하지 않고 강화 학습을 위해 값비싼 사람의 피드백에 의존합니다. 대화 모델링에서는 BlenderBot 및 Sparrow와 같은 시스템과 SimpleTOD와 같은 작업 지향 대화 시스템도 LM이 API 호출에 대한 결정을 내릴 수 있도록 학습시킵니다. ReAct와 달리 이러한 시스템은 추론 과정을 명시적으로 고려하지 않으며 정책 학습을 위해 값비싼 데이터 세트와 사람의 피드백 세트에 의존합니다. 반면, ReAct는 의사 결정 과정에 추론 과정을 설명하는 언어만 필요하기 때문에 더 저렴한 방식으로 정책을 학습합니다.

언어 모델(LLM)은 대화형 및 구현형 환경에서의 계획 및 의사 결정에도 점점 더 많이 적용되고 있습니다. 이와 관련하여 ReAct와 가장 관련성이 높은 것은 아마도 SayCan과내면의 독백SayCan에서는 LLM이 로봇의 가능한 동작을 직접 예측하라는 메시지를 표시한 다음 시각 환경 기반 가용성 모델에 의해 순서를 다시 지정하여 최종 예측을 수행합니다. SayCan에서 LLM은 로봇이 취할 수 있는 동작을 직접 예측하라는 메시지를 받은 다음 시각 환경 기반 가용성 모델에 의해 순서가 변경되어 최종 예측을 수행하며, 환경으로부터 주입된 피드백으로 구현되는 유명한 "내부 독백"이 추가되어 더욱 개선되었습니다. 환경으로부터의 피드백. 우리가 알기로는 이너 모놀로그가 이러한 폐쇄 루프 시스템을 구현한 최초의 작품이며, 리액트는 이를 기반으로 합니다. 그러나 이너 모놀로그에는 실제로 내적 사고가 포함되어 있지 않다고 주장하며, 이에 대해서는 섹션 4에 자세히 설명되어 있습니다. 또한 대화형 의사결정 과정에서 의미론적으로 풍부한 입력으로 언어를 사용하는 것이 다른 환경에서도 성공적으로 입증되었다는 점에 주목합니다. LLM을 사용하면 언어가 근본적인 인지 메커니즘으로서 상호작용과 의사 결정에 핵심적인 역할을 할 것이라는 사실이 점점 더 분명해지고 있습니다. 또한 LLM의 발전은 Reed 등과 같은 다목적 범용 에이전트의 개발에 영감을 주었습니다.

6 결론

대규모 언어 모델에서 추론과 행동을 조율하는 간단하면서도 효과적인 방법인 ReAct를 소개합니다. 멀티홉 질문 답변, 사실 확인, 대화형 의사 결정 작업에 대한 다양한 실험을 통해 ReAct가 파싱 가능한 의사 결정 경로를 통해 우수한 성능을 이끌어낸다는 것을 보여줍니다. 접근 방식의 단순성에도 불구하고 대규모 작업 공간에서 복잡한 작업을 제대로 학습하려면 더 많은 예제가 필요하며, 이는 문맥 학습에서 입력 길이 제한을 쉽게 초과할 수 있습니다. HotpotQA에서 미세 조정된 접근 방식을 시도해 본 초기 결과는 고무적이지만, 더 많은 고품질의 인간 주석으로 학습하면 성능이 더욱 향상될 것으로 예상됩니다. 강화 학습과 같은 상호 보완적인 패러다임과 결합하여 ReAct를 다중 작업 훈련에서 확장할 수 있게 되면 더 많은 애플리케이션에서 LLM의 잠재력을 발휘하는 더욱 강력한 에이전트가 탄생할 수 있습니다.

추가 결론

A.1 GPT-3 실험

표 5: PaLM-540B와 GPT-3(텍스트-다빈치-002, 욕심 디코딩)을 사용한 ReAct 프롬프트의 결과 비교. HotpotQA에서는 500개의 검증 질문의 하위 집합을 무작위로 선택했습니다. ALFWorld에서는 PaLM-540B에 따라 선택된 최상의 힌트 세트와 함께 134개의 보이지 않는 검증 작업의 모든 인스턴스를 사용했습니다.

다양한 대규모 언어 모델에서 ReAct 단서 성능의 일반성을 확인하기 위해 추가 GPT-3(Brown et al., 2020) 실험을 수행했습니다. 표 5에서 볼 수 있듯이, GPT-3(텍스트 다빈치-002, 욕심 디코딩)는 사람의 지시를 따르도록 미세 조정되었기 때문에 HotpotQA 및 ALFWorld에서 PaLM-540B보다 일관되게 우수한 성능을 보였습니다. 이는 ReAct 큐가 다양한 대규모 언어 모델에 대해 서로 다른 작업에 효과적이라는 것을 시사합니다. 이 실험의 코드는 https://react-lm.github.io/ 에서 확인할 수 있습니다.

A.2 핫팟QA에 대한 최신 지식을 얻기 위한 리액트

그림 4: 원본 레이블이 오래된 핫팟 퀴즈 문제의 또 다른 예입니다. 리액트만이 추론과 함께 실제 웹 상호 작용을 통해 가장 최신의 답을 얻을 수 있었습니다.

A.3 ALFWorld의 사이클에 대한 인간의 참여에 대한 행동 수정

또한 인간이 ReAct의 추론 흔적을 검사하고 편집할 수 있는 인간 참여 루프 상호작용도 살펴봤습니다. 그림 5는 17막에서 환각적인 문장을 제거하고 23막에서 몇 가지 단서를 추가하는 것만으로 ReAct의 동작을 크게 변경하고 이러한 인간의 사고 편집에 맞춰 작업을 성공적으로 완료하도록 만들 수 있음을 보여줍니다. 인간의 입장에서는 수십 개의 동작을 입력하는 것에서 몇 가지 생각만 편집하는 것으로 작업을 훨씬 쉽게 해결할 수 있어 새로운 유형의 인간과 기계의 협업이 가능해집니다. 인간은 모델 매개변수를 변경할 수 없고 몇 가지 액션을 변경해도 모델의 나머지 동작이 편집되지 않을 수 있기 때문에 Act 및 이전 RL 접근 방식에서는 이러한 전략 편집이 어렵다는 점에 유의하세요. 이 패러다임은 또한 Huang 외(2022b)에서 설명한 것처럼 목표나 하위 목표를 업데이트하기 위해 인간의 대화를 넘어서는데, ReAct 아이디어를 편집하면 이 모든 작업을 수행할 수 있을 뿐만 아니라 모델의 내부 신념, 추론 스타일 또는 유연한 사고 공간 지원을 수정하여 작업을 더 잘 해결할 수 있습니다. 이는 인간 정렬을 위한 흥미로운 방향이며, 보다 체계적인 연구가 향후 과제로 남아있습니다.

그림 5: AlfWorld에서 ReAct를 사용한 HCI 행동 교정의 예시. (a) 환각적 사고(행동 17)로 인해 ReAct 궤적이 실패합니다. (b) 인간이 두 개의 마음(행동 17, 23)을 간단히 편집함으로써 ReAct 궤적은 원하는 추론 궤적과 행동을 성공적으로 생성합니다.

B 실험 세부 정보

B.1 인기 주제 퀴즈 세부 사항 조정하기

모든 미세 조정에는 64개의 배치 크기를 사용합니다. PaLM-8B에서는 ReAct 및 Act 메서드에 대해 4,000단계의 미세 조정을, 표준 및 CoT 메서드에 대해 2,000단계의 미세 조정을 수행합니다. PaLM-62B에서는 ReAct 및 Act 방법을 4,000스텝, 표준 및 CoT 방법을 1,000스텝 미세 조정했습니다. ReAct 및 Act 방법은 일반적으로 더 많은 훈련 단계(및 더 많은 훈련 데이터)에서 이점이 있는 반면, 표준 및 CoT 방법은 미세 조정 직후부터 성능이 저하되기 시작합니다.

B.2 ALFWORLD 인스턴트 스타일 세부 정보

즉각적인 스타일 제거 실험을 위해 ReAct에 사용된 것과 동일한 전문가 궤적을 다시 주석으로 달았는데, 이 궤적에는 내부적으로 (1) 현재 목표의 분해와 (2) 완료해야 할 현재 하위 목표만 고려하도록 ReAct-IM을 제한하는 외부 피드백 사고가 밀도 있게 포함되어 있었습니다. 구체적으로 ReAct-IM에는 (1) 하위 목표의 완료 시점을 결정하는 사고 (2) 다음 하위 목표가 무엇인지 결정하는 사고 (3) 환경 내 항목의 가능한 위치를 식별하기 위해 LLM이 내부적으로 사전 학습된 지식을 참조하도록 유도하는 사고가 부족합니다.

C 프롬프트

C.1 인기 주제 퀴즈

C.2 팩트 추출 및 유효성 검사 데이터세트/FEVER

발열 프롬프트

원본
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임	답변
니콜라이 코스터-왈다우는 폭스 방송사에서 일했습니다.	지원
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.	반박
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.	정보가 충분하지 않음

원본
질문: 진술을 뒷받침하거나 반박하는 관찰 자료가 있는지 또는 정보가 불충분한지 판단합니다.
표현	솔루션
니콜라 코스터-왈다우(Nikolaj Coster-Waldau)는 폭스 방송사와 함께 일했습니다.	지원
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.	레토르트
2003년에는 'Beautiful'이라는 곡으로 빌보드 핫 100에서 2위를 차지했습니다.	불충분한 정보

Act
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임	액션	관찰
니콜라 코스터-발다우는 폭스 방송사와 함께 일했습니다.	니콜라이 코스터-발다우] 검색하기	니콜라 윌리엄 코스터 발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 학교를 졸업하고[1], 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. 1993년 코펜하겐,[1] 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. HBO 판타지 드라마 시리즈 왕좌의 게임에서 제이미 라니스터 역을 맡아 프라임타임 에미상 우수상 후보에 두 번이나 올랐습니다. 드라마 시리즈 남우조연상 후보에 올랐습니다. 코스터-왈다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 모국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. . 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 무공훈장 수상자 게리 고든 역으로 데뷔했으며[2] 이후 단명했던 폭스 TV 시리즈 뉴욕 시티에서 형사를 연기했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 영화에 데뷔했으며[2] 이후 단명했던 폭스 텔레비전 시리즈 뉴 암스테르담(2008)에서 형사를 연기했고 2009년 폭스 텔레비전 영화 버추얼리티(원래 파일럿으로 제작된)에 출연했다.
	마침[지원]
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.	기묘한 이야기] 검색	기묘한 이야기는 더퍼 형제가 만든 미국 공상 과학 공포 드라마 텔레비전 시리즈입니다. 1980 년대를 배경으로 주로 인디애나 주 호킨스에서 1980년대를 배경으로 주로 인디애나주 호킨스라는 가상의 마을을 배경으로 하는 이 시리즈는 마을 주변에서 일어나는 여러 가지 미스터리와 초자연적인 사건, 그리고 그것이 어린이와 성인 캐릭터의 앙상블에 미치는 영향을 중심으로 전개됩니다. 어린이와 성인 캐릭터의 앙상블
	완료 [반박]
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.	아름다운] 검색	Beautiful]를 찾을 수 없습니다. 유사 검색어: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
	검색 [Beautiful (크리스티나 아길레라 노래)	"Beautiful"은 미국 가수 크리스티나 아길레라가 네 번째 정규 앨범인 Stripped(2002)에 수록한 곡입니다.
	빌보드 핫 100] 조회	(결과 1/3) 이 노래는 미국 빌보드 핫 100에서 2위를 차지했으며, 50만 대 출하량으로 골드 인증을 받았습니다.
	완료 [정보 부족]

Act
문제: 관찰이 진술을 뒷받침하거나 반박하는지 또는 정보가 불충분한지 판단합니다.
표현	act	주의
니콜라 코스터-발다우는 폭스 방송사와 함께 일했습니다.	니콜라이 코스터-발다우] 검색하기	니콜라이 윌리엄 코스터 발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 아카데미를 졸업했으며[1], 영화 나이트 워치(1994)를 통해 덴마크에서 획기적인 역할을 맡게 되었습니다. HBO 판타지 시리즈 왕좌의 게임에서 제이미 라니스터를 연기해 프라임타임 에미상 드라마 시리즈 남우조연상 후보에 두 차례 올랐으며, 코스터-왈다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 고국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 첫 영화에 출연했습니다.[2] 또한 단명했던 폭스 텔레비전 시리즈 뉴 암스테르담(2008)에서 형사를 연기했으며, 2009년 폭스 텔레비전 영화 버츄어 파이터(원래 파일럿 에피소드로 제작된)에도 출연했습니다.
	완료됨 [지원됨]
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.	기묘한 이야기] 검색	기묘한 이야기는 더프 형제가 제작한 미국 공상 과학 공포 드라마 시리즈입니다. 1980년대를 배경으로 한 이 드라마는 주로 인디애나주 호킨스라는 가상의 마을을 배경으로 마을에서 일어나는 일련의 미스터리하고 초자연적인 사건과 그 사건이 어린이와 성인 캐릭터에게 미치는 영향을 중심으로 전개됩니다.
	완료 [반박]
'Beautiful'은 2003년 빌보드 핫 100에서 2위를 기록했습니다.	아름다운] 검색	Beautiful]를 찾을 수 없습니다. 유사: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
	검색 [Beautiful(크리스티나 아길레라 노래)]]	"Beautiful"은 미국 가수 크리스티나 아길레라가 2002년에 발매한 네 번째 정규 앨범 Stripped에 수록된 곡입니다.
	빌보드 핫 100] 찾기	(결과 1/3) 이 곡은 미국 빌보드 핫 100에서 2위에 올랐고 50만 장의 출하량으로 골드 인증을 받았습니다.
	완료됨 [정보 불충분]

CoT
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임	생각	답변
니콜라이 코스터-왈다우는 폭스 방송사에서 일했습니다.	니콜라 윌리엄 코스터-왈다우는 2009년 폭스 텔레비전 영화 '버추얼리티'에 출연한 이후 폭스 방송사와 함께 일하고 있습니다.	지원
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.	기묘한 이야기는 인디애나주 블루밍턴이 아닌 인디애나주 호킨스라는 가상의 마을을 배경으로 합니다.	반박
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.	이 노래는 미국 빌보드 핫 100에서 2위를 차지했지만 2003년인지 여부는 확실하지 않습니다.	정보가 충분하지 않음

COT
문제: 주장을 뒷받침하거나 반박하는 관찰 자료가 있는지 또는 정보가 불충분한지 판단합니다.
관점	반사	솔루션
니콜라 코스터-왈다우(Nikolaj Coster-Waldau)는 폭스 방송사와 함께 일했습니다.	니콜라이 윌리엄 코스터-왈다우는 2009년 폭스 TV 영화 '버추얼 라이프'에 출연하여 폭스 방송사와 함께 일한 경력이 있습니다.	지원
기묘한 이야기는 인디애나주 블루밍턴에서 펼쳐집니다.	기묘한 이야기는 인디애나주 블루밍턴이 아닌 가상의 마을인 인디애나주 호킨스를 배경으로 합니다.	레토르트
2003년에는 'Beautiful'이라는 곡으로 빌보드 핫 100에서 2위를 차지했습니다.	이 노래는 빌보드 핫 100에서 2위에 올랐지만 2003년이었는지는 확실하지 않습니다.	불충분한 정보

ReAct
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임	생각	액션	관찰
니콜라이 코스터-왈다우는 폭스 방송사에서 일했습니다.	니콜라 코스터-발다우를 검색해서 그가 폭스 방송사와 함께 일한 적이 있는지 알아봐야 합니다.	니콜라이 코스터-발다우] 검색하기	니콜라 윌리엄 코스터 발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 학교를 졸업하고[1], 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. 1993년 코펜하겐,[1] 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. HBO 판타지 드라마 시리즈 왕좌의 게임에서 제이미 라니스터 역을 맡아 프라임타임 에미상 우수상 후보에 두 번이나 올랐습니다. 드라마 시리즈 남우조연상 후보에 올랐습니다. 코스터-왈다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 모국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. . 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 무공훈장 수상자 게리 고든 역으로 데뷔했으며[2] 이후 단명했던 폭스 TV 시리즈 뉴욕 시티에서 형사를 연기했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 영화에 데뷔했으며[2] 이후 단명했던 폭스 텔레비전 시리즈 뉴 암스테르담(2008)에서 형사를 연기했고 2009년 폭스 텔레비전 영화 버추얼리티(원래 파일럿으로 제작된)에 출연했다.
	그는 "2009년 폭스 텔레비전 영화 '버추얼리티'에 출연"했기 때문에 폭스 방송사와 함께 일했어야 했습니다.	마침[지원]
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.	기묘한 이야기'를 검색해서 인디애나주 블루밍턴을 배경으로 하는지 확인해야겠어요.	기묘한 이야기] 검색	기묘한 이야기는 더퍼 형제가 만든 미국 공상 과학 공포 드라마 텔레비전 시리즈입니다. 1980 년대를 배경으로 주로 인디애나 주 호킨스에서 1980년대를 배경으로 주로 인디애나주 호킨스라는 가상의 마을을 배경으로 하는 이 시리즈는 마을 주변에서 일어나는 여러 가지 미스터리와 초자연적인 사건, 그리고 그것이 어린이와 성인 캐릭터의 앙상블에 미치는 영향을 중심으로 전개됩니다. 어린이와 성인 캐릭터의 앙상블
	"인디애나주 호킨스라는 가상의 마을"을 배경으로 하고 있으므로 블루밍턴을 배경으로 하는 것은 아니라는 관측이 있습니다.	완료 [반박]
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.	2003년 빌보드 핫 100에서 2위를 차지한 노래 'Beautiful'을 검색해서 찾아야 합니다.	아름다운] 검색	Beautiful]를 찾을 수 없습니다. 유사 검색어: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
	추천 목록에서 'Beautiful(크리스티나 아길레라 노래)'을 검색하여 노래를 찾아야 합니다.	검색 [Beautiful(크리스티나 아길레라 노래)]]	"Beautiful"은 미국 가수 크리스티나 아길레라가 네 번째 정규 앨범인 Stripped(2002)에 수록한 곡입니다.
	빌보드에 대한 언급이 없으므로 2003년에 2위에 올랐는지 알아보려면 '빌보드 핫 100'을 찾아봐야 합니다.	빌보드 핫 100] 조회	(결과 1/3) 이 노래는 미국 빌보드 핫 100에서 2위를 차지했으며, 50만 대 출하량으로 골드 인증을 받았습니다.
	이 노래가 빌보드 핫 100에서 2위를 기록했다고만 되어 있을 뿐, 2003년이 맞는지는 확실하지 않습니다. 이 주장이 사실인지 아닌지는 잘 모르겠습니다.	완료 [정보 부족]

ReAct
질문: 진술을 뒷받침하거나 반박하는 관찰 자료가 있는지 또는 정보가 불충분한지 판단합니다.
표현	반사	act	주의
니콜라 코스터-왈다우(Nikolaj Coster-Waldau)는 폭스 방송사와 함께 일했습니다.	니콜라 코스터-왈다우를 검색해서 그가 폭스 방송에서 일했는지 알아봐야 합니다.	니콜라이 코스터-발다우] 검색하기	니콜라 빌헬름 코스터-발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 아카데미를 졸업했으며[1] 1994년 영화 나이트 시프트로 덴마크에서 획기적인 역할을 맡았다. 그는 HBO 판타지 시리즈 왕좌의 게임에서 제이미 라니스터 역으로 프라임타임 에미상 드라마 시리즈 남우조연상 후보에 두 차례 올랐습니다. 코스터-발다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 모국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 첫 영화에 출연했습니다. [2] 폭스 텔레비전 스케치 쇼 뉴 암스테르담(2008)에서 형사로 출연했으며, 파일럿 에피소드로 제작되었던 2009년 폭스 텔레비전 영화 버추얼 월드(2009)에도 출연했습니다.
	2009년 폭스 TV 영화 '버추어 파이터'에 출연한 이후 폭스 방송과 함께 일하게 됩니다.	완료됨 [지원됨]
기묘한 이야기는 인디애나주 블루밍턴에서 펼쳐집니다.	인디애나주 블루밍턴에서 열리는지 기묘한 이야기를 검색해 봐야겠어요.	기묘한 이야기]를 검색합니다.	기묘한 이야기는 더프 형제가 만든 미국 공상 과학 공포 드라마 시리즈입니다. 1980년대 인디애나주 호킨스라는 가상의 마을을 배경으로, 이 드라마는 마을에서 일어나는 일련의 미스터리하고 초자연적인 사건과 그 사건이 어린이와 성인 캐릭터에게 미치는 영향을 중심으로 전개됩니다.
	관측에 따르면 "인디애나주 호킨스라는 가상의 마을"을 배경으로 하고 있으므로 블루밍턴에서 열리는 것은 아닙니다.	완료 [반박]
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.	Beautiful이라는 곡을 검색하여 2003년에 빌보드 핫 100에서 2위를 차지했는지 알아봐야 합니다.	아름다운] 검색	['Beautiful']을 찾을 수 없습니다. 유사: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
	추천 목록에서 '크리스티나 아길레라의 노래 'Beautiful'을 검색해서 이 노래를 찾았어야 했습니다.	크리스티나 아길레라의 노래 'Beautiful'을 검색합니다.	"Beautiful"은 미국 가수 크리스티나 아길레라가 2002년에 발매한 네 번째 정규 앨범 Stripped에 수록된 곡입니다.
	빌보드에 대한 언급이 없으므로 2003년에 2위에 올랐는지 확인하려면 '빌보드 핫 100'을 찾아봐야 합니다.	빌보드 핫 100] 찾기	(결과 1 / 3) 이 노래는 미국 빌보드 핫 100에서 2위를 차지하며 50만 장의 골드 인증을 받았습니다.
	이 노래가 빌보드 핫 100에서 2위에 올랐다고만 언급되어 있을 뿐, 2003년에 나왔는지는 언급되어 있지 않습니다. 이 진술이 사실인지 아닌지 잘 모르겠습니다.	완료됨 [정보 불충분]

C.3 인터넷 쇼핑

표 6: 4장 웹 상점 실험에 사용된 프롬프트. 왼쪽의 단서는 행동(Act)에, 오른쪽의 단서(추론 추가)는 반응(ReAct)에 사용했습니다.

지침:민감한 피부를 위한 밝은 시트러스 향의 데오도란트 3온스 병을 $50.00 미만에 구매하고 싶습니다!
Act		ReAct
움직임	주의	움직임	주의
민감성 피부를 위한 브라이트 시트러스 향 데오도란트 3온스]를 검색하세요.	[검색으로 돌아가기] 1페이지 (총 결과: 50) [다음][B078GWRC1J]지구 엄마의 밝은 시트러스 데오도란트 \| 천연 & 적합 대상 유기농으로 민감한 피부, 임신 및 모유 수유를 위한 메리골드 플라워 3온스 $10.99[B078GTKVXY]지구 엄마의 생강 프레쉬 데오도란트 \| 자연스럽고 적합한 대상 유기농으로 민감한 피부, 임신 및 모유 수유를 위한 메리골드 플라워 3온스 $10.99[B08KBVJ4XN]배럴 앤 오크 - 남성용 알루미늄 프리 데오도란트 에센셜 오일 기반 향, 24시간 냄새 방지, 시더우드 & 파출리 블렌드는 민감한 피부에도 순하게 작용합니다(세이지 산. (2.7온스, 2병) $15.95	민감성 피부를 위한 브라이트 시트러스 향 데오도란트 3온스 찾기	[검색으로 돌아가기] 1페이지 (총 결과: 50) [다음][B078GWRC1J]지구 엄마의 밝은 시트러스 데오도란트 \| 천연 & 적합 대상 유기농으로 민감한 피부, 임신 및 모유 수유를 위한 메리골드 플라워 3온스 $10.99[B078GTKVXY]지구 엄마의 생강 프레쉬 데오도란트 \| 자연스럽고 적합한 대상 유기농으로 민감한 피부, 임신 및 모유 수유를 위한 메리골드 플라워 3온스 $10.99[B08KBVJ4XN]배럴 앤 오크 - 남성용 알루미늄 프리 데오도란트 에센셜 오일 기반 향, 24시간 냄새 방지, 시더우드 & 파출리 블렌드는 민감한 피부에도 순하게 작용합니다(세이지 산. (2.7온스, 2병) $15.95
B078GWRC1J]를 클릭합니다.	이전 페이지 검색으로 돌아가기 향기 [다양한 향] [밝은 시트러스] [수딩 라벤더] 생강 [리프레싱] 심플리 언센티드] 사이즈 [여행용 세트(4병)] [3온스. 병)] 어스 마마 브라이트 시트러스 데오도란트 \| 내추럴 & 적합 대상 유기농으로 민감한 피부, 임신 및 모유 수유를 위한 메리골드 플라워 3온스 가격: $10.99 등급: N.A. [설명][기능][리뷰][지금 구매]	생각 [B078GWRC1J와 B078GTKVXY는 50달러 미만의 밝은 시트러스 향 데오도란트입니다. B078GWRC1J를 먼저 확인해볼까 합니다].	알겠습니다.
밝은 시트러스]를 클릭합니다.	밝은 시트러스를 클릭하셨습니다.	B078GWRC1J]를 클릭합니다.	[검색 뒤로][이전] 향 [다양한 향][밝은 시트러스][진정 라벤더] 생강 [리프레싱] 심플리 언센티드] 사이즈 [여행용 세트(4병)] [3온스. 병)] 어스 마마 브라이트 시트러스 데오도란트 \| 내추럴 & 적합 대상 유기농으로 민감한 피부, 임신 및 모유 수유를 위한 메리골드 플라워 3온스 가격: $10.99 등급: N.A. [설명][기능][리뷰][지금 구매]
3온스(1병)]를 클릭합니다.	3온스(1병)을 클릭하셨습니다.	생각 [민감한 피부를 위한 브라이트 시트러스 향 데오도란트 3온스 병의 경우, '브라이트 시트러스'와 '3온스(1병)' 옵션이 있어 구매할 수 있을 것 같습니다].	알겠습니다.
지금 구매]를 클릭합니다.		밝은 시트러스]를 클릭합니다.	밝은 시트러스를 클릭하셨습니다.
		3온스(1병)]를 클릭합니다.	3온스(1병)을 클릭하셨습니다.

C.4 ALFWORLD

주방, 거실, 침실 등 실제 환경을 아우르는 25,000개 이상의 고유하고 절차적으로 생성된 작업이 포함된 환경인 ALFWORLD 시뮬레이터입니다.

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛이 있습니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 2, 캐비닛
1, 커피머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 1
쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 싱크대 1, ㄱ
스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1.
여러분의 임무는 식탁에 깨끗한 상추를 놓는 것입니다.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 그 안에 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3, 감자 2.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 컵 2, 사과 1, 빵 1이 있습니다.
포크 2, 나이프 2, 칼 1, 국자 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 냄비 1, 냄비 2, 냄비 1
페퍼쉐이커 1, 주걱 3, 토마토 2, 토마토 1.
> 식탁 1에서 상추 1을 가져옵니다.
식탁 1에서 양상추 1을 집어 올립니다.
> 싱크대 1로 이동
싱크대 1에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 있습니다.
> 싱크대 1로 양상추 1 깨끗이 씻기
싱크대 1을 사용하여 양상추 1을 세척합니다.
> 이제 양상추(1)를 씻습니다. 다음으로 식탁(1)에 넣거나 식탁 위에 올려야 합니다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크가 있습니다.
2, 칼 2, 칼 1, 국자 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 1
주걱 3, 토마토 2, 토마토 1.
> 상추 1을 식탁 1에 놓습니다.
상추 1을 식탁 1에 올려놓습니다.

표 7: ALFWorld 청소 작업을 위한 행동 요령. 제공된 아이디어가 없습니다.

여러분은 방 한가운데에 있습니다. 재빨리 주위를 둘러보니 찬장이 보입니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛
1, 커피머신 1대, 조리대 1대, 식탁 1대, 서랍 1대, 냉장고 1대,
쓰레기통 1개, 전자레인지 1개, 선반 3개, 선반 2개, 선반 1개, 싱크대 1개,
쿠커 4, 스토브 3, 스토브 2, 스토브 1 및 토스터 1.
여러분의 임무는 깨끗한 상추를 식탁에 올려놓는 것입니다.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열려 있습니다. 그 안에는 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3개, 감자 2개.
> 표 1로 이동
표 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 컵 2가 있습니다.
포크 2, 나이프 2, 칼 1, 손잡이가 긴 스푼 1, 양상추 1, 컵 2, 머그잔 1, 팬 2,
페퍼 쉐이커 1개, 스패출러 3개, 토마토 2개, 토마토 1개.
> 표 1의 양상추 1
표 1에서 상추 1을 선택합니다.
> 싱크대로 이동 1
싱크대 1에는 사과 2, 손잡이가 긴 숟가락 2, 숟가락 1, 토마토 3이 있습니다.
> 양상추 세척기 1개, 싱크대 포함 1개
싱크대 1을 사용하여 양상추 1을 씻습니다.
> 생각하기: 이제 상추를 씻습니다(1). 다음으로 표 1에 넣거나 그 위에 놓아야 합니다.
알겠습니다.
> 표 1로 이동
표 1에서 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크를 볼 수 있습니다.
2, 칼 2, 나이프 1, 손잡이가 긴 스푼 1, 컵 2, 머그컵 1, 팬 2, 후추통 1,
주걱 3개, 토마토 2개, 토마토 1개.
> 테이블 1에 양상추를 1인분씩 놓습니다.
테이블 1에 상추 1을 놓습니다.

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛이 있습니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 2, 캐비닛
1, 커피머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 1
쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 싱크대 1, ㄱ
스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1.
여러분의 임무는 식탁에 깨끗한 상추를 놓는 것입니다.
> 생각: 작업을 해결하려면 양상추를 찾아서 가져와서 씻어야 합니다.
싱크대에 넣고 식탁에 놓습니다.
OK.
> 먼저 양상추를 찾아야 합니다. 양상추는 다음에 나타날 가능성이 더 높습니다.
냉장고(1), 식탁(1), 싱크대(1), 스토브버너(1-3), 수납장(1-13). I
냉장고 1번부터 하나씩 확인할 수 있습니다.
OK.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 그 안에 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3, 감자 2.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 컵 2, 사과 1, 빵 1이 있습니다.
포크 2, 나이프 2, 칼 1, 국자 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 냄비 1, 냄비 2, 냄비 1
페퍼쉐이커 1, 주걱 3, 토마토 2, 토마토 1.
> 이제 양상추를 찾았습니다(1). 다음으로 가져가야 합니다.
OK.
> 식탁 1에서 상추 1을 가져옵니다.
식탁 1에서 양상추 1을 집어 올립니다.
> 생각하기: 이제 상추(1)를 가져갑니다. 다음으로, 싱크대(1)로 가서 청소해야 합니다.
It.
OK.
> 싱크대 1로 이동
싱크대 1에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 있습니다.
> 싱크대 1로 양상추 1 깨끗이 씻기
싱크대 1을 사용하여 양상추 1을 세척합니다.
> 이제 양상추(1)를 씻습니다. 다음으로 식탁(1)에 넣거나 식탁 위에 올려야 합니다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크가 있습니다.
2, 칼 2, 칼 1, 국자 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 1
주걱 3, 토마토 2, 토마토 1.
> 상추 1을 식탁 1에 놓습니다.
상추 1을 식탁 1에 올려놓습니다.

표 8: ALFWorld 청소 작업에 대한 ReAct 작업 알림.

여러분은 방 한가운데에 있습니다. 빠르게 주위를 둘러보면 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피메이커 1, 조리대 1, 식탁 1, 서랍장 1, 냉장고 1, 쓰레기통 1이 보입니다, 전자레인지 1, 선반 3, 선반 2, 선반 1, 세면대 1, 호브 4, 호브 3, 호브 2, 호브 1 및 토스터기 1.
여러분의 임무는 깨끗한 상추를 테이블 위에 올려놓는 것입니다.
> 생각하기: 이 과제를 해결하려면 상추를 찾아서 싱크대에서 씻은 다음 마지막으로 식탁 위에 올려야 합니다.
알겠습니다.
> 생각하기: 먼저 상추를 찾아야 합니다. 상추는 냉장고(1번), 식탁(1번), 싱크대(1번), 가스레인지 상단(1~3번), 찬장(1~13번)에 있을 가능성이 높습니다. 냉장고 1번부터 하나씩 확인할 수 있습니다.
알겠습니다.
> 냉장고로 이동 1
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 내부에는 컵 3, 달걀 2, 감자 3, 감자 2가 있습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 커터 1, 스푼 1, 주걱 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 숟가락 3, 토마토 2, 토마토 1이 있습니다.
> 생각하기: 이제 상추를 찾았습니다(1). 다음으로, 그것을 가져가야 합니다.
알겠습니다.
> 표 1에서 양상추 1을 가져옵니다.
표 1에서 상추 1을 선택합니다.
> 생각하기: 이제 상추(1)를 가져왔습니다. 다음으로, 싱크대(1)로 가서 씻어야 합니다.
알겠습니다.
> 세면대 1로 이동
세면대 1에는 사과 2, 주걱 2, 숟가락 1, 토마토 3이 있습니다.
> 세면대에서 양상추 씻기 1 1
1번 세면대에서 상추 1을 씻었습니다.
> 생각하기: 이제 상추를 씻었습니다(1). 이제 /업 테이블에 올려야 합니다.
알겠습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 칼 1, 숟가락 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 숟가락 3, 토마토 2, 토마토 1이 있습니다.
> 양상추 1을 테이블 위에 올려 놓습니다.
테이블 1에 양상추 1번을 놓습니다.

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛이 있습니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 2, 캐비닛
1, 커피머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 1
쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 싱크대 1, ㄱ
스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1.
여러분의 임무는 식탁에 깨끗한 상추를 놓는 것입니다.
> 생각: 작업을 해결하려면 양상추를 찾아서 가져와서 씻어야 합니다.
싱크대에 넣고 식탁에 놓습니다.
OK.
> 먼저 양상추를 찾아야 합니다.
OK.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 먼저 양상추를 찾아야 합니다.
OK.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 그 안에 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3, 감자 2.
> 먼저 양상추를 찾아야 합니다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 컵 2, 사과 1, 빵 1이 있습니다.
포크 2, 나이프 2, 칼 1, 국자 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 냄비 1, 냄비 2, 냄비 1
페퍼쉐이커 1, 주걱 3, 토마토 2, 토마토 1.
> 먼저 양상추를 찾아야 합니다.
OK.
> 식탁 1에서 상추 1을 가져옵니다.
식탁 1에서 양상추 1을 집어 올립니다.
> 생각: 싱크대 1을 사용하여 이 양상추(1)를 씻어야 합니다.
OK.
> 싱크대 1로 이동
싱크대 1에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 있습니다.
> 생각: 싱크대 1을 사용하여 이 양상추(1)를 씻어야 합니다.
OK.
> 싱크대 1로 양상추 1 깨끗이 씻기
싱크대 1을 사용하여 양상추 1을 세척합니다.
> 생각: 이 씻은 상추(1)를 식탁 1에 놓아야 한다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크가 있습니다.
2, 칼 2, 칼 1, 국자 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 1
주걱 3, 토마토 2, 토마토 1.
> 생각: 이 씻은 상추(1)를 식탁 1에 놓아야 한다.
OK.
> 상추 1을 식탁 1에 놓습니다.
상추 1을 식탁 1에 올려놓습니다.

표 9: ALFWorld 청소 작업에 대한 ReAct-IM 작업 프롬프트.

여러분은 방 한가운데에 있습니다. 빠르게 둘러보면 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 메이커 1, 조리대 1, 식탁 1, 서랍장 1, 냉장고 1, 쓰레기통 1, 다음이 보입니다. 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 호브 버너 4, 호브 버너 3, 호브 버너 2, 호브 버너 1, 토스터기 1.
여러분의 임무는 깨끗한 상추를 테이블 위에 올려놓는 것입니다.
> 생각하기: 이 과제를 해결하려면 상추를 찾아서 싱크대에서 씻은 다음 식탁에 올려야 합니다.
알겠습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 냉장고로 이동 1
냉장고 1이 닫혀 있습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 냉장고 안에는 컵 3, 달걀 2, 감자 3, 감자 2가 있습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 칼 1, 숟가락 1, 주걱 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 주걱 3, 토마토 2, 토마토 1이 있습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 표 1에서 양상추 1을 제거합니다.
표 1에서 상추 1을 선택합니다.
> 생각하기: 이 양상추(1)를 씻으려면 싱크대 1을 사용해야 합니다.
알겠습니다.
> 세면대 1로 이동
세면대 1에는 사과 2, 주걱 2, 숟가락 1, 토마토 3이 있습니다.
> 생각하기: 이 양상추(1)를 씻으려면 싱크대 1을 사용해야 합니다.
알겠습니다.
> 손 대야 사용 1 양상추 씻기 1
1번 세면기를 사용하여 1번 양상추를 씻었습니다.
> 생각하기: 이미 씻은 상추(1)를 식탁 위에 올려야 해요.
알겠습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 칼 1, 숟가락 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 주걱 3, 토마토 2, 토마토 1이 있습니다.
> 생각하기: 이미 씻은 상추(1)를 식탁 위에 올려야 해요.
알겠습니다.
> 상추 1을 테이블 위에 놓습니다.
상추 1번을 테이블 위에 놓습니다.

D 궤적

D.1 FEVER 궤적

아래는 ReAct, CoT, Act에서 생성된 궤적 중 일부이며, FEVER 개발 세트에서 무작위로 선택한 몇 가지 예시입니다. 지면 절약을 위해 검색 결과는 생략했습니다.

예 2491(표준 답변: 반박)

ReAct
주장: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
생각 1: 버뮤다 삼각지대를 검색해서 태평양에 있는지 찾아야 합니다.
행동 1: 검색[버뮤다 삼각지대] 관찰 1: 유령이 출몰한다고 알려진 장소...
생각 2 : 관측에 따르면 북대서양 서부에 있다고합니다.
바다이므로 태평양에 있지 않습니다.
행동 2: 완료[반박]관찰 2: 에피소드 완료
Act
주장: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
행동 1 : 검색[버뮤다 삼각지대]관찰 1 : 유령이 출몰한다고 알려진 장소:...
행동 2: 완료[반박]관찰 2: 에피소드 완료
CoT
주장: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
생각: 차근차근 생각해 봅시다. 버뮤다 삼각지대는 느슨하게 정의된 지역입니다.
태평양은 대서양이 아닙니다.
답변: 반박

ReAct
고지 사항: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
생각 1: 버뮤다 삼각지대가 태평양에 있는지 알아보기 위해 버뮤다 삼각지대를 검색해야 합니다.
조치 1: [버뮤다 삼각지대] 검색
관찰 1: 유령이 출몰하는 것으로 알려진 장소 중 일부는 다음과 같습니다.
반사 2: 관측 결과 북대서양 서쪽에 위치하므로 태평양에 있는 것이 아닙니다.
조치 2: 결론 [반박]
관찰 2: 에피소드 종료
Act
고지 사항: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
조치 1: [버뮤다 삼각지대] 검색
관찰 1: 유령이 출몰하는 것으로 알려진 장소는 다음과 같습니다.
조치 2: 결론 [반박]
관찰 2: 에피소드 종료
CoT(사고 과정)
고지 사항: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
생각: 한 번에 한 단계씩 살펴봅시다. 버뮤다 삼각지대는 대서양의 느슨하게 정의된 지역입니다. 태평양은 대서양이 아닙니다.
답변: 반박
이러한 논리적 추론 과정을 통해 버뮤다 삼각지대는 실제로 태평양이 아닌 대서양에 위치한다는 결론을 내릴 수 있습니다. 이 결론은 버뮤다 삼각지대의 지리적 위치에 대한 지식과 확인을 기반으로 합니다. 버뮤다 삼각지대는 신비한 실종과 전설로 유명하지만, 잘못된 정보와 혼란을 피하기 위해서는 지리적 위치의 정확성도 중요합니다.

예 5908(표준 답변: 지원)

ReAct
주장: 원령공주는 영화입니다.
생각 1: 원령공주를 검색해서 영화인지 확인해야겠어요.
행동 1: 검색[원령공주]관찰 1: 원령공주 ...
생각 2: 관찰한 바에 따르면 원령공주는 영화라고 합니다.
작업 2: 완료[지원]관찰 2: 에피소드 완료
Act
주장: 원령공주는 영화입니다.
행동 1: 검색[원령공주]관찰 1: 원령공주 ...
작업 2: 완료[지원]관찰 2: 에피소드 완료
CoT
주장: 원령공주는 영화입니다.
생각: 차근차근 생각해 봅시다. 원령공주는 영화이고, 영화는 다음과 같습니다.
영화.
답변: 지원

ReAct
면책 조항: 노자르카의 공주는 영화입니다.
아이디어 #1: 노자르카의 공주를 검색해서 영화인지 확인해야겠어요.
행동 1: [노이자르카의 공주] 관찰 1: "노이자르카의 공주"...
아이디어 2: 관찰 결과, 노자르카의 공주는 영화입니다.
조치 2: 완료 [지원] 관찰 2: 이 에피소드가 완료되었습니다.
Act
면책 조항: 노자르카의 공주는 영화입니다.
행동 1: [노이자르카의 공주] 관찰 1: "노이자르카의 공주"...
조치 2: 완료 [지원] 관찰 2: 이 에피소드가 완료되었습니다.
CoT
면책 조항: 노자르카의 공주는 영화입니다.
아이디어: 한 번에 한 단계씩 생각해 봅시다. 노자르카의 공주는 영화이고, 영화는 영화일 뿐입니다.
답변: 지원

예제 1951(표준 답안: 반박)

ReAct
주장: 소유즈는 미국 우주 프로그램의 일부였습니다.
생각 1: 소유즈 우주선을 검색하여 미국 우주선의 일부인지 확인해야 합니다.
프로그램.
활동 1: 검색[소유즈]관찰 1: 소유즈는 음역...
생각 2: 미국 우주 프로그램에 대한 언급이 없으므로 검색해야 합니다.
"미국 우주 프로그램"을 검색하여 그 일부인지 확인합니다.
활동 2: [미국 우주 프로그램] 검색하기 관찰 2: 우주 정책은...
생각 3: 소유즈에 대한 언급이 없기 때문에 이 주장이 사실인지 아닌지 잘 모르겠습니다.
조치 3: 완료[정보 불충분]관찰 3: 에피소드 완료
Act
주장: 소유즈는 미국 우주 프로그램의 일부였습니다.
활동 1: 검색[소유즈]관찰 1: 소유즈는 음역...
조치 2: 완료[정보 불충분]관찰 2: 에피소드 완료
CoT
주장: 소유즈는 미국 우주 프로그램의 일부였습니다.
생각: 차근차근 생각해 봅시다. 소유즈는 러시아 우주선입니다.
우주 프로그램은 NASA입니다. 함께 에서
국제 우주 정거장.
답변: 지원

ReAct
면책 조항: 소유즈는 미국 우주 프로그램의 일부입니다.
생각 1: 소유즈가 미국 우주 프로그램의 일부인지 알아보기 위해 소유즈를 검색해야 합니다.
활동 1: [소유즈] 검색하기 관찰 1: 소유즈는 소리 나는 단어입니다...
생각 2: 미국 우주 프로그램에 대한 언급이 없으므로 '미국 우주 프로그램'을 검색하여 그 일부인지 확인해야 합니다.
활동 2: 검색 [미국 우주 프로그램] 관찰 2: 우주 정책...
생각 3: 소유즈에 대한 언급이 없기 때문에 이 진술이 사실인지 아닌지 잘 모르겠습니다.
조치 3: 결론 [정보 불충분] 관찰 3: 결론
Act
면책 조항: 소유즈는 미국 우주 프로그램의 일부입니다.
활동 1: [소유즈] 검색하기 관찰 1: 소유즈는 소리 나는 단어입니다...
조치 2: 결론 [정보 불충분] 관찰 2: 결론
CoT
면책 조항: 소유즈는 미국 우주 프로그램의 일부입니다.
생각하기: 차근차근 생각해 봅시다. 소유즈는 러시아 우주선입니다. 미국의 우주 프로그램은 NASA입니다.NASA와 러시아는 국제 우주 정거장에서 협력하고 있습니다.
답변: 지원

예 3208(표준 답변: 반박)

ReAct
클레임: 레인 오버 미는 2010년에 제작된 미국 영화입니다.
생각 1: '나를 지배하라'를 검색해서 미국 영화인지 확인해야 합니다.
2010년에
행동 1: 검색[나를 다스리다] 관찰 1: 나를 다스리다 ...
생각 2 : 관찰에 따르면 2007 년에 만들어진 미국 영화이므로 그렇지 않습니다.
2010년에 제작되었습니다.
행동 2: 완료[반박]관찰 2: 에피소드 완료
Act
클레임: 레인 오버 미는 2010년에 제작된 미국 영화입니다.
행동 1: 검색[나를 지배하라] 행동 2: 완료[지원] 관찰 2: 에피소드 완료
CoT
클레임: 레인 오버 미는 2010년에 제작된 미국 영화입니다.
차근차근 생각해 봅시다. 먼저, '나를 지배하라'는 미국 영화인가요? 네, 맞습니다.
둘째, 2010년에 제작되었나요? 네, 그렇습니다.
답변: 지원

ReAct
면책 조항: '나를 지배하라'는 2010년에 제작된 미국 영화입니다.
아이디어 1: 2010년에 제작된 미국 영화인지 확인하기 위해 Reign Over Me를 검색해야 합니다.
활동 1: [나를 다스리다] 관찰 1: "나를 다스리다" 검색...
아이디어 2: 관찰 결과 2007년에 제작된 미국 영화이므로 2010년에 제작되지 않은 것으로 보입니다.
조치 2: 종료 [반박] 관찰 2: 종료
Act
면책 조항: '나를 지배하라'는 2010년에 제작된 미국 영화입니다.
행동 1: 검색 [내 위에 군림] 행동 2: 종료 [지원] 관찰 2: 종료
CoT
면책 조항: '나를 지배하라'는 2010년에 제작된 미국 영화입니다.
생각: 한 번에 한 단계씩 살펴봅시다. 먼저, '레인 오버 미'는 미국 영화인가요? 네, 맞습니다. 둘째, 2010년에 제작된 영화인가요? 네, 그렇습니다.
답변: 지원

D.2 ALFWORLD 궤적

동일한 ALFWorld 게임인 pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754에서 ReAct, Act 및 ReAct-IM의 궤적 예시를 제공합니다.

D.2.1 REACT 궤적

리액트는 칼을 제대로 찾아서 세척한 다음 조리대 위에 놓을 수 있었습니다.

리액트 ALF세계 궤적

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛 6, 캐비닛 7, 캐비닛 8이 있습니다.
캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 머신 1, A
카운터탑 3, 카운터탑 2, 카운터탑 1, 서랍 3, 서랍 2, 서랍 1, 서랍 1, A
냉장고 1, 쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 세면대 1
1, 스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1
1.
여러분의 임무는 깨끗한 칼을 조리대에 놓는 것입니다.
> 생각: 작업을 해결하려면 칼을 찾아서 가져와서 칼을 닦아야 합니다.
싱크대에 넣은 다음 조리대에 놓습니다.
OK.
> 먼저 칼을 찾아야 합니다. 칼은 캐비닛에 있을 가능성이 더 높습니다.
(1-6), 서랍(1-3), 조리대(1-3), 냉장고(1), 쓰레기통(1), 선반(1-3),
싱크대(1), 스토브버너(1-4), 토스터기(1). 다음부터 하나씩 확인할 수 있습니다.
캐비닛 1.
OK.
> 캐비닛 1로 이동
캐비닛 1에 그릇 1이 표시됩니다.
> 캐비닛 2로 이동
캐비닛 2가 닫혀 있습니다.
> 캐비닛 3으로 이동
캐비닛 3에는 유리병 1이 있습니다.
> 캐비닛 4로 이동
캐비닛 4에 머그컵 1이 있습니다.
> 캐비닛 5로 이동
캐비닛 5가 닫혀 있습니다.
> 캐비닛 6으로 이동
캐비닛 6이 닫혀 있습니다.
> 서랍 1로 이동
서랍 1이 닫혀 있습니다.
> 서랍 2로 이동
서랍 2가 닫혀 있습니다.
> 서랍 3으로 이동
서랍 3이 닫혀 있습니다.
> 카운터탑 1로 이동
조리대 1에는 양상추 2, 머그잔 2, 페퍼샤커 1, 스푼 2가 있습니다.
> 카운터탑 2로 이동
조리대 2에는 컵 1, 수세미 1, 유리병 3, 나이프 1, 칼 1이 있습니다.
접시 2, 감자 3, 동상 1.
> 이제 칼을 찾았습니다(1). 이제 칼을 가져가야 합니다.
OK.
> 조리대 2에서 칼 1을 가져옵니다.
조리대 2에서 칼 1을 집어 올립니다.
> 이제 칼을 가져옵니다(1). 다음으로 싱크대(1)로 가서 청소해야 합니다.
OK.
> 싱크대 1로 이동
싱크대 1에는 포크 3, 양상추 3, 주걱 2가 있습니다.
> 싱크대 1로 칼 1 청소하기
싱크대 1을 사용하여 칼 1을 청소합니다.
> 이제 칼을 닦습니다(1). 다음으로 조리대(1) 안에/위에 놓아야 합니다.
OK.
> 카운터탑 1로 이동
조리대 1에는 양상추 2, 머그잔 2, 페퍼샤커 1, 스푼 2가 있습니다.
> 칼 1을 조리대 1에 놓습니다.
조리대 1에 칼 1을 놓습니다.

여러분은 방의 중앙에 위치합니다. 빠르게 둘러보면 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 메이커 1, 테이블 상판 3, 테이블 상판 2, 테이블 상판 1, 서랍 3, 서랍 2, 서랍 1, 냉장고 1, 빈 1, 전자렌지 1, 선반 3, 선반 2, 선반 1, 선반 1이 있습니다. 싱크대 1, 호브 4, 호브 3, 호브 2, 호브 1, 토스터기 1.
당신의 임무: 깨끗한 칼을 테이블 위에 올려놓으세요.
> 생각하기: 작업을 완료하려면 칼을 찾아서 집은 다음 싱크대에서 칼을 닦아서 테이블 위에 놓아야 합니다.
알겠습니다.
> 생각하기: 먼저 칼을 찾아야 합니다. 칼은 찬장(1-6), 서랍(1-3), 테이블 위(1-3), 냉장고(1), 쓰레기통(1), 선반(1-3), 싱크대(1), 호브 플레이트(1-4), 토스터기(1)에 있을 가능성이 더 높습니다. 1번 캐비닛부터 하나씩 살펴볼 수 있습니다.
알겠습니다.
> 캐비닛 1로 이동
캐비닛 1에는 그릇 1이 표시됩니다.
> 캐비닛 2로 이동
캐비닛 2가 닫힙니다.
> 캐비닛 3으로 이동
캐비닛 3에는 유리병 1이 있습니다.
> 캐비닛 4로 이동
캐비닛 4에는 컵 1이 있습니다.
> 캐비닛 5로 이동
캐비닛 5가 닫힙니다.
> 캐비닛 6으로 이동
캐비닛 6이 닫힙니다.
> 서랍 1로 이동
서랍 1이 닫혀 있습니다.
> 서랍 2로 이동
서랍 2가 닫혀 있습니다.
> 서랍 3으로 이동
서랍 3이 닫혀 있습니다.
> 데스크톱 1로 이동
상판 1에는 상추 2, 컵 2, 후추 소금통 1, 숟가락 2가 있습니다.
> 데스크톱 2로 이동
테이블 2에는 컵 1, 붓 접시 양 1, 유리병 3, 칼 1, 접시 2, 감자 3개 3, 동상 1이 있습니다.
> 생각: 이제 칼을 찾았습니다(1). 이제 칼을 가져가야 합니다.
알겠습니다.
> 표 2에서 나이프 1을 선택합니다.
2번 테이블에서 1번 칼을 집어듭니다.
> 생각하기: 이제 칼을 집어 들었습니다(1). 다음으로, 싱크대(1)로 가서 닦아야 합니다.
알겠습니다.
> 싱크대 1로 이동
싱크대 1 위에는 포크 3, 양상추 머리 3, 터너 주걱 2가 있습니다.
> 청소용 칼 1과 싱크대 1
싱크대 1을 사용하여 칼 1을 청소합니다.
> 생각하기: 이제 칼을 닦았습니다(1). 이제 테이블(1)에 올려놓아야 합니다.
알겠습니다.
> 데스크톱 1로 이동
상판 1에는 상추 2, 컵 2, 후추 소금통 1, 숟가락 2가 있습니다.
> 칼 1을 테이블 1 위에/안에 놓습니다.
칼 1을 테이블 상단 1 위에/안에 놓습니다.

D.2.2 행위 궤적

액션 모델은 칼을 정확하게 찾을 수 있지만 실제로 싱크대 세면대로 이동하기 전에 싱크대 세면대를 사용하여 칼을 세척하려고 시도합니다. 이 시점부터 모델은 회복하지 못하고 동일한 명령 순서를 반복하는 데 빠지게 됩니다. ReAct 모델을 사용하면 기존 아이디어는 칼을 가져왔다는 것을 구체적으로 식별하고 다음 하위 목표는 싱크대 세면대로 이동하여 칼을 청소하는 것입니다.

D.2.3 REACT-IM 궤적

ReAct-IM은 칼의 위치를 정확하게 찾을 수 있었지만 칼을 세척할 수 없었습니다. 그러면 이 칼을 카운터에 놓으려고 할 때 LLM이 문제가 생깁니다. 한 가지 가능한 문제는 깨끗한 칼을 찾아야 한다고 생각하는 잘못된 생각입니다. 이 때문에 LLM은 칼이 이미 깨끗하게 세척되었다고 믿게 된 것 같습니다. 리액트에서는 이러한 일련의 하위 목표가 각 아이디어를 통해 구체적으로 포착됩니다.

D.3 웹샵 궤적

지침:애플 시나몬 맛 동결건조 바나나 칩 16팩을 $50.00 미만에 구입하세요.

표 10: Act와 ReAct로 예측한 웹샵 궤적 예시. Act와 달리 ReAct는 추론을 사용하여 모든 대상 속성을 충족하는 제품을 찾습니다.

E 더 많은 분석

E.1 성공 및 실패 모드 분석

섹션 3.3에 제시된 성공 및 오류 패턴 분석에 해당하는 몇 가지 예시를 제공합니다. 지면을 절약하기 위해 검색 결과와 대표적이지 않은 단계는 생략했습니다.

성공: 진정한 긍정

ReAct
질문: 저자 데이비드 채노프는 미 해군 제독으로 복무한 바 있는
어느 대통령 밑에서 주영국 대사를 지냈나요?
생각 1: 데이비드 채노프를 검색해서 미 해군 제독을 찾아야 합니다.
와 협업하고 있습니다.
활동 1: 검색[데이비드 차노프]관찰 1: 데이비드 차노프는 저명한 저술가입니다...
활동 2: 검색[윌리엄 J. 크로우] 관찰 2: 윌리엄 J. 크로우는...
생각 3: 윌리엄 J. 크로우는 영국 주재 대사를 역임했습니다.
그래서 정답은 빌 클린턴입니다.
액션 3: 완료[빌 클린턴]관찰 3: 에피소드 완료
CoT
질문: 애리조나 대학교를 대표하여 출전한 팀의 이름은 무엇인가요?
미국 서부의 광활한 지역을 아우르는 컨퍼런스입니다.
애리조나, 캘리포니아, 뉴멕시코를 포함해서요?
생각: 차근차근 생각해 봅시다. 애리조나를 대표하는 팀의 이름은 무엇입니까?
서부의 광범위한 지역을 포괄하는 컨퍼런스의 대학입니다.
애리조나, 캘리포니아, 뉴멕시코를 포함한 미국은 애리조나입니다.
주 선 데블스.
답변: 애리조나 주립대 선 데블스

ReAct
질문: 저자 데이비드 차르노프는 어느 대통령 밑에서 영국 대사를 지낸 미 해군 제독과 함께 일했나요?
반성 1: 데이비드 차르노프를 찾아서 그가 함께 일했던 미 해군 제독을 찾아봐야겠어요.
활동 1: [데이비드 차르노프] 검색하기] 관찰 1: 데이비드 차르노프는 유명한 작가입니다...
활동 2: [윌리엄 J. 크로우] 검색하기] 관찰 2: 윌리엄 J. 크로우는...
생각 3: 윌리엄 J. 크로우는 빌 클린턴 대통령 재임 시절 영국 대사였습니다. 따라서 정답은 빌 클린턴입니다.
행동 3: 결론 [빌 클린턴] 관찰 3: 행동 완료
CoT
질문: 애리조나, 캘리포니아, 뉴멕시코 등 미국 서부의 넓은 지역을 대상으로 하는 컨퍼런스에 애리조나에 있는 한 대학을 대표하는 팀은 어느 팀인가요?
생각할 거리: 단계별로 분석해 보겠습니다. 애리조나, 캘리포니아, 뉴멕시코 등 미국 서부의 광활한 지역을 아우르는 컨퍼런스에서 애리조나 주에 있는 대학을 대표하는 팀은 애리조나 주립대 선 데블스입니다.
에 대한 회신 애리조나 주립대 선 데블스

예측 오류/성공: 오탐

ReAct
질문: 보드 게임 산 마르코와 어바웃 타임 중 어느 것이 먼저 나왔나요?
생각 1: 산 마르코와 어바웃 타임을 검색하여 어떤 것이 먼저 나왔는지 찾아야 합니다.
행동 1: 검색[산 마르코]관찰 1: 산 마르코는 ... 베니스에 지어졌어요.
생각 2: 산 마르코는 베니스의 세스티에입니다. 다음에는 어바웃 타임을 검색해야겠어요.
작업 2: [약 시간] 검색 관찰 2: [약 시간]을 찾을 수 없습니다. 유사: [...] . .
생각 3: 어바웃 타임은 2013년에 개봉한 영화입니다. 그래서 산 마르코가 먼저 개봉했습니다.
액션 3: 완료[산 마르코]관찰 3: 에피소드 완료
CoT
질문: 밴더빌트 대학교와 에모리 대학교 중 어느 쪽이 먼저 설립되었나요?
생각: 차근차근 생각해 봅시다. 밴더빌트 대학교는 1873년에 설립되었습니다.
1836년 대학 설립 1873년(밴더빌트 대학교) > 1836년(에모리 대학교)
밴더빌트 대학교가 가장 먼저 설립되었습니다.
답변: 에모리 대학교

ReAct
질문: 세인트 마크와 어바웃 타임 중 어떤 보드 게임이 먼저 나왔나요?
생각 1: 세인트 마크와 어바웃 타임 중 어떤 게임이 먼저 출시되는지 확인해야 합니다.
활동 1: [산 마르코 대성당] 관찰 1: 산 마르코 대성당은... 산 마르코 성당은 베니스에 지어졌어요.
생각 2: 산 마르코는 베니스의 한 지역입니다. 다음으로 어바웃 타임을 검색해야 합니다.
작업 2: [약 시간] 검색 관찰 2: [약 시간]을 찾지 못했습니다. 대신 [...]을 찾았습니다.
생각 3: 어바웃 타임은 2013년에 개봉한 영화이므로 세인트 마크가 먼저 개봉했어야 합니다.
조치 3: 수색 종료 [산 마르코] 관측 3: 임무 종료
CoT
질문: 밴더빌트와 에모리 중 어느 대학이 먼저 설립되었나요?
반성: 먼저, 밴더빌트 대학교는 1873년에, 에모리 대학교는 1836년에 설립되었는데, 시간 순서로 보면 밴더빌트(1873년)가 에모리(1836년)보다 늦게 설립되었으므로 에모리가 먼저 설립되었다는 뜻입니다.
답변: 에모리 대학교가 먼저입니다.

실패: 추론 오류 / 실패: 추론 오류

ReAct
질문: 하비와 함께 캐스팅된 여배우의 중간 이름이 무엇인가요?
피어스타인, 린다 하트, 딕 라테사, 클라크 토렐, 메리 본드 데이비스, 로라
벨 번디, 매튜 모리슨, 코리 레이놀즈, 마리사 자렛 위노쿠르의
헤어스프레이?
생각 1: 하비 피어스타인, 린다 하트, 딕 라테사, 클라크 토렐을 검색해야 합니다.
메리 본드 데이비스, 로라 벨 번디, 매튜 모리슨, 코리 레이놀즈, 그리고
마리사 자렛 위노쿠르, 이들과 함께 캐스팅된 배우를 찾아보세요.
헤어스프레이를 클릭한 다음 중간 이름을 찾습니다.
조치 1: 검색[하비 피어스타인] 관찰 1: 하비 포브스 피어스타인 ...
생각 2: 하비 피어스타인은 배우, 극작가, 시나리오 작가입니다.
린다 하트 다음 검색...
조치 2: [린다 하트] 검색...
CoT
질문: 대니 그린과 제임스 워디 중 누가 더 나이가 많은가요?
생각: 차근차근 생각해 봅시다. 대니 그린은 1987년에 태어났습니다.
1961년생 1987년(대니 그린) > 1961년(제임스 워디)이므로 대니 그린은
이전.
답변: 대니 그린

ReAct
질문: 헤어스프레이에서 하비 피어스타인, 린다 하트, 딕 라테사, 클라크 토렐, 메리 본드 데이비스, 로라 벨 번디, 매튜 모리슨, 코리 레이놀즈, 마리사와 함께 출연한 배우의 중간 이름은 무엇인가요? 자렛 위노쿠르와 함께 공연한 여배우의 중간 이름은 무엇인가요?
아이디어 1: 하비 피어스타인, 린다 하트, 딕 라테사, 클라크 토렐, 메리 본드 데이비스, 로라 벨 번디, 매튜 모리슨, 코리 레이놀즈, 마리사를 찾아야 해요. 자렛 위노쿠르, 이들과 함께 연극에 출연했던 여배우를 찾아서 그녀의 중간 이름을 찾아보세요.
조치 1: [하비 피어스타인] 검색] 관찰 1: 하비 포브스 피어스타인...
아이디어 #2: 하비 피어스타인은 배우, 극작가, 시나리오 작가입니다. 다음으로 린다 하트를 검색하세요...
조치 2: [린다 하트] 검색...
CoT
질문: 대니 그린과 제임스 워디 중 누가 더 나이가 많나요?
생각: 단계적으로 해보자.대니 그린은 1987년생이고 제임스 워디는 1961년생입니다.1987(대니 그린) > 1961(제임스 워디)이므로 대니 그린이 더 나이가 많습니다.
에 대한 회신 대니 그린

실패: 검색 오류 / 실패: 검색 오류

ReAct
질문: 여신 프리그와 관련된 여신은 무엇으로 구성되어 있나요?
이야기?
생각 1: 여신 프리그를 검색하고 관련 여신을 찾아야 합니다.
행동 1: [여신 프리그] 검색]관찰 1: 여신 프리그를 찾지 못했습니다. 유사어: ['프리그', '프리그와 프레이야 공통
기원 가설', '프레이야(프릭과 다른 여신과의 관계 섹션
및 인물)', '에이르(에이르(여신)에서 리디렉션)', '발드르'].
생각 2: 대신 프릭을 검색해야 하는데...

ReAct
질문: 프리그 여신과 관련된 이야기로는 어떤 것이 있나요?
아이디어 #1: 프리그 여신을 검색하고 그녀와 관련된 여신들을 찾아야 합니다.
조치 1: [프리그 여신] 검색] 관찰 1: 프리그 여신을 찾을 수 없음. 유사: ['프리그', '프리그와 프레이야의 공통 기원 가설', '프레이야(프리그와 다른 여신 및 캐릭터와 관련)', '에이르(에이르(여신)에서 파생)', '발드르'].
아이디어 #2: 다른 방식으로 프릭을 검색하고 싶은데...

실패: 환각 / 실패: 환각

CoT
질문: 조직에서 과학 저널을 발행한 첫 해는 언제였나요?
가 출간되었나요?
생각: 차근차근 생각해 봅시다. 과학 저널이 발행된 첫해에
브롱크스에 위치한 한 기관은 1916년에 출판되었습니다.
답변: 1916(레이블: 1909)

CoT
질문: 브롱크스에 본사를 둔 기관에서 처음으로 과학 저널을 발행한 해는 언제인가요?
생각: 우리는 단계적으로 생각합니다. 브롱크스에 기반을 둔 이 기관에서 최초로 과학 저널을 발행한 해는 1916년입니다.
답변: 1916(레이블: 1909)

실패: 레이블 모호성 / 실패: 레이블 모호성

ReAct
질문: 독재자 게임을 개발한 사람의 국적은 무엇인가요?
생각 1: 독재자 게임을 검색하고, 그 게임을 개발한 사람을 찾은 다음, 그의
국적.
활동 1: 검색[독재자 게임]관찰 1: 독재자 게임은 사회 심리학에서 널리 사용되는 실험 도구입니다.
그리고 경제성...
활동 3: 검색[아모스 트베르스키] 관찰 3: 아모스 네이선 트베르스키...
생각 4: 아모스 트베르스키는 이스라엘의 인지 및 수학 심리학자입니다.
독재자 게임을 개발한 사람은 이스라엘인입니다.
행동 4: 완료[이스라엘] (레이블: 이스라엘-미국)
CoT
질문: 캘리포니아 스톡턴 출신의 커트 풀러가 출연한 아메리칸 탐정 코미디 영화
스티브 프랭크가 만든 드라마 TV 시리즈?
생각: 차근차근 생각해 봅시다. 캘리포니아 스톡턴의 커트 풀러가 Psych에 출연했습니다.
사이코는 미국 탐정 코미디 드라마 텔레비전 시리즈입니다.
스티브 프랭크스.
답: Psych(레이블: Psych는 미국의 탐정 코미디 드라마)

ReAct
질문: "독재자 게임"을 개발한 사람의 나라는 어디인가요?
생각 1: '독재자 게임'을 검색하여 이 게임을 개발한 사람을 찾은 다음 그의 국적을 알아내야 합니다.
활동 1: [독재자 게임] 검색하기 관찰 1: 독재자 게임은 사회심리학 및 경제학에서 흔히 사용되는 실험 도구입니다 ......
조치 3: [아모스 트베르스키] 관찰 3: 아모스 네이선 트베르스키 검색 ......
반성 4: 아모스 트베르스키는 이스라엘의 인지 및 수학 심리학자입니다. 따라서 '독재자 게임'을 발명한 사람은 이스라엘인입니다.
조치 4: 결론 [이스라엘](태그 참고: 이스라엘-미국)
CoT
질문: 스티브 프랭크가 제작한 미국 탐정 코미디 시리즈 중 캘리포니아 스톡턴 출신의 커트 풀러가 출연한 작품은 무엇인가요?
생각하기: 단계별로 살펴봅시다. 커트 풀러는 사이코에 출연했습니다. Psych는 스티브 프랭크가 제작한 미국 탐정 코미디 TV 시리즈입니다.
정답: '사이코'(라벨 참고: '사이코'는 미국 탐정 코미디 영화)

논제가 아닌 부분, 이해하기 쉽고 논리 정리가 간단합니다.

AI 기술 자료

AI 엔지니어링 아카데미: 2.12 셀프 쿼리 RAG: 메타데이터 필터링을 통한 향상된 검색 증강 생성

AI 기술 자료

1 년 전

039.4K

커서에 대한 Laravel 프로그래밍 프롬프트 단어 지시어 구성하기

AI 유틸리티 명령 # 코드

2 년 전

061.9K

대형 모델과 효과적으로 소통하는 데 도움이 되는 13가지 즉각적인 글쓰기 팁

AI 유틸리티 명령

2 년 전

056.1K

15 프로젝트 종료 ChatGPT 프롬프트 - 프로젝트 관리 ChatGPT 프롬프트 단어

AI 유틸리티 명령

2 년 전

041.8K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

원본
질문	답변
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?	1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족"에 관한 노래를 만들었습니다. 캐릭터 맷 그로닝은 닉슨의 이름을 따서 누구의 이름을 지었나요?	리처드 닉슨
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?	사이마 제스처
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?	감독, 시나리오 작가, 배우
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 먼저 창간되었나요?	아서 매거진
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?	예

원본
이슈	솔루션
콜로라도 오로니아의 동쪽 확장 지점의 고도 범위는 어떻게 되나요?	1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠가 심슨 가족 캐릭터인 밀하우스에 대한 노래를 작곡한 맷 그로닝은 어느 닉슨 대통령의 이름을 딴 인물인가요?	리처드 닉슨.
핀란드 록 밴드 아담 클레이튼 파월과 사이마에 관한 다큐멘터리는 무엇인가요?	사이마 작전
니콜라스 레이와 엘리아 카잔의 공통점은 무엇인가요?	감독, 시나리오 작가, 배우
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 더 먼저 창간되었나요?	아서 매거진
파벨 우리존과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?	be

Act
질문	액션	관찰
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?	콜로라도 오로겐] 검색	콜로라도 오로겐은 콜로라도와 그 주변 지역에서 산이 형성된 사건(오로겐)입니다.
	조회 [동부 섹터]	(결과 1 / i) 동쪽 구역은 고원 지대로 뻗어 있으며 중앙 평원 오로겐이라고 불립니다.
	높은 평원] 검색	고원지대는 두 개의 뚜렷한 토지 지역 중 하나를 의미합니다.
	검색[하이 플레인즈 (미국)]	고원지대는 대평원의 하위 지역으로, 동쪽에서 서쪽으로 약 1,800~7,000피트(550~2,130m)의 고도가 상승합니다. [3]
	완료	[1,800~7,000피트]
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족" 캐릭터 밀하우스에 대한 노래를 만들었는데, 맷 그로닝은 누구의 이름을 땄을까요?	밀하우스] 검색	밀하우스 무솔리니 반 호텐은 파멜라 헤이든이 목소리를 내고 맷 그로닝이 만든 폭스 애니메이션 TV 시리즈 심슨 가족의 반복되는 캐릭터입니다. 파멜라 헤이든이 목소리를 연기하고 맷 그로닝이 제작한 심슨 가족.
	조회 [이름]	(결과 1 / l) 밀하우스는 미국 대통령 리처드 닉슨의 중간 이름이 밀하우스인 이름을 따서 명명되었습니다.
	완료	[리처드 닉슨]
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?	아담 클레이튼 파월] 검색하기	아담 클레이튼 파월]을 찾을 수 없습니다. 유사 검색어: ['아담 클레이튼 파월 3세', '7번가(맨해튼)', '아담 클레이튼 파월 주니어 주 오피스 빌딩', '이사벨 워싱턴 파월', '아담 클레이튼 파월(영화)', '아담 클레이튼 파월(영화)']. 파월', '아담 클레이튼 파월 (영화)', '지안카를로 에스포지토'].
	아담 클레이튼 파월 (영화)] 검색	아담 클레이튼 파월은 리처드 킬버그 감독의 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어[3][4]의 흥망성쇠를 다룬 작품으로, 이후 PB 시리즈 아메리칸 익스피리언스의 일부로 방영되기도 했죠. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어의 흥망성쇠를 다룬 작품으로[3][4] 이후 PB 시리즈 '아메리칸 익스피리언스'의 일부로 방영되었습니다.
	완료	[사이마 제스처]
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?	니콜라스 레이] 검색	니콜라스 레이 (레이몬드 니콜라스 키엔즐 주니어, ) 1911년 8월 7일 - 1979년 6월 16일 출생)는 미국 영화 감독, 시나리오 작가, 배우로 가장 잘 알려져 있습니다. 1955년 영화 이유 없는 반란.
	엘리아 카잔] 검색	엘리아 카잔은 미국의 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우입니다.
	완료 [감독, 시나리오 작가, 배우]
어느 잡지가 먼저 시작되었나요? 아서스 매거진 또는 퍼스트 포 우먼?	아서 매거진] 검색	아서스 매거진(1844-1846)은 19세기 필라델피아에서 발행된 미국 문학 정기 간행물입니다.
	여성을 위한 첫 번째] 검색	퍼스트 포 우먼은 미국의 바우어 미디어 그룹에서 발행하는 여성 잡지입니다.[1] 이 잡지는 1989년에 창간되었습니다.
	아서 매거진] 완료
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명했나요?	파벨 유리손] 검색	파벨 사무일로비치 유리손(1898년 2월 3일 - 1924년 8월 17일)은 소련의 수학자로, 차원 이론에 기여한 것으로 가장 잘 알려져 있습니다.
	레오니드 레빈] 검색	레오니드 아나톨리예비치 레빈은 소련계 미국인 수학자이자 컴퓨터 과학자.
	마침[yes]

Act
이슈	움직임	주의
콜로라도 오로겐의 동쪽 부분이 확장되는 지역의 고도 범위는 얼마입니까?	콜로라도 산 만들기 캠페인] 검색	콜로라도 오로겐은 콜로라도와 그 주변에서 발생한 산 형성 운동(오로겐)입니다.
	동부 지역] 찾기	(결과 1 / i) 동쪽 구간은 고원 지대로 뻗어 있으며 중앙 평원 오로겐으로 알려져 있습니다.
	높은 평원] 검색	고원지대는 두 가지 지역 중 하나를 가리킵니다:
	하이 플레인즈(미국)] 검색	고원지대는 대평원의 하위 지역입니다. 고원지대의 고도는 동쪽에서 서쪽으로 약 1,800피트(550미터)에서 7,000피트(2,130미터)까지 상승합니다. [3]
	이행	[1,800~7,000피트]
음악가이자 풍자 작가인 앨리 고어츠는 심슨 가족 캐릭터 밀하우스에 대한 노래를 만들었는데, 매트 그로닝이 캐릭터의 이름을 따서 지었나요?	밀하우스] 검색	밀하우스 무솔리니 반 호텐은 파멜라 헤이든이 목소리를 연기하고 매트 그로닝이 제작한 폭스 애니메이션 TV 시리즈 심슨 가족의 상주 캐릭터입니다.
	명명된 소스] 찾기	(결과 1 / l) 밀하우스는 중간 이름이 밀하우스인 미국 대통령 리처드 닉슨의 이름을 따서 명명되었습니다.
	이행	[리처드 닉슨]
핀란드 록 밴드인 아담 클레이튼 파월과 사이마 제스처에 관한 다큐멘터리는 무엇인가요?	아담 클레이튼 파월] 검색하기	아담 클레이튼 파월]을 찾을 수 없습니다. 유사: ['아담 클레이튼 파월 3세', '7번가(맨해튼)', '아담 클레이튼 파월 주니어 주 오피스 빌딩', '이사벨 워싱턴 파월', '아담 파월', '아담 클레이튼 파월 (영화)', '지안카를로 에스포지토'].
	아담 클레이튼 파월 (영화)] 검색	아담 클레이튼 파월은 리처드 킬버그 감독의 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어의 흥망성쇠를 따라갑니다. [3][4] 이 영화는 나중에 PBS 시리즈 The American Experience의 일부로 방송되었습니다.
	이행	[사이마 제스처]
니콜라스 레이와 엘리아 카잔의 공통점은 무엇인가요?	니콜라스 레이] 검색	니콜라스 레이(본명 레이몬드 니콜라스 키엔즐 주니어, 1911년 8월 7일 - 1979년 6월 16일)는 미국의 영화 감독, 시나리오 작가, 배우로 1955년 영화 '이유 없는 반항'으로 가장 잘 알려진 인물입니다.
	엘리아 카잔] 검색	엘리아 카잔은 미국의 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우입니다.
	완료 [감독, 시나리오 작가, 배우]
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 먼저 창간되었나요?	아서 매거진]을 검색합니다.	아서스 매거진(1844-1846)은 19세기 미국 필라델피아에서 발행된 미국 문예지입니다.
	여성을 위한 첫 번째] 검색	퍼스트 포 우먼은 바우어 미디어 그룹이 미국에서 발행하는 여성 잡지입니다.[1] 1989년에 창간되었습니다. [1] 이 잡지는 1989년에 창간되었습니다.
	아서 매거진] 완료
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?	파벨 유리손] 검색	파벨 사무일로비치 유리손(1898년 2월 3일 - 1924년 8월 17일)은 소련의 수학자로, 차원수 이론에 기여한 것으로 가장 잘 알려져 있습니다.
	레오니드 레빈] 검색	레오니드 아나톨리예비치 레빈은 소련계 미국인 수학자이자 컴퓨터 과학자였습니다.
	완료됨 [예]

CoT
질문	생각	답변
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?	차근차근 생각해 봅시다. 콜로라도 오로겐의 동부 지역은 고원 지대로 확장됩니다. 고원 지대는 해발 1,800~7,000피트에서 상승하므로, 정답은 1,800~7,000피트입니다. 고원 지대의 고도는 약 1,800피트에서 7,000피트까지 상승하므로 정답은 1,800~7,000피트입니다.	1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족" 캐릭터 밀하우스에 대한 노래를 만들었는데, 맷 그로닝은 누구의 이름을 땄을까요?	밀하우스는 미국 대통령 리처드 닉슨의 이름을 딴 것이므로 정답은 리처드 닉슨입니다.	리처드 닉슨
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?	차근차근 생각해 봅시다. 아담 클레이튼 파월(영화)은 핀란드 록 그룹이 아니라 아프리카계 미국인 정치인에 관한 다큐멘터리입니다. 아담 클레이튼 파월(영화)은 핀란드 록 그룹이 아닌 아프리카계 미국인 정치인에 관한 다큐멘터리입니다.	사이마 제스처
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?	니콜라스 레이의 직업은 감독, 시나리오 작가, 배우입니다. 엘리아 카잔의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 엘리아 카잔의 직업은 감독, 프로듀서, 배우입니다.	감독, 시나리오 작가, 배우
어느 잡지가 먼저 시작되었나요? 아서스 매거진 또는 퍼스트 포 우먼?	차근차근 생각해 봅시다. 아서스 매거진은 1844년에 시작되었고, 퍼스트 포 우먼은 1989년에 시작되었습니다. 1844년(아서스 매거진) < 1989년(퍼스트 포 우먼), 그러니까 아서스 매거진이 먼저 시작되었습니다.	아서 매거진
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명했나요?	차근차근 생각해 봅시다. 파벨 유리손은 수학자이고 레오니드 레빈은 수학자이자 컴퓨터 과학자입니다. 따라서 파벨 유리손과 레오니드 레빈은 같은 종류의 일을 합니다.	예

CoT
이슈	사고 과정	솔루션
콜로라도 오로겐의 동쪽 부분이 확장되는 지역의 고도 범위는 얼마입니까?	이를 단계별로 살펴봅시다. 콜로라도 오로겐의 동쪽 부분은 고원 지대로 이어집니다. 고원 지대의 고도는 약 1,800피트에서 7,000피트까지 상승하므로 정답은 1,800~7,000피트입니다.	1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠는 심슨 가족 캐릭터 밀하우스에 대한 노래를 만들었는데, 매트 그로닝이 캐릭터의 이름을 따서 지었나요?	밀하우스는 미국 대통령 리처드 닉슨의 이름을 딴 것이므로 정답은 리처드 닉슨입니다.	리처드 닉슨.
핀란드 록 밴드 아담 클레이튼 파월에 관한 다큐멘터리인가요, 아니면 세마자 제스처에 관한 다큐멘터리인가요?	차근차근 살펴봅시다. 아담 클레이튼 파월(영화)은 핀란드 록 밴드에 관한 다큐멘터리가 아니라 아프리카계 미국인 정치인에 관한 다큐멘터리입니다. 따라서 핀란드 록 밴드에 대한 다큐멘터리는 '세마자 제스처'가 될 것입니다.	세마야 제스처
니콜라스 레이와 일리야 카잔의 공통점은 무엇인가요?	차근차근 살펴봅시다. 니콜라스 레이의 직업은 감독, 시나리오 작가, 배우입니다. 일리야 카잔의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 따라서 니콜라스 레이와 일리야 카잔은 감독, 시나리오 작가, 배우라는 직업을 공유합니다.	감독, 시나리오 작가, 배우
아서스 매거진이나 퍼스트 포 우먼이 먼저 시작되었나요?	이를 단계별로 살펴봅시다. 아서스 매거진은 1844년에 창간되었습니다. 1844년(아서스 매거진) < 1989년(퍼스트 포 우먼)이므로 아서스 매거진이 먼저 창간되었습니다.	아서 매거진
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?	파벨 유리손은 수학자이고 레오니드 레빈은 수학자이자 컴퓨터 과학자입니다. 따라서 파벨 유리손과 레오니드 레빈은 같은 종류의 직업을 가지고 있습니다.	be

ReAct: 대규모 언어 모델에서 함께 작동하는 추론과 행동

초록

1 소개

2 REACT: 협업적 추론 + 행동

3가지 지식 집약적 추론 작업

3.1 설정

3.2 방법론

3.3 결과 및 관찰

4 의사 결정 작업

5 관련 작업

6 결론

추가 결론

A.1 GPT-3 실험

A.2 핫팟QA에 대한 최신 지식을 얻기 위한 리액트

A.3 ALFWorld의 사이클에 대한 인간의 참여에 대한 행동 수정

B 실험 세부 정보

B.1 인기 주제 퀴즈 세부 사항 조정하기

B.2 ALFWORLD 인스턴트 스타일 세부 정보

C 프롬프트

C.1 인기 주제 퀴즈

C.2 팩트 추출 및 유효성 검사 데이터세트/FEVER

C.3 인터넷 쇼핑

C.4 ALFWORLD

D 궤적

D.1 FEVER 궤적

D.2 ALFWORLD 궤적

D.2.1 REACT 궤적

D.2.2 행위 궤적

D.2.3 REACT-IM 궤적

D.3 웹샵 궤적

E 더 많은 분석

E.1 성공 및 실패 모드 분석

RAG: 검색 증강

멀티북(예) 탈옥 공격

관련 문서

AI 엔지니어링 아카데미: 2.12 셀프 쿼리 RAG: 메타데이터 필터링을 통한 향상된 검색 증강 생성

커서에 대한 Laravel 프로그래밍 프롬프트 단어 지시어 구성하기

대형 모델과 효과적으로 소통하는 데 도움이 되는 13가지 즉각적인 글쓰기 팁

15 프로젝트 종료 ChatGPT 프롬프트 - 프로젝트 관리 ChatGPT 프롬프트 단어

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사