COT 및 관련 고급 큐 변형 큐 단어 설명

고지 사항: 기본적인 힌트 기법(예: 샘플 예시가 없거나 적은 경우 또는 명령형 힌트)은 매우 효율적이지만, 일부 복잡한 퍼즐(예: 수학/프로그래밍 또는 다단계 논리적 추론이 필요한 문제)에 직면했을 때는 보다 정교한 힌트가 더 효과적일 수 있습니다. 대규모 언어 모델(LLM)은 당연히 이러한 문제를 처리하는 데 어려움이 있기 때문에(모델 크기에 따라 추론 능력이 단조롭게 증가하지 않음), 프롬프트 디자인에 관한 대부분의 연구는 추론 능력과 복잡한 문제 해결 능력을 향상시키는 방법에 초점을 맞춰 왔습니다. 대부분의 다른 문제에는 간단한 단서만으로도 충분합니다.

생각의 사슬(CoT)힌트[1]는 모델의 힌트에 일련의 중간 추론 단계를 추가하여 LLM의 추론 기능을 활성화합니다. 각 예제에 대한 생각의 사슬을 추가함으로써 모델은 문맥 학습을 통해 답을 제시하기 전에 유사한 생각의 사슬을 자동으로 생성하는 방법을 학습합니다. 1]의 연구는 문제 해결을 위한 추론 과정을 명시적으로 설명하는 것이 실제로 모델의 추론 능력을 향상시키는 데 효과적일 수 있음을 보여줍니다.

입력:
이 세트의 홀수는 4, 8, 9, 15, 12, 2, 1과 같이 짝수로 합산됩니다.
A: 홀수(9, 15, 1)를 모두 더하면 25가 됩니다. 정답은 거짓입니다.
이 그룹의 홀수는 17, 10, 19, 4, 8, 12, 24와 같이 짝수로 합산됩니다.
A: 홀수(17, 19)를 모두 더하면 36이 됩니다. 답은 참입니다.
이 세트의 홀수는 16, 11, 14, 4, 8, 13, 24와 같이 짝수로 합산됩니다.
A: 홀수(11, 13)를 모두 더하면 24가 됩니다. 답은 참입니다.
이 세트의 홀수는 17, 9, 10, 12, 13, 4, 2와 같이 짝수로 합산됩니다.
A: 홀수(17, 9, 13)를 모두 더하면 39가 됩니다. 정답은 거짓입니다.
이 세트의 홀수는 15, 32, 5, 13, 82, 7, 1과 같이 짝수로 합산됩니다.
A:
출력:
모든 홀수(15, 5, 13, 7, 1)를 더하면 41이 됩니다. 정답은 거짓입니다.

자동화된 생각의 사슬(Auto-CoT)[8]: 사고사슬 프롬프트를 사용할 때는 효과적이고 다양한 예시를 수동으로 만들어야 합니다. 이러한 수작업은 차선의 해결책으로 이어질 수 있습니다. [8]에서는 LLM의 "단계별로 생각해 봅시다" 프롬프트를 사용하여 추론의 사슬을 차례로 생성함으로써 수작업을 없애는 방법을 제안합니다. 이 자동화된 프로세스에서도 생성된 체인에 오류가 발생할 수 있습니다. 오류의 영향을 완화하기 위해서는 다양한 표현이 중요합니다. 이 연구에서는 다양성을 가진 문제를 샘플링하고 추론의 사슬을 생성하여 데모를 구성하는 Auto-CoT를 제안합니다.

Auto-CoT는 크게 두 단계로 구성됩니다:

1단계: 문제 클러스터링: 주어진 문제를 여러 개의 클러스터로 나누기
2단계: 데모 샘플링: 각 배열에서 대표적인 문제를 선택하고 간단한 휴리스틱을 사용하여 제로 샷-CoT를 사용하여 추론 체인을 생성합니다.
간단한 휴리스틱은 문제의 길이(예: 60개의 토큰)와 추론의 단계 수(예: 5개의 추론 단계)가 될 수 있습니다. 이는 모델이 간단하고 정확한 프레젠테이션을 사용하도록 장려합니다.

프로세스는 아래와 같습니다:

CoT 변형CoT 프롬프트의 유효성과 그 인기를 감안하여 여러 가지 파생 기법이 제안되었습니다:

샘플 예제 제로 CoT [2]: 몇 가지 예제를 제거하고 프롬프트 끝에 "단계별로 생각해 봅시다."를 추가하여 모델에서 문제 해결을 위한 논리적 추론을 생성하도록 동기를 부여합니다. 를 추가하여 모델이 문제 해결을 위한 논리적 추론을 생성하도록 동기를 부여합니다.

입력:
저는 시장에 가서 사과 10개를 샀습니다. 저는 이웃에게 사과 2개를, 수리공에게 사과 2개를 주었습니다. 그리고 나서 저는 사과 5개를 사서 1개를 먹었습니다. 제게 남은 사과는 몇 개였나요?
차근차근 생각해 봅시다.
출력:
먼저 사과 10개로 시작합니다.
이웃과 수리공에게 사과를 각각 2개씩 주었으므로 사과가 6개 남았습니다.
그런 다음 사과 5개를 구매하면 이제 11개의 사과를 갖게 됩니다.
결국 사과 1개를 먹었으니 사과가 10개가 남았습니다.

자기 일관성(SC)[3]: 여러 솔루션을 독립적으로 생성하고 최종 답변에 대해 다수결로 투표하여 추론 과정의 견고성을 향상시킵니다.

입력:
질문: 숲에 나무가 15그루 있어요. 임업 노동자들이 오늘 숲에 나무를 심을 예정입니다. 나무 심기가 끝나면 21그루의 나무가 있을 것입니다. 오늘 숲 가꾸기 작업자들은 몇 그루의 나무를 심었나요?
A: 저희는 15그루로 시작했습니다. 나중에는 21그루를 심었습니다. 그 차이는 그들이 심은 나무의 수일 것입니다. 따라서 21-15 = 6그루의 나무를 심었어야 합니다. 정답은 6입니다.
질문: 주차장에 차량 3대가 있었는데 2대가 더 왔는데, 주차장에 몇 대의 차량이 있었나요?
A: 주차장에 이미 3대의 차량이 있습니다. 또 다른 2대의 차량이 들어왔습니다. 이제 3 + 2 = 5대의 차량이 있습니다. 정답은 5입니다.
질문: 레아는 초콜릿 32개, 여동생은 42개를 가지고 있습니다. 둘이 35개씩 먹었다면 총 몇 개가 남았나요?
답: 레아는 초콜릿 32개를 가지고 있고 레아의 여동생은 42개를 가지고 있습니다. 즉, 처음에는 32개 + 42개 = 74개의 초콜릿이 있었습니다. 35개는 이미 먹었습니다. 따라서 두 사람에게는 총 74 - 35 = 39개의 초콜릿이 남아 있습니다. 정답은 39입니다.
질문: 제이슨은 막대 사탕 20개를 가지고 있습니다. 제이슨이 데니에게 막대 사탕을 주었습니다. 이제 제이슨은 막대 사탕을 12개만 가지고 있습니다. 제이슨은 데니에게 몇 개의 막대 사탕을 주었나요?
답: 제이슨은 막대 사탕 20개를 가지고 있습니다. 제이슨은 현재 12개만 가지고 있으므로 나머지는 데니에게 주어야 합니다. 제이슨이 데니에게 주는 막대 사탕의 수는 20 - 12 = 8개여야 합니다. 정답은 8개입니다.
질문: 숀은 장난감이 다섯 개 있습니다. 크리스마스에 부모님으로부터 장난감 두 개를 받았습니다. 지금은 몇 개의 장난감을 가지고 있나요?
A: 장난감 5개가 있습니다. 엄마로부터 2개를 받았으므로 5 + 2 = 7개의 장난감을 가지고 있습니다. 그리고 아빠로부터 2개를 받았으므로 총 7 + 2 = 9개의 장난감을 가지고 있습니다. 정답은 9입니다.
질문: 서버실에는 9대의 컴퓨터가 있습니다. 월요일부터 목요일까지 매일 5대의 컴퓨터가 설치됩니다. 현재 서버실에는 몇 대의 컴퓨터가 있나요?
A: 월요일부터 목요일까지 4일간이었습니다. 매일 5대의 컴퓨터가 추가되었습니다. 즉, 총 4 * 5 =
컴퓨터 20대. 처음에 컴퓨터가 9대였으므로 이제 컴퓨터는 9대 + 20대 = 29대입니다. 정답은 29대입니다.
질문: 마이클은 58개의 골프공을 가지고 있습니다. 화요일에 그는 골프공 23개를 잃었습니다. 수요일에는 2개를 더 잃었습니다. 수요일이 끝났을 때 마이클에게 남은 골프 공은 몇 개였을까요?
A: 마이클은 처음에 58개의 공을 가지고 있었습니다. 화요일에 23개를 잃었으므로 이제 58-23 = 35개의 공을 가지고 있습니다. 수요일에 2개를 더 잃었으므로 이제 35-2 = 33개의 공이 있습니다. 정답은 33입니다.
질문: 올리비아는 23달러를 가지고 있습니다. 그녀는 베이글 5개를 각각 3달러에 샀습니다. 올리비아에게 남은 돈은 얼마인가요?
A: 그녀는 베이글 5개를 개당 3달러에 샀습니다. 즉, 15달러를 지출했습니다. 8달러가 남았습니다.
질문: 제가 6살이었을 때 제 누나는 제 나이의 절반이었습니다. 제가 70살이 된 지금 여동생은 몇 살인가요?
A:
출력 1:
제가 6살이었을 때 누나는 제 나이의 절반, 즉 3살이었어요. 이제 저는 70살이니 누나는 70-3 = 67살입니다. 정답은 67입니다.
출력 2:
화자가 6살이었을 때 누나는 화자의 나이의 절반인 3살이었습니다. 이제 화자는 70세이므로 누나는 70-3 = 67이 됩니다. 정답은 67입니다.
출력 3:
제가 6살이었을 때 제 동생은 제 나이의 절반인 3살이었어요. 이제 저는 70살이니 누나는 70/2 = 35살입니다. 정답은 35입니다.

최소에서 최대[4]: 문제를 여러 부분으로 나누어 하나씩 풀고, 각 하위 문제에 대한 답을 다음 문제를 풀기 위한 맥락으로 활용합니다.

입력:
고객 문의.
3월 1일에 아놀드 컬렉션의 티셔츠를 구매했습니다. 세일 중인 것을 보고 원래 30달러 할인된 셔츠를 구입했습니다. 이제 새로운 티셔츠 할인이 50% 할인된 것을 확인했습니다. 반품해도 티셔츠 2장을 구매할 수 있는 스토어 크레딧을 받을 수 있는지 궁금합니다.
명령.
귀하는 고객 문의에 친절하게 응대하는 고객 서비스 담당자입니다. 반품은 30일 이내에 가능합니다. 오늘은 3월 29일입니다. 현재 모든 셔츠가 50% 할인 중입니다. 매장 내 셔츠 가격은 $18-$100입니다. 할인 정책에 대한 정보를 만들어내지 마세요.
이 질문에 답하기 전에 어떤 하위 질문을 해결해야 하나요?
출력:
1. 고객이 셔츠를 구매한 날짜입니다;
2. 현재 할인 활동;
3. 상점의 셔츠 가격대;
4. 고객의 상점 크레딧이 충분한지 여부;
5. 고객 반품 관련 정책.
입력:
고객 문의.
3월 1일에 아놀드 컬렉션의 티셔츠를 구매했습니다. 세일 중인 것을 보고 원래 30달러 할인된 셔츠를 구입했습니다. 이제 새로운 티셔츠 할인이 50% 할인된 것을 확인했습니다. 반품해도 티셔츠 2장을 구매할 수 있는 스토어 크레딧을 받을 수 있는지 궁금합니다.
명령.
귀하는 고객 문의에 친절하게 응대하는 고객 서비스 담당자입니다. 반품은 30일 이내에 가능합니다. 오늘은 3월 29일입니다. 현재 모든 셔츠가 50% 할인 중입니다. 매장 내 셔츠 가격은 $18-$100입니다. 할인 정책에 대한 정보를 만들어내지 마세요.
고객이 30일 반품 기간 내에 있는지 확인합니다. 한 번에 한 단계씩 살펴봅시다.
출력:
고객 여러분, 아놀드 제품군을 성원해 주셔서 대단히 감사합니다! 저희 서비스를 제공하게 되어 기쁘게 생각합니다. 반품 정책은 구매 후 30일 이내에 상품을 반품할 수 있다는 것입니다. 3월 1일에 상품을 구매하셨으므로 아직 반품 기간 내에 있으므로 반품이 가능합니다.
또한, 현재 상점 크레딧으로 아놀드 컬렉션의 티셔츠 2장을 구매할 수 있는 50% 세일을 진행 중입니다. 셔츠 가격은 18달러에서 100달러까지 다양하므로 필요에 따라 알맞은 셔츠를 선택할 수 있습니다.
기타 궁금한 점이 있으시면 언제든지 문의해 주세요. 기꺼이 도와드리겠습니다!

생각의 나무 [ToT].팁 [5]: CoT 팁은 계획, 전략적 선견지명, 역추적, 여러 해결책을 동시에 탐색해야 하는 문제를 해결하지 못합니다. toT 팁은 복잡한 문제를 일련의 간단한 문제(또는 "생각")로 분할합니다. lLM은 수많은 "생각"을 생성하고 자연어를 통해 최종 해결책을 향한 진행 상황을 지속적으로 평가합니다. LLM은 수많은 '생각'을 생성하고 자연어를 통해 최종 해결책을 향한 진행 상황을 지속적으로 평가합니다. 솔루션 진행 상황에 대한 모델의 자체 평가를 사용하여 널리 사용되는 검색 알고리즘(예: 폭 우선 또는 깊이 우선 검색)을 적용하여 탐색 과정을 용이하게 하고 문제를 해결할 때 예측/역추적이 가능하도록 할 수 있습니다.

이 질문에 세 명의 다른 전문가가 답한다고 가정해 보겠습니다.
모든 전문가가 문제에 대해 생각하는 첫 번째 단계를 적어 그룹과 공유했습니다.
그런 다음 모든 전문가가 다음 단계의 생각을 적고 공유합니다.
모든 전문가가 생각의 모든 단계에 대해 글을 쓸 때까지 계속합니다.
사람들이 전문가의 단계가 잘못되었다는 것을 알아채는 즉시 해당 전문가를 내보내세요.
실례합니다 ...

생각의 그래프(GoT)힌트 [6, 7]: 후속 연구에서는 ToT 힌트에 대한 작업을 그래프 기반 추론 전략으로 확장했습니다. 이러한 기법은 ToT 힌트와 유사하지만 솔루션을 생성하는 사고의 경로가 선형적이라고 가정하지 않습니다. 해결책을 도출할 때 생각을 재사용하고 일련의 생각에 재귀적으로 적용할 수도 있습니다. 다양한 그래프 기반 힌트 전략이 제안되어 왔지만, 이러한 기법과 ToT 힌트는 그 효용성이 부족하다는 비판을 받아왔습니다. GoT 힌트를 사용하여 추론 문제를 해결하려면 LLM이 많은 추론 단계를 수행해야 할 수 있습니다!

아래는 위에 인용된 모든 논문의 링크입니다!

[1] https://arxiv.org/abs/2201.11903
[2] https://arxiv.org/abs/2205.11916
[3] https://arxiv.org/abs/2203.11171
[4] https://arxiv.org/abs/2205.10625
[5] https://arxiv.org/abs/2305.10601
[6] https://arxiv.org/abs/2308.09687
[7] https://arxiv.org/abs/2305.16582

[8] https://arxiv.org/abs/2201.11903