인공지능이 멈추고 생각하게 만들기: 앤트로픽의 '생각' 도구가 클로드 추론을 향상시키는 방법

59.3K 00

최근 Anthropic은 "생각"이라는 새로운 도구를 도입했습니다. Claude 모델을 활용하고 있습니다. 이 백서에서는 실제 애플리케이션에서 '생각' 도구의 설계 개념, 성능 및 모범 사례를 살펴보고 미래 AI 시스템 개발에 미칠 수 있는 잠재적 영향을 분석합니다.

'생각하기' 도구: 클로드가 멈춰서 생각하게 만들기 위한 도구입니다.

복잡한 문제를 해결하는 클로드의 능력을 지속적으로 향상시키기 위해 Anthropic은 간단하지만 효과적인 방법을 찾았는데, 바로 '생각' 도구를 도입한 것입니다." '생각하기' 도구는 복잡한 작업을 수행할 때 구조화된 사고를 위한 전용 공간을 제공합니다.

"생각" 도구가 Claude의 이전 "확장된 사고" 기능은 다릅니다. '확장된 사고'는 응답을 생성하는 데 있어 클로드의 역할을 강조합니다. 미리 깊은 사고와 반복적인 계획이 필요합니다. 그리고 '생각하기' 도구는 Claude에서 만들어졌습니다. 응답 생성을 시작한 후 를 클릭한 후 멈추고 앞으로 나아가는 데 필요한 모든 정보가 있는지 생각하는 단계를 추가할 수 있습니다. 이는 긴 도구 호출 체인을 수행하거나 사용자와 다단계 대화를 할 때 특히 유용합니다.

반면, '생각하기' 도구는 사용자 쿼리만으로 필요한 모든 정보를 얻을 수 없고 외부 정보(예: 도구 호출 결과)를 처리해야 하는 상황에 더 적합합니다. "생각" 도구가 수행하는 추론은 "확장적 사고"만큼 포괄적이지 않으며 다음과 같은 모델 발견에 더 중점을 둡니다. 메소-(화학) 정보.

인류학 "확장적 사고"는 비순차적 도구 호출이나 직접 명령어 따라하기와 같은 간단한 도구 사용 시나리오에 권장됩니다. "확장 사고"는 코딩, 수학, 물리학 등 클로드가 도구를 호출할 필요가 없는 시나리오에도 적합합니다." 생각' 도구는 복잡한 도구를 호출하거나, 긴 도구 호출 체인에서 도구 출력을 신중하게 분석하거나, 자세한 지침이 있는 전략 환경에서 탐색하거나, 각 단계가 이전 단계를 기반으로 하는 순차적 결정을 내려야 하는 시나리오에 더 적합합니다(실수로 인해 비용이 많이 드는 경우).

다음은 가장 일반적인 사용 방법 목록입니다. τ-벤치 표준 도구 사양 형식의 구현 예시입니다:

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或更改数据库，只会将想法附加到日志中。在需要复杂推理或某些缓存记忆时使用。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "一个需要思考的想法。"
}
},
"required": ["thought"]
}
}

τ-Bench 성능 테스트: 대폭 개선됨

'생각' 도구의 성능을 평가하기 위해 Anthropic은 실제 고객 서비스 시나리오에서 모델의 도구 사용 능력을 테스트하기 위해 고안된 종합 벤치마크인 τ-Bench(타우 벤치)를 사용하여 테스트했으며, 여기서 '생각' 도구는 평가를 위한 표준 환경의 일부입니다.

시에라 리서치 팀이 개발하여 최근 출시한 τ-Bench는 다음 영역에서 클로드의 역량을 평가하는 데 중점을 두고 있습니다:

실제 사용자 대화를 시뮬레이션합니다.
복잡한 고객 서비스 상담원 전략 가이드를 따르세요.
다양한 도구를 사용하여 환경 데이터베이스에 액세스하고 조작하세요.

τ-Bench에서 사용하는 주요 평가 지표는 통과입니다.^kpass@k 메트릭은 주어진 과제에서 모든 독립적인 과제 시험이 성공할 확률을 측정하며, 모든 과제에서 평균을 냅니다. 다른 LLM 평가에서 일반적으로 사용되는 pass@k 메트릭(k 번의 시도 중 하나 이상의 성공을 측정)과 달리, pass^k 이 평가는 일관성과 신뢰성에 대한 것으로, 항상 정책을 준수하는 것이 중요한 고객 서비스 애플리케이션에 매우 중요합니다.

성능 분석

앤트로픽의 평가는 다음과 같은 다양한 구성을 비교했습니다:

기준선('생각' 도구, 확장된 사고방식 없음)
확장된 사고방식만
"생각" 도구만
"최적화 팁이 포함된 '생각' 도구(항공용)

그 결과 Claude 3.5 소네트 모델이 '생각' 도구를 효과적으로 사용할 경우 벤치마크의 '항공사' 및 '소매' 고객 서비스 영역 모두에서 상당한 개선을 달성한 것으로 나타났습니다:

항공최적화 힌트가 포함된 '생각하기' 도구는 패스로 제공됩니다.¹ 지표는 기준치 0.370에 비해 0.570에 도달하여 541 TP3T의 상대적 개선이 있었습니다.
리테일'생각하기' 도구만 0.812로 기준선인 0.783에 비해 크게 높아졌습니다.

$让 AI 停下来思考：Anthropic \$

그림 1: τ-Bench로 평가한 "항공" 영역의 네 가지 구성에서 Claude 3.5 Sonnet의 성능.

다음 표는 τ-Bench로 평가한 "항공" 도메인의 네 가지 구성에 대한 Claude 3.5 Sonnet 모델의 데이터를 보여줍니다:

구성	k =1	k =2	k =3	k =4	k =5
"생각" + 단서 단어 최적화	0.584	0.444	0.384	0.356	0.340
"생각" 도구만	0.404	0.254	0.186	0.140	0.100
확장된 사고	0.412	0.290	0.232	0.192	0.160
기준선(측지 측량에서)	0.332	0.206	0.148	0.116	0.100

표 1: τ-Bench "항공" 영역의 Claude 3.5 Sonnet 평가 결과.

항공업계에서는 '생각하기' 도구와 최적화된 단서 단어를 함께 사용하면 최적의 성과를 달성할 수 있습니다. 최적화된 단서 단어는 고객 요청을 분석할 때 사용되는 추론 방법의 예를 제공합니다. 다음은 최적화된 프롬프트 단어의 예입니다:

## 使用 think 工具
在采取任何行动或在收到工具结果后回应用户之前，使用 think 工具作为草稿板来：
- 列出适用于当前请求的具体规则
- 检查是否收集了所有必需的信息
- 验证计划的操作是否符合所有策略
- 迭代工具结果以确保正确性
以下是在 think 工具中迭代的一些示例：
<think_tool_example_1>
用户想要取消航班 ABC123
- 需要验证：用户 ID、预订 ID、原因
- 检查取消规则：
  * 是否在预订后 24 小时内？
  * 如果不是，检查机票等级和保险
- 验证没有航段已飞行或已过时
- 计划：收集缺失信息，验证规则，获取确认
</think_tool_example_1>
<think_tool_example_2>
用户想要预订 3 张前往纽约的机票，每张机票有 2 件托运行李
- 需要用户 ID 来检查：
  * 会员等级以确定行李限额
  * 个人资料中存在哪些付款方式
- 行李计算：
  * 经济舱 × 3 名乘客
  * 如果是普通会员：每人 1 件免费行李 → 3 件额外行李 = 150 美元
  * 如果是白银会员：每人 2 件免费行李 → 0 件额外行李 = 0 美元
  * 如果是黄金会员：每人 3 件免费行李 → 0 件额外行李 = 0 美元
- 需要验证的付款规则：
  * 最多 1 张旅行券，1 张信用卡，3 张礼品卡
  * 所有付款方式必须在个人资料中
  * 旅行券余额作废
- 计划：
1. 获取用户 ID
2. 验证会员级别以确定行李费
3. 检查个人资料中的付款方式以及是否允许组合使用
4. 计算总价：机票价格 + 任何行李费
5. 获取明确的预订确认
</think_tool_example_2>

특히 흥미로운 점은 서로 다른 방법을 비교한 것입니다. 최적화 힌트와 함께 '생각하기' 도구를 사용하면 확장된 사고방식(힌트가 없는 '생각하기' 도구와 비슷한 성능을 보임)보다 훨씬 더 나은 결과를 얻을 수 있었습니다. 힌트 없이 '생각하기' 도구만 사용하면 기준선보다 성능이 향상되었지만 여전히 최적화 접근 방식에 비해서는 열등했습니다.

"생각" 도구와 최적화 힌트의 조합은 훨씬 더 나은 성능을 제공하며, 이는 벤치마크의항공 전략이 모델은 높은 수준의 복잡성에서 '사고'의 예시를 통해 가장 큰 이점을 얻을 수 있습니다.

리테일 분야에서도 Anthropic은 다양한 구성을 테스트하여 각 접근 방식의 구체적인 영향을 파악했습니다.

$让 AI 停下来思考：Anthropic \$

그림 2: τ-Bench로 평가한 '소매' 영역의 세 가지 구성에서 Claude 3.5 Sonnet의 성능.

아래 표는 τ-Bench로 평가한 "소매" 도메인의 세 가지 구성에 대한 Claude 3.5 Sonnet 모델의 데이터를 보여줍니다:

구성	k =1	k =2	k =3	k =4	k =5
"생각" 도구만	0.812	0.735	0.685	0.650	0.626
확장된 사고	0.770	0.681	0.623	0.581	0.548
기준선(측지 측량에서)	0.783	0.695	0.643	0.607	0.583

표 2: τ-Bench "소매" 영역의 Claude 3.5 Sonnet 평가 결과

추가 힌트 없이도 '생각하기' 도구는 가장 높은 합격률을 달성합니다.¹ 점수 0.812.소매 전략항공 분야보다 훨씬 다루기가 쉬웠던 클로드는 추가 지시 없이 생각할 수 있는 공간을 확보함으로써 성과를 향상시킬 수 있었습니다.

τ-Bench 분석의 주요 인사이트

앤트로픽의 상세한 분석을 통해 '생각하기' 도구를 효과적으로 구현하는 데 도움이 되는 몇 가지 패턴이 밝혀졌습니다:

어려운 영역에서는 단서 단어가 중요합니다.. 단순히 '생각하기' 도구를 제공하는 것만으로도 성능이 약간 향상될 수 있지만, 최적화된 단서와 함께 사용하면 어려운 도메인에서 훨씬 더 나은 결과를 얻을 수 있습니다. 그러나 더 간단한 도메인은 '생각하기' 도구를 사용하는 것만으로도 이점을 얻을 수 있습니다.
시험 전반의 일관성 향상'생각하기' 도구는 패스를 개선합니다. 패스 시 '생각하기' 도구 사용으로 인한 개선 사항^k 를 k=5로 유지할 때 이 도구가 에지 케이스와 비정상적인 시나리오를 보다 효율적으로 처리하는 데 도움이 된다는 것을 알 수 있습니다.

SWE-Bench 성능 테스트: 케이크의 장식

클로드 3.5 소네트 모델을 평가하는 동안, 앤트로픽은 SWE-Bench 설정에 유사한 "생각" 툴을 추가하여 0.623의 최신 버전으로 끌어올렸습니다. 수정된 "생각" 도구는 아래에 정의되어 있습니다:

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或对存储库进行任何更改，只会记录想法。在需要复杂推理或集思广益时使用。例如，如果您探索存储库并发现了错误的根源，请调用此工具来集思广益几种独特的修复错误的方法，并评估哪些更改可能最简单和最有效。或者，如果您收到一些测试结果，请调用此工具来集思广益修复失败测试的方法。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "您的想法。"
}
},
"required": ["thought"]
}
}

앤트로픽의 실험(n ='생각' 도구를 사용하여 샘플 30개. n (=144개 샘플에서 '생각' 도구를 포함하지 않은 경우)에 따르면 이 도구를 포함했을 때 독립적인 효과로 평균 1.6%의 성능 향상(Welch의 t 테스트: t (38.89) = 6.71, p < .001, d = 1.47).

'생각하기' 도구의 시나리오

이러한 평가 결과를 바탕으로 앤트로픽은 클로드가 '생각하기' 도구를 통해 가장 큰 혜택을 받을 수 있는 구체적인 시나리오를 파악했습니다:

도구 출력 분석클로드가 동작하기 전에 이전 도구 호출의 출력을 신중하게 처리해야 하고, 그 메서드에서 역추적이 필요할 수 있습니다.
전략 집약적 환경클로드가 세부 지침을 따르고 규정 준수 여부를 확인해야 하는 경우.
순차적 의사 결정각 작업이 이전 작업을 기반으로 하고 실수로 인해 비용이 많이 드는 경우(일반적으로 다단계 도메인에서 발견됨).

모범 사례: '생각' 도구 최대한 활용하기

Claude의 '생각' 도구를 최대한 활용하기 위해 Anthropic은 τ-Bench 실험을 기반으로 다음과 같은 구현 모범 사례를 제안합니다.

1. 전략적 팁 및 영역별 예시

이를 위한 가장 효과적인 방법은 '생각하기' 도구의 사용 시기와 방법에 대한 명확한 지침을 제공하는 것입니다(예: τ-Bench 항공우주 도메인). 특정 사용 사례에 맞는 예제를 제공하면 모델의 '생각하기' 도구 사용 효율성이 크게 향상될 수 있습니다:

추론 프로세스에서 예상되는 세부 수준입니다.
복잡한 지침을 실행 가능한 단계로 세분화하는 방법.
일반적인 시나리오를 처리하기 위한 의사 결정 트리입니다.
필요한 모든 정보가 수집되었는지 확인하는 방법.

2. 시스템 알림에 복잡한 가이드 배치

앤트로픽은 '사고' 도구 설명이 길고 복잡할 때는 도구 설명 자체에 넣는 것보다 시스템 프롬프트에 포함시키는 것이 더 효과적이라는 사실을 발견했습니다. 이러한 접근 방식은 더 넓은 맥락을 제공하고 모델이 사고 과정을 전반적인 행동에 더 잘 통합하는 데 도움이 됩니다.

'생각하기' 도구를 사용하지 않는 경우

'생각하기' 도구는 상당한 개선 효과를 제공할 수 있지만 모든 도구 사용 시나리오에 적용할 수 있는 것은 아니며 프롬프트 길이와 출력량이 늘어납니다. 토큰 도구의 비용. 특히 다음과 같은 사용 사례에서는 '생각하기' 도구의 개선점을 찾지 못했습니다:

비순차적 도구 호출Claude가 작업을 완료하기 위해 한 번만 도구를 호출하거나 여러 번 병렬로 호출해야 하는 경우 '생각' 도구를 추가해도 개선 효과가 없을 수 있습니다.
다음 간단한 명령클로드가 많은 제약 조건을 따를 필요가 없고 기본 동작이 충분히 좋은 경우, 추가적인 '생각'은 효과가 없을 가능성이 높습니다.

빠른 시작: 몇 가지 간단한 단계로 의미 있는 결과 얻기

'생각하기' 도구는 Claude 구현에 간단하게 추가할 수 있는 기능으로, 몇 단계만 거치면 의미 있는 개선 효과를 얻을 수 있습니다:

프록시 도구 사용 시나리오로 테스트. 긴 도구 콜 체인에서 정책 준수 또는 복잡한 추론으로 어려움을 겪고 있는 까다로운 사용 사례부터 시작하세요.
도구 정의 추가. 도메인에 맞게 맞춤화된 '생각하기' 도구를 구현하세요. 최소한의 코드만 필요하지만 보다 체계적인 추론이 가능합니다. 또한 시스템 프롬프트에 도메인에 관련된 예시와 함께 도구를 언제 어떻게 사용해야 하는지에 대한 지침을 포함시키는 것도 고려해 보세요.
모니터링 및 개선. 클로드가 실제로 이 도구를 어떻게 사용하는지 관찰하고 더 효과적인 사고 패턴을 장려하기 위해 프롬프트를 조정하세요.

가장 중요한 것은 이 도구를 추가해도 성능 결과 측면에서 단점이 거의 없다는 점입니다. Claude가 사용하기로 결정하지 않는 한 외부 동작을 변경하거나 기존 도구나 워크플로우를 방해하지 않습니다.

요약 및 전망

Anthropic의 연구에 따르면 '생각' 도구는 긴 도구 콜 체인에 대한 정책 준수와 추론이 필요한 복잡한 작업에서 Claude 3.5 소네트 모델의 성능을 크게 향상시키는 것으로 나타났습니다. '생각' 도구는 모든 작업에 적용 가능한 솔루션은 아니지만, 구현 복잡성을 최소화하면서 적절한 사용 사례에 상당한 이점을 제공합니다.

개발자들이 '생각하기' 도구를 사용해 더욱 강력하고 신뢰할 수 있으며 투명한 AI 시스템을 구축하는 방법을 기대합니다. 향후에는 강화 학습 및 지식 그래프와 같은 다른 AI 기술과 '생각' 도구를 결합하여 AI 모델의 추론 및 의사 결정 능력을 더욱 향상시킬 수 있는 방법을 모색할 계획입니다. 한편, 보다 효과적인 큐잉 전략을 설계하는 방법과 '생각하기' 도구를 더 다양한 분야에 적용하는 방법도 연구할 가치가 있는 중요한 방향이 될 것입니다.