最近、Anthropicは "think "という新しいツールを発表した。 クロード 複雑な問題解決におけるモデル本稿では、実世界のアプリケーションにおける「考える」ツールの設計コンセプト、パフォーマンス、ベストプラクティスを掘り下げ、将来のAIシステム開発への潜在的な影響を分析する。
考える」ツール:クロードに立ち止まって考えさせる。
クロードの複雑な問題を解決する能力を向上させるために、Anthropicはシンプルで効果的な方法を見つけました。think "ツールは、クロードが複雑なタスクに取り組む際に、構造化された思考のための専用スペースを提供します。
この "think "ツールは、クロードが以前発表した"拡張思考"の機能は異なる。"拡大思考 "は、反応を生み出すクロードの役割を強調する。 事前に 深い思考と反復的なプランニングの。そして "考える "ツールは、クロードで作られた。 レスポンスの生成を開始した後 ステップを追加することで、前進するために必要な情報をすべて持っているかどうか、立ち止まって考えさせることができる。これは、長いツール・コール・チェーンを実行するときや、ユーザーとマルチステップの対話をするときに特に便利です。
対照的に、"think "ツールは、クロードがユーザーからの問い合わせだけでは必要な情報をすべて得ることができず、外部情報(ツールの呼び出し結果など)を処理する必要がある場合に適している。think "ツールによって実行される推論は、"拡張思考 "の推論ほど包括的ではなく、以下のようなモデルの発見に重点を置く。 中項 情報
アンソロピック "拡張思考 "は、非連続的なツールの呼び出しや直接指示に従うような、より単純なツールの使用シナリオに推奨される。「拡張思考」は、コーディング、数学、物理学など、クロードがツールを呼び出す必要のないシナリオにも適している。think "ツールは、クロードが複雑なツールを呼び出したり、長いツール呼び出しの連鎖の中でツールの出力を注意深く分析したり、詳細なガイドラインのある戦略環境でナビゲートしたり、各ステップが前のステップの上に構築される(そしてミスは高くつく)逐次的な決定を行う必要があるシナリオに適している。
以下は、最も一般的な τベンチ 標準ツール仕様フォーマットの実装例:
{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或更改数据库,只会将想法附加到日志中。在需要复杂推理或某些缓存记忆时使用。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "一个需要思考的想法。"
}
},
"required": ["thought"]
}
}
τベンチ性能テスト:大幅な改善
think "ツールのパフォーマンスを評価するために、Anthropicは、τ-Bench(tau-bench)を使用してテストしました。τ-Benchは、現実的なカスタマーサービスシナリオでツールを使用するモデルの能力をテストするために設計された包括的なベンチマークで、"think "ツールは評価のための標準環境の一部です。
Sierra Researchチームによって開発され、最近リリースされたτ-Benchは、以下の分野でクロードの能力を評価することに焦点を当てている:
- 実際のユーザーとの対話をシミュレートします。
- 複雑なカスタマーサービス・エージェント戦略ガイドに従ってください。
- さまざまなツールを使って環境データベースにアクセスし、操作する。
τ-Benchの主な評価指標はパスである。kpass@k メトリックは、あるタスクで独立した k 回の試行がすべて成功する確率を、すべてのタスクで平均して測定する。他のLLM評価で一般的なpass@kメトリック(k回の試行のうち少なくとも1回の成功を測定する)とは異なり、passk その評価は一貫性と信頼性であり、常にポリシーを守ることが重要な顧客サービス用途には不可欠である。
パフォーマンス分析
Anthropicの評価では、以下の異なる構成を比較した:
- ベースライン(「考える」ツールなし、拡張マインドセットなし)
- 拡張マインドセットのみ
- 「シンクツールのみ
- 最適化のヒントを提供する "think "ツール(航空用)
その結果、クロード3.5のソネットモデルが「think」ツールを効果的に使用した場合、ベンチマークの「エアライン」と「リテール」の両顧客サービス分野で大幅な改善が達成されることが示された:
- 航空最適化のヒントを提供する "think "ツールはpassで利用可能です。1 の指標は、ベースライン時の0.370に対し0.570に達し、54%の相対的改善となった。
- 小売"think "ツールだけでは0.812に達し、ベースラインの0.783と比較している。
以下の表は、τ-Benchで評価した "Aeronautical "ドメインの4つの異なる構成に対するClaude 3.5 Sonnetモデルのデータを示しています:
コンフィグ | k =1 | k =2 | k =3 | k =4 | k =5 |
---|---|---|---|---|---|
「考える」+キュー・ワードの最適化 | 0.584 | 0.444 | 0.384 | 0.356 | 0.340 |
「Think」ツールのみ | 0.404 | 0.254 | 0.186 | 0.140 | 0.100 |
拡張思考 | 0.412 | 0.290 | 0.232 | 0.192 | 0.160 |
基準線 | 0.332 | 0.206 | 0.148 | 0.116 | 0.100 |
航空業界では、「think」ツールを最適化されたキューワードと組み合わせることで、最適なパフォーマンスを達成することができる。最適化されたプロンプトワードは、顧客の要望を分析する際に使用される推論方法の例を示す。以下は最適化されたプロンプトワードの例である:
## 使用 think 工具
在采取任何行动或在收到工具结果后回应用户之前,使用 think 工具作为草稿板来:
- 列出适用于当前请求的具体规则
- 检查是否收集了所有必需的信息
- 验证计划的操作是否符合所有策略
- 迭代工具结果以确保正确性
以下是在 think 工具中迭代的一些示例:
<think_tool_example_1>
用户想要取消航班 ABC123
- 需要验证:用户 ID、预订 ID、原因
- 检查取消规则:
* 是否在预订后 24 小时内?
* 如果不是,检查机票等级和保险
- 验证没有航段已飞行或已过时
- 计划:收集缺失信息,验证规则,获取确认
</think_tool_example_1>
<think_tool_example_2>
用户想要预订 3 张前往纽约的机票,每张机票有 2 件托运行李
- 需要用户 ID 来检查:
* 会员等级以确定行李限额
* 个人资料中存在哪些付款方式
- 行李计算:
* 经济舱 × 3 名乘客
* 如果是普通会员:每人 1 件免费行李 → 3 件额外行李 = 150 美元
* 如果是白银会员:每人 2 件免费行李 → 0 件额外行李 = 0 美元
* 如果是黄金会员:每人 3 件免费行李 → 0 件额外行李 = 0 美元
- 需要验证的付款规则:
* 最多 1 张旅行券,1 张信用卡,3 张礼品卡
* 所有付款方式必须在个人资料中
* 旅行券余额作废
- 计划:
1. 获取用户 ID
2. 验证会员级别以确定行李费
3. 检查个人资料中的付款方式以及是否允许组合使用
4. 计算总价:机票价格 + 任何行李费
5. 获取明确的预订确认
</think_tool_example_2>
特に興味深いのは、異なる方法の比較である。think」ツールを最適化のヒントとともに使用すると、拡張マインドセット(促されていない「think」ツールと同様のパフォーマンス)よりも有意に良い結果が得られた。think」ツールを単独で使用した場合(ヒントなし)、ベースラインよりも成績は向上したが、それでも最適化アプローチよりは劣っていた。
think "ツールと最適化のヒントを組み合わせると、パフォーマンスが大幅に向上する。航空戦略このモデルは、複雑性が高い分、"考える "例から最も恩恵を受ける。
小売スペースでは、Anthropicはまた、各アプローチの具体的な影響を理解するために、様々な構成をテストした。
以下の表は、τ-Bench で評価した "Retail "ドメインの3つの異なる構成における Claude 3.5 Sonnet モデルのデータを示している:
構成 | k =1 | k =2 | k =3 | k =4 | k =5 |
---|---|---|---|---|---|
「Think」ツールのみ | 0.812 | 0.735 | 0.685 | 0.650 | 0.626 |
拡張思考 | 0.770 | 0.681 | 0.623 | 0.581 | 0.548 |
基準線 | 0.783 | 0.695 | 0.643 | 0.607 | 0.583 |
ヒントを追加しなくても、"think "ツールが最も高い合格率を達成している。1 スコアは0.812。小売戦略クロードは、それ以上の指示がなくても、考えるスペースがあることで、パフォーマンスを向上させることができた。
τベンチ分析からの主な洞察
Anthropicの詳細な分析により、「考える」ツールを効果的に導入するのに役立ついくつかのパターンが明らかになった:
- 困難な地域では、キュー・ワードが重要.単に「考える」ツールを提供するだけでも成績は若干向上するかもしれないが、最適化されたキューと組み合わせることで、難しいドメインではかなり良い結果が得られる。しかし、より単純な領域では、単に「考える」ツールを使用した方がよいかもしれない。
- 試験間の一貫性の向上パスで "考える "ツールがもたらす改善。think」ツールの使用がパスにもたらした改善点k このことは、このツールがクロードがエッジケースや異常なシナリオをより効率的に処理するのに役立っていることを示唆している。
SWE-Benchパフォーマンステスト:ケーキの上のアイシング
Claude 3.5 Sonnetモデルの評価中、Anthropicは同様の "think "ツールをSWE-Benchのセットアップに追加し、0.623の最先端レベルまで引き上げた。修正した "think "ツールを以下に定義する:
{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或对存储库进行任何更改,只会记录想法。在需要复杂推理或集思广益时使用。例如,如果您探索存储库并发现了错误的根源,请调用此工具来集思广益几种独特的修复错误的方法,并评估哪些更改可能最简单和最有效。或者,如果您收到一些测试结果,请调用此工具来集思广益修复失败测试的方法。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "您的想法。"
}
},
"required": ["thought"]
}
}
アントロピックの実験(n =think "ツールで30サンプル。 n (=「考える」ツールを使用しない144サンプル)は、このツールを含めることによる独立効果として、平均1.6%(Welchの t テストだ: t (38.89) = 6.71, p < .001, d = 1.47).
think "ツールのシナリオ
これらの評価結果に基づき、Anthropicはクロードが "think "ツールから最も恩恵を受けるであろう特定のシナリオを特定した:
- ツール出力の分析クロードが行動する前に、前のツール呼び出しの出力を注意深く処理する必要があり、そのメソッドの中でバックトラックする必要があるかもしれないとき。
- 戦略集約型環境クロードが詳細なガイドラインに従い、コンプライアンスを検証する必要がある場合。
- 逐次意思決定各アクションが前のアクションの上に構築され、ミスが高くつく場合(通常、マルチステップ・ドメインで見られる)。
ベストプラクティス:「考える」ツールを最大限に活用する
クロードの "考える "ツールを最大限に活用するために、Anthropicはτ-Benchの実験に基づき、次のような実装のベストプラクティスを提案しています。
1.戦略的なヒントと地域別の例
そのための最も効果的な方法は、例えばτ-Benchの航空宇宙領域に対して、いつ、どのように "think "ツールを使用するかについて明確な指示を提供することです。特定のユースケースに合わせた例を提供することで、モデルによる "think "ツールの使用効率を大幅に向上させることができます:
- 推論プロセスで期待される詳細レベル。
- 複雑な指示を実行可能なステップに分解する方法。
- 一般的なシナリオに対処するための決定木。
- 必要な情報がすべて収集されていることを確認する方法。
2.システムアラートにおける複雑なガイドの配置
Anthropicは、"考える "ツールの記述が長く複雑な場合、ツールの記述自体に記述するよりも、システムプロンプトに記述する方が効果的であることを発見しました。このアプローチは、より広いコンテキストを提供し、モデルが思考プロセスを全体的な動作にうまく統合するのに役立ちます。
think "ツールを使わない場合
考える」ツールは大幅な改善をもたらすが、すべてのツールの使用シナリオに適用できるわけではなく、プロンプトの長さと出力が増加する。 トークン ツールのコスト具体的には、Anthropicは以下の使用例において、"think "ツールの改善を認めなかった:
- 非連続ツール呼び出しもしクロードがタスクを完了させるために1回だけツールを呼び出すか、複数回並行して呼び出す必要があるのであれば、"考える "ツールを追加しても改善されることはないだろう。
- 以下の簡単なコマンドクロードが多くの制約に従う必要がなく、デフォルトの挙動で十分である場合、余計な "思考 "は報われにくい。
クイック・スタート:簡単な数ステップで大きな成果
think "ツールは、クロードの実施に加えるだけの簡単なもので、わずか数ステップで有意義な改善を生み出すことができる:
- プロキシツールの使用シナリオによるテスト.クロードが現在、ポリシーの遵守や長いツール・コール・チェーンにおける複雑な推論で苦労しているような、困難なユースケースから始めてください。
- ツール定義の追加.あなたのドメイン用にカスタマイズされた「考える」ツールを実装する。最小限のコードしか必要としませんが、より構造化された推論を可能にします。また、あなたのドメインに関連する例を用いて、いつ、どのようにツールを使用するかについての説明をシステムプロンプトに含めることも検討してください。
- モニタリングと改善.クロードが実際にツールをどのように使っているかを観察し、より効果的な思考パターンを促すようにプロンプトを適応させる。
最も重要なことは、このツールを追加しても、パフォーマンスの結果という点ではほとんど欠点がないということだ。クロードが使用すると決定しない限り、外部の動作を変えたり、既存のツールやワークフローに干渉することはない。
総括と展望
Anthropicの調査によると、"think "ツールは、ポリシーの遵守と長いツールコールチェーン上の推論を必要とする複雑なタスクにおいて、Claude 3.5 Sonnetモデルのパフォーマンスを大幅に向上させます。think "ツールは万能のソリューションではありませんが、実装の複雑さを最小限に抑えながら、適切なユースケースに大きなメリットをもたらします。
私たちは、開発者が「think」ツールを使って、より強力で信頼性が高く、透明性の高いAIシステムを構築することを楽しみにしています。将来、Anthropicは、AIモデルの推論と意思決定能力をさらに強化するために、強化学習やナレッジグラフなどの他のAI技術と「think」ツールの組み合わせをさらに探求するかもしれません。一方、より効果的なキューイング戦略をどのように設計するか、「考える」ツールをより幅広い分野にどのように適用するかも、研究に値する重要な方向性である。