Faire réfléchir l'IA : comment l'outil "Think" d'Anthropic améliore le raisonnement de Claude

Récemment, Anthropic a introduit un nouvel outil appelé "think" qui est conçu pour améliorer la qualité de l'information. Claude dans la résolution de problèmes complexes. Dans cet article, nous nous pencherons sur les concepts, les performances et les meilleures pratiques de l'outil "think" dans des applications réelles, et nous analyserons son impact potentiel sur le développement de futurs systèmes d'intelligence artificielle.

 

L'outil "penser" : pour que Claude s'arrête et réfléchisse.

Pour améliorer la capacité de Claude à résoudre des problèmes complexes, Anthropic a trouvé un moyen simple mais efficace : l'introduction de l'outil "think". L'outil "think" offre à Claude un espace dédié à la réflexion structurée lors de la réalisation de tâches complexes.

Il convient de noter que l'outil "think" est similaire à l'outil "think" précédent de Claude.réflexion approfondieLa fonction de "Claude" est différente. La fonction "Expanded Thinking" met l'accent sur le rôle de Claude dans la génération de réponses. au préalable d'une réflexion approfondie et d'une planification itérative. Et l'outil "think" a été créé à Claude Après avoir commencé à générer la réponse Pour ce faire, ajoutez une étape pour qu'il s'arrête et se demande s'il dispose de toutes les informations nécessaires pour aller de l'avant. Cette fonction est particulièrement utile lors de l'exécution de longues chaînes d'appels d'outils ou lors de dialogues à plusieurs étapes avec des utilisateurs.

En revanche, l'outil "think" est mieux adapté aux situations dans lesquelles Claude ne peut pas obtenir toutes les informations nécessaires à partir des seules requêtes de l'utilisateur et doit traiter des informations externes (par exemple, les résultats des appels d'outils). Le raisonnement effectué par l'outil "think" n'est pas aussi complet que celui de la "pensée étendue" et se concentre davantage sur la découverte de modèles de l'environnement. méso (chimie) Informations.

Anthropique La "pensée étendue" est recommandée pour les scénarios d'utilisation d'outils plus simples, tels que les invocations d'outils non séquentielles ou le suivi d'instructions directes. La "pensée étendue" est également adaptée aux scénarios qui ne nécessitent pas que Claude invoque des outils, tels que le codage, les mathématiques et la physique. Les outils "think" sont mieux adaptés aux scénarios dans lesquels Claude doit invoquer des outils complexes, analyser soigneusement les résultats d'outils dans de longues chaînes d'invocation d'outils, naviguer dans un environnement stratégique avec des lignes directrices détaillées, ou prendre des décisions séquentielles où chaque étape s'appuie sur la précédente (et où les erreurs sont coûteuses).

Vous trouverez ci-dessous une liste des façons les plus courantes d'utiliser la fonction τ-Bench Exemple de mise en œuvre d'un format standard de spécification d'outil :

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或更改数据库,只会将想法附加到日志中。在需要复杂推理或某些缓存记忆时使用。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "一个需要思考的想法。"
}
},
"required": ["thought"]
}
}

 

Test de performance τ-Bench : amélioration significative

Pour évaluer les performances de l'outil "think", Anthropic l'a testé à l'aide du τ-Bench (tau-bench), un benchmark complet conçu pour tester la capacité d'un modèle à utiliser l'outil dans des scénarios réalistes de service à la clientèle, où l'outil "think" fait partie de l'environnement standard d'évaluation.

Développé par l'équipe de Sierra Research et récemment publié, τ-Bench se concentre sur l'évaluation des capacités de Claude dans les domaines suivants :

  • Simuler des dialogues avec des utilisateurs réels.
  • Suivez le guide de stratégie de l'agent du service clientèle complexe.
  • Accéder aux bases de données environnementales et les manipuler à l'aide de divers outils.

La principale mesure d'évaluation utilisée par τ-Bench est la réussitekLa métrique pass@k mesure la probabilité que tous les k essais de tâches indépendants soient réussis dans une tâche donnée, en moyenne pour toutes les tâches. Contrairement à la métrique pass@k (qui mesure la réussite d'au moins un des k essais), courante dans d'autres évaluations LLM, la métrique passk L'évaluation porte sur la cohérence et la fiabilité - ce qui est essentiel pour les applications de service à la clientèle où il est vital de toujours respecter la politique.

Analyse des performances

L'évaluation d'Anthropic a comparé les différentes configurations suivantes :

  1. Base (pas d'outil de "réflexion", pas d'état d'esprit élargi)
  2. Esprit prolongé uniquement
  3. outil "think" uniquement
  4. Outil "think" avec des conseils d'optimisation (pour l'aviation)

Les résultats montrent que lorsque le modèle Claude 3.5 Sonnet utilise efficacement l'outil "think", des améliorations significatives sont obtenues dans les domaines du service à la clientèle "Airline" et "Retail" du benchmark :

  • AviationL'outil "think" avec des conseils d'optimisation est disponible dans le passeport.1 a atteint 0,570 contre 0,370 au départ, soit une amélioration relative de 541 TP3T.
  • Vente au détailL'outil "think" atteint à lui seul 0,812, par rapport à la ligne de base de 0,783.
让 AI 停下来思考:Anthropic

Figure 1 : Performance du Sonnet Claude 3.5 dans quatre configurations différentes dans le domaine de l'aviation, évaluée par τ-Bench.
 

Le tableau suivant montre les données du modèle Claude 3.5 Sonnet pour quatre configurations différentes du domaine "Aéronautique" évaluées par τ-Bench :

configurerk =1k =2k =3k =4k =5
"Pensez" + Optimisation du mot clé0.5840.4440.3840.3560.340
Outil "Think" uniquement0.4040.2540.1860.1400.100
Réflexion approfondie0.4120.2900.2320.1920.160
ligne de base (dans les levés géodésiques)0.3320.2060.1480.1160.100

Tableau 1 : Résultats de l'évaluation des sonnets de Claude 3.5 dans le domaine τ-Bench "Aviation".
 

Dans le domaine de l'aviation, il est possible d'obtenir des performances optimales en associant l'outil "think" à des mots-guides optimisés. Les mots-clés optimisés fournissent des exemples de méthodes de raisonnement utilisées lors de l'analyse des demandes des clients. Voici quelques exemples de mots-clés optimisés :

## 使用 think 工具
在采取任何行动或在收到工具结果后回应用户之前,使用 think 工具作为草稿板来:
- 列出适用于当前请求的具体规则
- 检查是否收集了所有必需的信息
- 验证计划的操作是否符合所有策略
- 迭代工具结果以确保正确性
以下是在 think 工具中迭代的一些示例:
<think_tool_example_1>
用户想要取消航班 ABC123
- 需要验证:用户 ID、预订 ID、原因
- 检查取消规则:
  * 是否在预订后 24 小时内?
  * 如果不是,检查机票等级和保险
- 验证没有航段已飞行或已过时
- 计划:收集缺失信息,验证规则,获取确认
</think_tool_example_1>
<think_tool_example_2>
用户想要预订 3 张前往纽约的机票,每张机票有 2 件托运行李
- 需要用户 ID 来检查:
  * 会员等级以确定行李限额
  * 个人资料中存在哪些付款方式
- 行李计算:
  * 经济舱 × 3 名乘客
  * 如果是普通会员:每人 1 件免费行李 → 3 件额外行李 = 150 美元
  * 如果是白银会员:每人 2 件免费行李 → 0 件额外行李 = 0 美元
  * 如果是黄金会员:每人 3 件免费行李 → 0 件额外行李 = 0 美元
- 需要验证的付款规则:
  * 最多 1 张旅行券,1 张信用卡,3 张礼品卡
  * 所有付款方式必须在个人资料中
  * 旅行券余额作废
- 计划:
1. 获取用户 ID
2. 验证会员级别以确定行李费
3. 检查个人资料中的付款方式以及是否允许组合使用
4. 计算总价:机票价格 + 任何行李费
5. 获取明确的预订确认
</think_tool_example_2>

La comparaison des différentes méthodes est particulièrement intéressante. L'utilisation de l'outil "think" avec des indices d'optimisation a donné des résultats nettement meilleurs que l'état d'esprit étendu (qui a donné des résultats similaires à l'outil "think" sans indices). L'utilisation de l'outil "think" seul (sans indices) a permis d'améliorer les performances par rapport à la ligne de base, mais est restée inférieure à l'approche d'optimisation.

La combinaison de l'outil "think" et des conseils d'optimisation permet d'obtenir des performances nettement supérieures, ce qui peut s'expliquer par le fait que les points de référence de l'outil "think" sont plus faciles à utiliser que les points de référence de l'outil "think".stratégie aérienneEn raison de son haut niveau de complexité, le modèle tire le meilleur parti de l'exemple de la "pensée".

Dans l'espace commercial, Anthropic a également testé différentes configurations pour comprendre l'impact spécifique de chaque approche.

让 AI 停下来思考:Anthropic

Figure 2 : Performance de Claude 3.5 Sonnet dans trois configurations différentes dans le domaine "Retail" tel qu'évalué par τ-Bench.
 

Le tableau ci-dessous montre les données pour le modèle Claude 3.5 Sonnet dans trois configurations différentes du domaine "Retail" évaluées par τ-Bench :

Configurationk =1k =2k =3k =4k =5
Outil "Think" uniquement0.8120.7350.6850.6500.626
Réflexion approfondie0.7700.6810.6230.5810.548
ligne de base (dans les levés géodésiques)0.7830.6950.6430.6070.583

Tableau 2 : Résultats de l'évaluation du sonnet Claude 3.5 dans le domaine τ-Bench "Retail".
 

Même sans indices supplémentaires, l'outil "penser" obtient le taux de réussite le plus élevé.1 Score 0,812.stratégie de vente au détailBeaucoup plus facile à manipuler que dans l'aviation, Claude a pu améliorer ses performances en disposant d'un espace de réflexion sans instruction supplémentaire.

Principales conclusions de l'analyse τ-Bench

L'analyse détaillée d'Anthropic révèle plusieurs modèles qui peuvent aider à mettre en œuvre efficacement les outils "think" :

  1. Dans les zones difficiles, les mots clés sont essentiels. Le simple fait de fournir l'outil "penser" peut améliorer légèrement les performances, mais l'associer à des indices optimisés peut produire des résultats nettement meilleurs dans les domaines difficiles. Les domaines plus simples, en revanche, peuvent bénéficier de la simple utilisation de l'outil "penser".
  2. Amélioration de la cohérence entre les essaisL'outil "think" apporte des améliorations dans la passe. Améliorations apportées par l'utilisation de l'outil "think" dans la passek à k=5, ce qui suggère que l'outil aide Claude à traiter plus efficacement les cas marginaux et les scénarios anormaux.

 

Test de performance SWE-Bench : la cerise sur le gâteau

Lors de l'évaluation du modèle Claude 3.5 Sonnet, Anthropic a ajouté un outil de "réflexion" similaire à la configuration de SWE-Bench pour l'amener à l'état de l'art de 0,623. L'outil "think" modifié est défini ci-dessous :

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或对存储库进行任何更改,只会记录想法。在需要复杂推理或集思广益时使用。例如,如果您探索存储库并发现了错误的根源,请调用此工具来集思广益几种独特的修复错误的方法,并评估哪些更改可能最简单和最有效。或者,如果您收到一些测试结果,请调用此工具来集思广益修复失败测试的方法。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "您的想法。"
}
},
"required": ["thought"]
}
}

Expériences anthropiques (n =30 échantillons avec l'outil "think". n (=144 échantillons sans l'outil "think") a montré que l'effet indépendant de l'inclusion de cet outil a amélioré la performance d'une moyenne de 1,6% (Welch's t Test : t (38.89) = 6.71, p < .001, d = 1.47).

 

Scénarios pour l'outil "think

Sur la base des résultats de ces évaluations, Anthropic a identifié des scénarios spécifiques dans lesquels Claude bénéficierait le plus de l'outil "think" :

  1. Analyse des résultats de l'outilLorsque Claude a besoin de traiter soigneusement les résultats d'un appel d'outil précédent avant d'agir, et qu'il peut avoir besoin de revenir en arrière dans ses méthodes.
  2. environnement à forte intensité stratégiqueLorsque Claude doit suivre des lignes directrices détaillées et en vérifier la conformité.
  3. la prise de décision séquentielleLorsque chaque action s'appuie sur la précédente et que les erreurs sont coûteuses (ce qui est généralement le cas dans les domaines à plusieurs étapes), il s'agit d'un système de gestion de l'information.

 

Meilleure pratique : tirer le meilleur parti des outils de réflexion

Pour tirer pleinement parti de l'outil "think" de Claude, Anthropic propose les bonnes pratiques suivantes, basées sur ses expériences τ-Bench.

1. des conseils stratégiques et des exemples spécifiques à un domaine

La manière la plus efficace d'y parvenir est de fournir des instructions claires sur le moment et la manière d'utiliser l'outil "think", par exemple pour le domaine aérospatial τ-Bench. Fournir des exemples adaptés à votre cas d'utilisation spécifique peut considérablement améliorer l'efficacité de l'utilisation de l'outil "think" par votre modèle :

  • Le niveau de détail attendu dans le processus de raisonnement.
  • Comment décomposer des instructions complexes en étapes réalisables.
  • Des arbres de décision pour traiter les scénarios les plus courants.
  • Comment vérifier que toutes les informations nécessaires ont été collectées ?

2. placement de guides complexes dans les alertes du système

Anthropic a constaté que lorsque les descriptions des outils de "réflexion" sont longues et complexes, il est plus efficace de les inclure dans les invites du système plutôt que de les placer dans la description de l'outil elle-même. Cette approche permet d'élargir le contexte et d'aider les modèles à mieux intégrer les processus de réflexion dans leur comportement global.

 

Quand ne pas utiliser l'outil "think

Bien que l'outil "penser" puisse apporter des améliorations substantielles, il n'est pas applicable à tous les scénarios d'utilisation de l'outil et augmente la longueur et la production des messages. jeton le coût de l'outil. Plus précisément, Anthropic n'a pas constaté d'amélioration de l'outil "think" dans les cas d'utilisation suivants :

  1. Appels d'outils non séquentielsSi Claude n'a besoin que d'un seul appel d'outil ou de plusieurs appels parallèles pour accomplir une tâche, il est peu probable que l'ajout de l'outil "penser" apporte une amélioration.
  2. Commande simple à suivreLorsque Claude n'a pas à respecter de nombreuses contraintes et que son comportement par défaut est suffisamment bon, il est peu probable que la "réflexion" supplémentaire soit payante.

 

Démarrage rapide : quelques étapes simples, des résultats significatifs

L'outil "think" est un simple ajout à la mise en œuvre de Claude et peut produire des améliorations significatives en quelques étapes seulement :

  1. Tests avec des scénarios d'utilisation de l'outil proxy. Commencez par des cas d'utilisation difficiles - ceux pour lesquels Claude éprouve actuellement des difficultés à respecter les politiques ou à effectuer des raisonnements complexes dans de longues chaînes d'appels d'outils.
  2. Ajout de définitions d'outils. Mettez en œuvre un outil de "réflexion" adapté à votre domaine. Il nécessite un minimum de code, mais permet un raisonnement plus structuré. Envisagez également d'inclure des instructions sur le moment et la manière d'utiliser l'outil dans les messages-guides du système, avec des exemples pertinents pour votre domaine.
  3. Suivi et amélioration. Observez comment Claude utilise l'outil dans la pratique et adaptez vos messages-guides pour encourager des modes de pensée plus efficaces.

Plus important encore, l'ajout de cet outil présente peu d'inconvénients en termes de performances. Il ne modifiera pas le comportement externe et n'interférera pas avec les outils ou le flux de travail existants, à moins que Claude ne décide de l'utiliser.

 

Résumé et perspectives

La recherche d'Anthropic montre que l'outil "think" améliore de manière significative la performance du modèle Claude 3.5 Sonnet sur des tâches complexes qui requièrent la conformité aux politiques et le raisonnement sur de longues chaînes d'appels d'outils. Bien que l'outil "think" ne soit pas une solution universelle, il offre des avantages substantiels pour les bons cas d'utilisation avec une complexité d'implémentation minimale.

Nous sommes impatients de voir comment les développeurs utiliseront les outils "think" pour construire des systèmes d'IA plus puissants, plus fiables et plus transparents. À l'avenir, Anthropic pourrait explorer davantage la combinaison des outils "think" avec d'autres technologies d'IA, telles que l'apprentissage par renforcement et les graphes de connaissances, afin d'améliorer encore les capacités de raisonnement et de prise de décision des modèles d'IA. Par ailleurs, la conception de stratégies de repérage plus efficaces et l'application de l'outil "think" à un plus grand nombre de domaines constitueront également des pistes d'étude importantes.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...