Hacer que la IA se detenga a pensar: cómo la herramienta "Think" de Anthropic mejora el razonamiento de Claude

Base de conocimientos de IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

59.8K 00

Recientemente, Anthropic introdujo una nueva herramienta llamada "think" que está diseñada para mejorar Claude en la resolución de problemas complejos. En este artículo, profundizaremos en los conceptos de diseño, el rendimiento y las mejores prácticas de la herramienta "think" en aplicaciones del mundo real, y analizaremos su impacto potencial en el desarrollo de futuros sistemas de IA.

La herramienta "pensar": hacer que Claude se pare a pensar.

Mientras seguimos mejorando la capacidad de Claude para resolver problemas complejos, Anthropic ha encontrado una forma sencilla pero eficaz de hacerlo: introduciendo la herramienta "pensar"." La herramienta "pensar" proporciona a Claude un espacio dedicado al pensamiento estructurado cuando trabaja en tareas complejas.

Cabe señalar que la herramienta "pensar" es similar a la anterior "pensamiento ampliado" es diferente. "Pensamiento ampliado" hace hincapié en el papel de Claude a la hora de generar respuestas. de antemano de pensamiento profundo y planificación iterativa. Y la herramienta "think" se creó en Claude Después de empezar a generar la respuesta , añada un paso para hacer que se detenga y piense si tiene toda la información necesaria para seguir adelante. Esto resulta especialmente útil cuando se realizan largas cadenas de llamadas a herramientas o cuando se entablan diálogos de varios pasos con los usuarios.

En cambio, la herramienta "pensar" es más adecuada para situaciones en las que Claude no puede obtener toda la información necesaria sólo a partir de las consultas del usuario y necesita procesar información externa (por ejemplo, los resultados de las llamadas a la herramienta). El razonamiento que realiza la herramienta "pensar" no es tan exhaustivo como el del "pensamiento ampliado" y se centra más en el descubrimiento del modelo de la meso- (química) Información.

Antrópico "Extended Thinking" se recomienda para escenarios más sencillos de uso de herramientas, como invocaciones no secuenciales de herramientas o seguimiento directo de instrucciones. "Extended Thinking" también es adecuado para escenarios que no requieren que Claude invoque herramientas, como la codificación, las matemáticas y la física." Las herramientas de "pensar" son más adecuadas para escenarios en los que Claude necesita invocar herramientas complejas, analizar cuidadosamente los resultados de herramientas en largas cadenas de invocación de herramientas, navegar en un entorno de estrategia con directrices detalladas o tomar decisiones secuenciales en las que cada paso se basa en el anterior (y los errores se pagan caros).

A continuación se enumeran las formas más habituales de utilizar el τ-Bench Ejemplo de aplicación de un formato estándar de especificación de herramientas:

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或更改数据库，只会将想法附加到日志中。在需要复杂推理或某些缓存记忆时使用。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "一个需要思考的想法。"
}
},
"required": ["thought"]
}
}

Prueba de rendimiento τ-Bench: mejora significativa

Para evaluar el rendimiento de la herramienta "think", Anthropic la puso a prueba utilizando el τ-Bench (tau-bench), un completo banco de pruebas diseñado para comprobar la capacidad de un modelo de utilizar la herramienta en escenarios realistas de atención al cliente, donde la herramienta "think" forma parte del entorno estándar de evaluación.

Desarrollado por el equipo de Sierra Research y publicado recientemente, τ-Bench se centra en evaluar las capacidades de Claude en las siguientes áreas:

Simular diálogos con usuarios reales.
Siga la Guía Estratégica del Agente de Atención al Cliente Complejo.
Acceder y manipular bases de datos medioambientales utilizando diversas herramientas.

La principal métrica de evaluación utilizada por τ-Bench es pass^kLa métrica pass@k mide la probabilidad de que todos los k ensayos independientes de una tarea tengan éxito en una tarea determinada, promediada en todas las tareas. A diferencia de la métrica pass@k (que mide el éxito de al menos uno de k ensayos), habitual en otras evaluaciones LLM, pass^k La evaluación es de coherencia y fiabilidad, algo fundamental para las aplicaciones de atención al cliente, en las que es vital cumplir siempre la política.

Análisis del rendimiento

La evaluación de Anthropic comparó las siguientes configuraciones diferentes:

Línea de base (sin herramienta "pensar", sin mentalidad extendida)
Sólo mentalidad extendida
"sólo herramienta "pensar
Herramienta "think" con consejos de optimización (para la aviación)

Los resultados muestran que cuando el modelo Claude 3.5 Sonnet utiliza eficazmente la herramienta "think", se consiguen mejoras significativas tanto en el área de atención al cliente de "Aerolíneas" como en el de "Minoristas" del benchmark:

Aviación: La herramienta "think" con consejos de optimización está disponible en pass¹ alcanzó 0,570 frente a 0,370 al inicio del estudio, lo que supone una mejora relativa de 541 TP3T.
Venta al por menor: La herramienta "pensar" por sí sola alcanza 0,812, frente al valor de referencia de 0,783.

$让 AI 停下来思考：Anthropic \$

Figura 1: Rendimiento del Sonnet Claude 3.5 en cuatro configuraciones diferentes en el ámbito de la "aviación" evaluado por τ-Bench.

La siguiente tabla muestra los datos del modelo Claude 3.5 Sonnet en cuatro configuraciones diferentes del dominio "Aviación" evaluadas por τ-Bench:

configure	k =1	k =2	k =3	k =4	k =5
"Pensar" + Optimización de la palabra clave	0.584	0.444	0.384	0.356	0.340
"Sólo herramienta "Think	0.404	0.254	0.186	0.140	0.100
Pensamiento ampliado	0.412	0.290	0.232	0.192	0.160
línea de base (en levantamiento geodésico)	0.332	0.206	0.148	0.116	0.100

Tabla 1: Resultados de la evaluación de Claude 3.5 Sonnet en el dominio τ-Bench "Aviación".

En la aviación, se puede conseguir un rendimiento óptimo combinando la herramienta "think" con palabras clave optimizadas. Las palabras de aviso optimizadas proporcionan ejemplos de métodos de razonamiento utilizados al analizar las solicitudes de los clientes. Los siguientes son ejemplos de palabras clave optimizadas:

## 使用 think 工具
在采取任何行动或在收到工具结果后回应用户之前，使用 think 工具作为草稿板来：
- 列出适用于当前请求的具体规则
- 检查是否收集了所有必需的信息
- 验证计划的操作是否符合所有策略
- 迭代工具结果以确保正确性
以下是在 think 工具中迭代的一些示例：
<think_tool_example_1>
用户想要取消航班 ABC123
- 需要验证：用户 ID、预订 ID、原因
- 检查取消规则：
  * 是否在预订后 24 小时内？
  * 如果不是，检查机票等级和保险
- 验证没有航段已飞行或已过时
- 计划：收集缺失信息，验证规则，获取确认
</think_tool_example_1>
<think_tool_example_2>
用户想要预订 3 张前往纽约的机票，每张机票有 2 件托运行李
- 需要用户 ID 来检查：
  * 会员等级以确定行李限额
  * 个人资料中存在哪些付款方式
- 行李计算：
  * 经济舱 × 3 名乘客
  * 如果是普通会员：每人 1 件免费行李 → 3 件额外行李 = 150 美元
  * 如果是白银会员：每人 2 件免费行李 → 0 件额外行李 = 0 美元
  * 如果是黄金会员：每人 3 件免费行李 → 0 件额外行李 = 0 美元
- 需要验证的付款规则：
  * 最多 1 张旅行券，1 张信用卡，3 张礼品卡
  * 所有付款方式必须在个人资料中
  * 旅行券余额作废
- 计划：
1. 获取用户 ID
2. 验证会员级别以确定行李费
3. 检查个人资料中的付款方式以及是否允许组合使用
4. 计算总价：机票价格 + 任何行李费
5. 获取明确的预订确认
</think_tool_example_2>

Resulta especialmente interesante la comparación de los distintos métodos. El uso de la herramienta "think" con pistas de optimización logró resultados significativamente mejores que la mentalidad extendida (que funcionó de forma similar a la herramienta "think" sin pistas). El uso de la herramienta "think" sola (sin pistas) mejoró el rendimiento respecto a la línea de base, pero siguió siendo inferior al método de optimización.

La combinación de la herramienta "think" y las pistas de optimización proporciona un rendimiento significativamente mejor, lo que puede deberse al hecho de que los puntos de referencia de la herramientaestrategia de aviaciónparte del alto nivel de complejidad, el modelo se beneficia más del ejemplo de "pensar".

En el espacio comercial, Anthropic también probó varias configuraciones para comprender el impacto específico de cada enfoque.

$让 AI 停下来思考：Anthropic \$

Figura 2: Rendimiento de Claude 3.5 Sonnet en tres configuraciones diferentes en el dominio "Retail" evaluado por τ-Bench.

La siguiente tabla muestra los datos del modelo Claude 3.5 Sonnet en tres configuraciones diferentes del dominio "Retail" evaluadas por τ-Bench:

Configuración	k =1	k =2	k =3	k =4	k =5
"Sólo herramienta "Think	0.812	0.735	0.685	0.650	0.626
Pensamiento ampliado	0.770	0.681	0.623	0.581	0.548
línea de base (en levantamiento geodésico)	0.783	0.695	0.643	0.607	0.583

Tabla 2: Resultados de la evaluación de Claude 3.5 Sonnet en el dominio τ-Bench "Retail".

Incluso sin pistas adicionales, la herramienta "pensar" logra el mayor porcentaje de aprobados.¹ Puntuación 0,812.estrategia minoristaMucho más fácil de manejar que en la aviación, Claude pudo mejorar su rendimiento al disponer de un espacio para pensar sin más instrucciones.

Principales conclusiones del análisis τ-Bench

El análisis detallado de Anthropic revela varios patrones que pueden ayudar a aplicar eficazmente las herramientas "think":

En las zonas difíciles, las palabras clave son vitales. La mera utilización de la herramienta "pensar" puede mejorar ligeramente el rendimiento, pero si se combina con pistas optimizadas, los resultados pueden ser mucho mejores en los ámbitos difíciles. Sin embargo, en los ámbitos más sencillos puede resultar más útil utilizar simplemente la herramienta "pensar".
Mayor coherencia entre los ensayosLa herramienta "think" aporta mejoras en el pase. Mejoras aportadas por el uso de la herramienta "think" en el pase^k en el mantenimiento de k=5, lo que sugiere que la herramienta ayuda a Claude a tratar los casos límite y los escenarios anómalos con mayor eficacia.

Prueba de rendimiento SWE-Bench: la guinda del pastel

Mientras evaluaba el modelo Sonnet de Claude 3.5, Anthropic añadió una herramienta "think" similar a la configuración de SWE-Bench para llevarla al estado del arte de 0,623. La herramienta "think" modificada se define a continuación:

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或对存储库进行任何更改，只会记录想法。在需要复杂推理或集思广益时使用。例如，如果您探索存储库并发现了错误的根源，请调用此工具来集思广益几种独特的修复错误的方法，并评估哪些更改可能最简单和最有效。或者，如果您收到一些测试结果，请调用此工具来集思广益修复失败测试的方法。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "您的想法。"
}
},
"required": ["thought"]
}
}

Experimento antrópico (n =30 muestras con la herramienta "think". n (=144 muestras sin la herramienta "pensar") mostraron que el efecto independiente de incluir esta herramienta mejoraba el rendimiento en una media de 1,6% (Welch's t Prueba: t (38.89) = 6.71, p < .001, d = 1.47).

Escenarios para la herramienta "think

Basándose en los resultados de estas evaluaciones, Anthropic identificó escenarios específicos en los que Claude se beneficiaría más de la herramienta "think":

Análisis de los resultados de las herramientasCuando Claude necesita procesar cuidadosamente la salida de una llamada anterior a la herramienta antes de actuar, y puede necesitar retroceder en sus métodos.
entorno de estrategia intensiva: Cuando Claude necesita seguir directrices detalladas y verificar su cumplimiento.
toma de decisiones secuencialcuando cada acción se basa en la anterior y los errores son costosos (suele ocurrir en dominios con múltiples pasos).

Buenas prácticas: aprovechar al máximo las herramientas "think

Para aprovechar al máximo la herramienta "pensar" de Claude, Anthropic sugiere las siguientes buenas prácticas de implementación basadas en sus experimentos τ-Bench.

1. Consejos estratégicos y ejemplos específicos

La forma más eficaz de hacerlo es proporcionar instrucciones claras sobre cuándo y cómo utilizar la herramienta "think", por ejemplo, para el ámbito aeroespacial de τ-Bench. Proporcionar ejemplos adaptados a su caso de uso específico puede mejorar significativamente la eficacia del uso de la herramienta "think" por parte de su modelo:

El nivel de detalle esperado en el proceso de razonamiento.
Cómo descomponer instrucciones complejas en pasos prácticos.
Árboles de decisión para abordar situaciones habituales.
Cómo comprobar que se ha recopilado toda la información necesaria.

2. Colocación de guías complejas en las alertas del sistema

Anthropic ha descubierto que cuando las descripciones de las herramientas "de pensamiento" son largas y complejas, resulta más eficaz incluirlas en las indicaciones del sistema que colocarlas en la propia descripción de la herramienta. Este enfoque proporciona un contexto más amplio y ayuda a los modelos a integrar mejor los procesos de pensamiento en su comportamiento general.

Cuándo no utilizar la herramienta "think

Aunque la herramienta "pensar" puede proporcionar mejoras sustanciales, no es aplicable a todos los escenarios de uso de la herramienta y aumenta la longitud y el rendimiento de los avisos. ficha coste de la herramienta. En concreto, Anthropic no encontró ninguna mejora en la herramienta "think" en los siguientes casos de uso:

Llamadas a herramientas no secuencialesSi Claude sólo necesita realizar una llamada a una herramienta o varias llamadas paralelas para completar una tarea, es poco probable que añadir la herramienta "pensar" suponga una mejora.
Comando simple siguienteCuando Claude no tiene que seguir muchas restricciones y su comportamiento por defecto es lo suficientemente bueno, es poco probable que el "pensar" extra merezca la pena.

Inicio rápido: unos sencillos pasos, resultados significativos

La herramienta "pensar" es un complemento sencillo de la aplicación de Claude, y puede producir mejoras significativas en unos pocos pasos:

Pruebas con escenarios de uso de herramientas proxy. Comience con casos de uso difíciles, aquellos en los que Claude tiene dificultades para cumplir las políticas o realizar razonamientos complejos en largas cadenas de llamadas a herramientas.
Añadir definiciones de herramientas. Implemente una herramienta "pensar" personalizada para su dominio. Requiere un código mínimo, pero permite un razonamiento más estructurado. Considera también la posibilidad de incluir instrucciones sobre cuándo y cómo utilizar la herramienta en los avisos del sistema, con ejemplos relevantes para tu dominio.
Seguimiento y mejora. Observa cómo Claude utiliza la herramienta en la práctica y adapta tus indicaciones para fomentar patrones de pensamiento más eficaces.

Y lo que es más importante, añadir esta herramienta tiene pocos inconvenientes en cuanto a resultados de rendimiento. No cambiará el comportamiento externo ni interferirá con las herramientas o el flujo de trabajo existentes, a menos que Claude decida utilizarla.

Resumen y perspectivas

La investigación de Anthropic demuestra que la herramienta "think" mejora significativamente el rendimiento del modelo Sonnet de Claude 3.5 en tareas complejas que requieren el cumplimiento de políticas y el razonamiento sobre largas cadenas de llamadas a herramientas. Aunque la herramienta "think" no es una solución única para todos los casos, ofrece ventajas sustanciales para los casos de uso adecuados con una complejidad de implementación mínima.

Estamos deseando ver cómo los desarrolladores utilizan las herramientas de "think" para construir sistemas de IA más potentes, fiables y transparentes. En el futuro, Anthropic podría seguir explorando la combinación de las herramientas "think" con otras tecnologías de IA, como el aprendizaje por refuerzo y los grafos de conocimiento, para mejorar aún más las capacidades de razonamiento y toma de decisiones de los modelos de IA. Por otra parte, también habrá que estudiar cómo diseñar estrategias de orientación más eficaces y cómo aplicar la herramienta "think" a una gama más amplia de campos.