Recentemente, a Anthropic lançou uma nova ferramenta chamada "think", projetada para aprimorar Claude modelos na solução de problemas complexos. Neste artigo, vamos nos aprofundar nos conceitos de design, no desempenho e nas práticas recomendadas da ferramenta "think" em aplicativos do mundo real e analisar seu possível impacto no desenvolvimento futuro de sistemas de IA.
A ferramenta "pensar": para fazer com que Claude pare e pense.
Enquanto continuamos a aprimorar a capacidade do Claude de resolver problemas complexos, a Anthropic encontrou uma maneira simples, mas eficaz, de fazer isso: introduzir a ferramenta "think". A ferramenta "think" oferece ao Claude um espaço dedicado para o pensamento estruturado ao trabalhar em tarefas complexas.
Vale a pena observar que a ferramenta "think" é semelhante à ferramenta anterior de Claude "pensamento ampliado" é diferente. O "Expanded Thinking" enfatiza o papel do Claude na geração de respostas. antecipadamente de pensamento profundo e planejamento iterativo. E a ferramenta "think" foi criada em Claude Depois que você começar a gerar a resposta Se o usuário tiver uma etapa, adicione uma etapa para fazê-lo parar e pensar se tem todas as informações necessárias para seguir em frente. Isso é particularmente útil ao executar longas cadeias de chamadas de ferramentas ou ao se envolver em diálogos de várias etapas com os usuários.
Por outro lado, a ferramenta "pensar" é mais adequada para situações em que o Claude não consegue obter todas as informações necessárias apenas com as consultas do usuário e precisa processar informações externas (por exemplo, os resultados das chamadas de ferramentas). O raciocínio realizado pela ferramenta "think" não é tão abrangente quanto o do "pensamento estendido" e se concentra mais na descoberta de modelos de meso (química) Informações.
Antrópica O "Extended Thinking" é recomendado para cenários mais simples de uso de ferramentas, como invocações não sequenciais de ferramentas ou seguimento direto de instruções. O "Extended Thinking" também é adequado para cenários que não exigem que Claude invoque ferramentas, como codificação, matemática e física. As ferramentas "think" são mais adequadas para cenários em que Claude precisa invocar ferramentas complexas, analisar cuidadosamente os resultados das ferramentas em longas cadeias de invocação de ferramentas, navegar em um ambiente estratégico com diretrizes detalhadas ou tomar decisões sequenciais em que cada etapa se baseia na anterior (e os erros são caros).
Abaixo está uma lista das maneiras mais comuns de usar o τ-Bench Exemplo de implementação de um formato de especificação de ferramenta padrão:
{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或更改数据库,只会将想法附加到日志中。在需要复杂推理或某些缓存记忆时使用。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "一个需要思考的想法。"
}
},
"required": ["thought"]
}
}
Teste de desempenho τ-Bench: melhoria significativa
Para avaliar o desempenho da ferramenta "think", a Anthropic testou-a usando o τ-Bench (tau-bench), um benchmark abrangente projetado para testar a capacidade de um modelo de usar a ferramenta em cenários realistas de atendimento ao cliente, em que a ferramenta "think" faz parte do ambiente padrão para avaliação.
Desenvolvido pela equipe da Sierra Research e lançado recentemente, o τ-Bench concentra-se na avaliação dos recursos do Claude nas seguintes áreas:
- Simule diálogos reais de usuários.
- Siga o Guia de Estratégia do Agente de Atendimento ao Cliente Complexo.
- Acessar e manipular bancos de dados ambientais usando uma variedade de ferramentas.
A principal métrica de avaliação usada pelo τ-Bench é a aprovaçãokA métrica pass@k mede a probabilidade de que todas as k tentativas de tarefas independentes sejam bem-sucedidas em uma determinada tarefa, com uma média de todas as tarefas. Diferentemente da métrica pass@k (que mede o sucesso de pelo menos uma das k tentativas), comum em outras avaliações de LLM, a métrica passk A avaliação é de consistência e confiabilidade, o que é fundamental para os aplicativos de atendimento ao cliente, em que é vital sempre aderir à política.
Análise de desempenho
A avaliação da Anthropic comparou as seguintes configurações diferentes:
- Linha de base (sem ferramenta "think", sem mentalidade ampliada)
- Somente mentalidade estendida
- Ferramenta "think" apenas
- Ferramenta "think" com dicas de otimização (para aviação)
Os resultados mostram que, quando o modelo Sonnet do Claude 3.5 usa efetivamente a ferramenta "think", são obtidos aprimoramentos significativos nas áreas de atendimento ao cliente "Companhia aérea" e "Varejo" do benchmark:
- AviaçãoA ferramenta "think" com dicas de otimização está disponível em pass1 O indicador atingiu 0,570 em comparação com 0,370 na linha de base, uma melhoria relativa de 541 TP3T.
- VarejoA ferramenta "think" sozinha atinge 0,812, em comparação com a linha de base de 0,783.
A tabela a seguir mostra os dados do modelo Sonnet do Claude 3.5 para quatro configurações diferentes do domínio "Aeronautical" avaliadas pelo τ-Bench:
configurar | k =1 | k =2 | k =3 | k =4 | k =5 |
---|---|---|---|---|---|
"Think" + Otimização de palavras-chave | 0.584 | 0.444 | 0.384 | 0.356 | 0.340 |
"Somente a ferramenta "Think | 0.404 | 0.254 | 0.186 | 0.140 | 0.100 |
Pensamento ampliado | 0.412 | 0.290 | 0.232 | 0.192 | 0.160 |
linha de base (em levantamento geodésico) | 0.332 | 0.206 | 0.148 | 0.116 | 0.100 |
Na aviação, o desempenho ideal pode ser obtido com a combinação da ferramenta "think" com palavras-chave otimizadas. As palavras de alerta otimizadas fornecem exemplos de métodos de raciocínio usados ao analisar as solicitações dos clientes. A seguir, exemplos de palavras-chave otimizadas:
## 使用 think 工具
在采取任何行动或在收到工具结果后回应用户之前,使用 think 工具作为草稿板来:
- 列出适用于当前请求的具体规则
- 检查是否收集了所有必需的信息
- 验证计划的操作是否符合所有策略
- 迭代工具结果以确保正确性
以下是在 think 工具中迭代的一些示例:
<think_tool_example_1>
用户想要取消航班 ABC123
- 需要验证:用户 ID、预订 ID、原因
- 检查取消规则:
* 是否在预订后 24 小时内?
* 如果不是,检查机票等级和保险
- 验证没有航段已飞行或已过时
- 计划:收集缺失信息,验证规则,获取确认
</think_tool_example_1>
<think_tool_example_2>
用户想要预订 3 张前往纽约的机票,每张机票有 2 件托运行李
- 需要用户 ID 来检查:
* 会员等级以确定行李限额
* 个人资料中存在哪些付款方式
- 行李计算:
* 经济舱 × 3 名乘客
* 如果是普通会员:每人 1 件免费行李 → 3 件额外行李 = 150 美元
* 如果是白银会员:每人 2 件免费行李 → 0 件额外行李 = 0 美元
* 如果是黄金会员:每人 3 件免费行李 → 0 件额外行李 = 0 美元
- 需要验证的付款规则:
* 最多 1 张旅行券,1 张信用卡,3 张礼品卡
* 所有付款方式必须在个人资料中
* 旅行券余额作废
- 计划:
1. 获取用户 ID
2. 验证会员级别以确定行李费
3. 检查个人资料中的付款方式以及是否允许组合使用
4. 计算总价:机票价格 + 任何行李费
5. 获取明确的预订确认
</think_tool_example_2>
A comparação dos diferentes métodos é de especial interesse. O uso da ferramenta "think" com dicas de otimização obteve resultados significativamente melhores do que a mentalidade estendida (que teve um desempenho semelhante ao da ferramenta "think" sem solicitação). O uso da ferramenta "think" sozinha (sem dicas) melhorou o desempenho em relação à linha de base, mas ainda foi inferior à abordagem de otimização.
A combinação da ferramenta "think" com as dicas de otimização proporciona um desempenho significativamente melhor, o que pode ser devido ao fato de que os benchmarks naestratégia de aviaçãoDevido ao alto nível de complexidade, o modelo se beneficia mais com o exemplo do "pensamento".
No espaço de varejo, a Anthropic também testou várias configurações para entender o impacto específico de cada abordagem.
A tabela abaixo mostra os dados do modelo Claude 3.5 Sonnet em três configurações diferentes do domínio "Retail" avaliado pelo τ-Bench:
Configuração | k =1 | k =2 | k =3 | k =4 | k =5 |
---|---|---|---|---|---|
"Somente a ferramenta "Think | 0.812 | 0.735 | 0.685 | 0.650 | 0.626 |
Pensamento ampliado | 0.770 | 0.681 | 0.623 | 0.581 | 0.548 |
linha de base (em levantamento geodésico) | 0.783 | 0.695 | 0.643 | 0.607 | 0.583 |
Mesmo sem dicas adicionais, a ferramenta "think" obtém a maior taxa de aprovação.1 Pontuação 0,812.estratégia de varejoMuito mais fácil de manusear do que na aviação, Claude conseguiu melhorar o desempenho por ter um espaço para pensar sem instruções adicionais.
Principais percepções da análise do τ-Bench
A análise detalhada da Anthropic revela vários padrões que podem ajudar a implementar efetivamente as ferramentas "think":
- Em áreas difíceis, as palavras-chave são vitais. O simples fornecimento da ferramenta "pensar" pode melhorar um pouco o desempenho, mas combiná-la com dicas otimizadas pode produzir resultados significativamente melhores em domínios difíceis. No entanto, os domínios mais simples podem se beneficiar do simples uso da ferramenta "pensar".
- Melhoria da consistência entre os testesA ferramenta "think" traz melhorias no passe. Melhorias obtidas com o uso da ferramenta "think" no passek em manter k=5, o que sugere que a ferramenta ajuda Claude a lidar com casos extremos e cenários anômalos de forma mais eficiente.
Teste de desempenho SWE-Bench: a cereja do bolo
Ao avaliar o modelo Sonnet do Claude 3.5, a Anthropic adicionou uma ferramenta "think" semelhante à configuração do SWE-Bench para aproximá-la do estado da arte de 0,623. A ferramenta "think" modificada é definida abaixo:
{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或对存储库进行任何更改,只会记录想法。在需要复杂推理或集思广益时使用。例如,如果您探索存储库并发现了错误的根源,请调用此工具来集思广益几种独特的修复错误的方法,并评估哪些更改可能最简单和最有效。或者,如果您收到一些测试结果,请调用此工具来集思广益修复失败测试的方法。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "您的想法。"
}
},
"required": ["thought"]
}
}
Experimentos antrópicos (n =30 amostras com a ferramenta "think". n (=144 amostras sem a ferramenta "think") mostrou que o efeito independente da inclusão dessa ferramenta melhorou o desempenho em uma média de 1,6% (Welch's t Teste: t (38.89) = 6.71, p < .001, d = 1.47).
Cenários para a ferramenta "think
Com base nos resultados dessas avaliações, a Anthropic identificou cenários específicos em que a Claude se beneficiaria mais com a ferramenta "think":
- Análise dos resultados da ferramentaQuando o Claude precisa processar cuidadosamente a saída de uma chamada de ferramenta anterior antes de agir, e pode precisar voltar atrás em seus métodos.
- ambiente de estratégia intensivaQuando a Claude precisa seguir diretrizes detalhadas e verificar a conformidade.
- tomada de decisão sequencialQuando cada ação se baseia na anterior e os erros são caros (geralmente encontrados em domínios de várias etapas).
Prática recomendada: aproveite ao máximo as ferramentas "think"
Para aproveitar ao máximo a ferramenta "think" do Claude, a Anthropic sugere as seguintes práticas recomendadas de implementação com base em seus experimentos τ-Bench.
1. dicas estratégicas e exemplos específicos da área
A maneira mais eficaz de fazer isso é fornecer instruções claras sobre quando e como usar a ferramenta "think", por exemplo, para o domínio aeroespacial do τ-Bench. O fornecimento de exemplos adaptados ao seu caso de uso específico pode aumentar significativamente a eficiência do uso da ferramenta "think" pelo seu modelo:
- O nível de detalhes esperado no processo de raciocínio.
- Como dividir instruções complexas em etapas acionáveis.
- Árvores de decisão para lidar com cenários comuns.
- Como verificar se todas as informações necessárias foram coletadas.
2. colocação de guias complexos em alertas do sistema
A Anthropic descobriu que, quando as descrições de ferramentas de "pensamento" são longas e complexas, é mais eficaz incluí-las nos prompts do sistema em vez de colocá-las na própria descrição da ferramenta. Essa abordagem fornece um contexto mais amplo e ajuda os modelos a integrar melhor os processos de pensamento em seu comportamento geral.
Quando não usar a ferramenta "think" (pensar)
Embora a ferramenta "pensar" possa proporcionar melhorias substanciais, ela não se aplica a todos os cenários de uso da ferramenta e aumenta o comprimento e a saída do prompt. token custo da ferramenta. Especificamente, a Anthropic não encontrou nenhuma melhoria na ferramenta "think" nos seguintes casos de uso:
- Chamadas de ferramentas não sequenciaisSe o Claude precisar fazer apenas uma única chamada de ferramenta ou várias chamadas paralelas para concluir uma tarefa, é improvável que a adição da ferramenta "pensar" traga alguma melhoria.
- Comando simples a seguirQuando o Claude não precisa seguir muitas restrições e seu comportamento padrão é bom o suficiente, é improvável que o "pensar" extra valha a pena.
Início rápido: algumas etapas simples, resultados significativos
A ferramenta "think" é uma adição simples à implementação do Claude e pode produzir melhorias significativas em apenas algumas etapas:
- Testes com cenários de uso de ferramentas de proxy. Comece com casos de uso desafiadores - aqueles em que o Claude atualmente tem dificuldades com a conformidade com a política ou com o raciocínio complexo em longas cadeias de chamadas de ferramentas.
- Adição de definições de ferramentas. Implemente uma ferramenta "think" personalizada para seu domínio. Ela requer um código mínimo, mas permite um raciocínio mais estruturado. Considere também incluir instruções sobre quando e como usar a ferramenta nos prompts do sistema, com exemplos relevantes para o seu domínio.
- Monitoramento e aprimoramento. Observe como Claude usa a ferramenta na prática e adapte seus avisos para incentivar padrões de pensamento mais eficazes.
O mais importante é que adicionar essa ferramenta tem poucas desvantagens em termos de resultados de desempenho. Ela não alterará o comportamento externo nem interferirá nas ferramentas ou no fluxo de trabalho existentes, a menos que o Claude decida usá-la.
Resumo e perspectivas
A pesquisa da Anthropic mostra que a ferramenta "think" melhora significativamente o desempenho do modelo Sonnet Claude 3.5 em tarefas complexas que exigem conformidade com políticas e raciocínio em longas cadeias de chamadas de ferramentas. Embora a ferramenta "think" não seja uma solução única para todos os casos, ela oferece benefícios substanciais para os casos de uso certos com complexidade mínima de implementação.
Estamos ansiosos para ver como os desenvolvedores usam as ferramentas "think" para criar sistemas de IA mais avançados, confiáveis e transparentes. No futuro, a Anthropic poderá explorar ainda mais a combinação de ferramentas "think" com outras tecnologias de IA, como aprendizagem por reforço e gráficos de conhecimento, para aprimorar ainda mais os recursos de raciocínio e tomada de decisão dos modelos de IA. Enquanto isso, como projetar estratégias de sugestão mais eficazes e como aplicar a ferramenta "think" a uma variedade maior de campos também será uma direção importante que vale a pena estudar.