Заставить ИИ остановиться и подумать: как инструмент Anthropic "Think" улучшает рассуждения Клода

База знаний по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

59.3K 00

Недавно компания Anthropic представила новый инструмент под названием "думать", который предназначен для улучшения Клод моделей при решении сложных задач. В этой статье мы рассмотрим концепции дизайна, производительность и лучшие практики использования инструмента "думать" в реальных приложениях, а также проанализируем его потенциальное влияние на разработку систем ИИ в будущем.

Инструмент "думать": заставить Клода остановиться и подумать.

Продолжая совершенствовать способность Клода решать сложные задачи, Anthropic нашла простой, но эффективный способ: внедрила инструмент "думать". Инструмент "думать" предоставляет Клоду специальное пространство для структурированного мышления при работе над сложными задачами.

Стоит отметить, что инструмент "Думай" похож на предыдущий инструмент Клода "расширенное мышление" выполняет разные функции. "Расширенное мышление" подчеркивает роль Клода в генерировании ответов. заранее глубокого мышления и итеративного планирования. А инструмент "Думай" был создан в Клоде После того как вы начнете генерировать ответ Добавьте шаг, чтобы заставить его остановиться и подумать, есть ли у него вся необходимая информация, чтобы двигаться дальше. Это особенно полезно при выполнении длинных цепочек вызовов инструментов или при ведении многоступенчатых диалогов с пользователями.

Напротив, инструмент "думать" лучше подходит для ситуаций, когда Клод не может получить всю необходимую информацию только из запросов пользователя и должен обрабатывать внешнюю информацию (например, результаты вызовов инструментов). Рассуждения, выполняемые инструментом "думать", не столь всеобъемлющи, как при "расширенном мышлении", и больше сосредоточены на поиске моделей мезо- (химия) Информация.

Антропология "Расширенное мышление" рекомендуется для более простых сценариев использования инструментов, таких как непоследовательные вызовы инструментов или прямое следование инструкциям. "Расширенное мышление" также подходит для сценариев, в которых Клоду не нужно вызывать инструменты, таких как кодирование, математика и физика." Инструменты "think" лучше подходят для сценариев, в которых Клоду нужно вызывать сложные инструменты, тщательно анализировать результаты работы инструментов в длинных цепочках их вызова, ориентироваться в стратегической среде с подробными инструкциями или принимать последовательные решения, где каждый шаг основывается на предыдущем (а ошибки дорого обходятся).

Ниже приведен список наиболее распространенных способов использования τ-Бенч Пример реализации стандартного формата спецификации инструмента:

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或更改数据库，只会将想法附加到日志中。在需要复杂推理或某些缓存记忆时使用。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "一个需要思考的想法。"
}
},
"required": ["thought"]
}
}

Тест производительности τ-Bench: значительное улучшение

Для оценки эффективности инструмента "думать" Anthropic протестировала его с помощью τ-Bench (tau-bench) - комплексного эталона, разработанного для проверки способности модели использовать инструмент в реалистичных сценариях обслуживания клиентов, где инструмент "думать" является частью стандартной среды для оценки.

Разработанный командой Sierra Research и недавно выпущенный τ-Bench нацелен на оценку возможностей Claude в следующих областях:

Моделируйте реальные диалоги пользователей.
Следуйте руководству по стратегии агента по комплексному обслуживанию клиентов.
Доступ к экологическим базам данных и работа с ними с помощью различных инструментов.

Основной метрикой оценки, используемой в τ-Bench, является проход^kМетрика pass@k измеряет вероятность того, что все k независимых пробных заданий будут успешными в данном задании, в среднем по всем заданиям. В отличие от метрики pass@k (которая измеряет успешность хотя бы одного из k испытаний), распространенной в других оценках LLM, метрика pass^k Оценка заключается в последовательности и надежности, что очень важно для приложений, связанных с обслуживанием клиентов, где необходимо всегда придерживаться политики.

Анализ производительности

В ходе оценки Anthropic сравнивались следующие различные конфигурации:

Базовый уровень (без инструмента "думать", без расширенного мышления)
Только расширенный образ мышления
Только инструмент "думать"
Инструмент "думать" с советами по оптимизации (для авиации)

Результаты показывают, что при эффективном использовании инструмента "думать" в модели Claude 3.5 Sonnet достигаются значительные улучшения как в области обслуживания клиентов "Авиакомпании", так и в области обслуживания клиентов "Розничная торговля":

Авиация: Инструмент "Думай" с подсказками по оптимизации доступен в pass¹ Показатель достиг 0,570 по сравнению с 0,370 на исходном уровне, что соответствует относительному улучшению на 541 TP3T.
Розничная торговля: Один только инструмент "думать" достигает 0,812, по сравнению с базовым значением 0,783.

$让 AI 停下来思考：Anthropic \$

Рисунок 1: Производительность Claude 3.5 Sonnet в четырех различных конфигурациях в "авиационной" области по оценке τ-Bench.

В следующей таблице приведены данные для модели Claude 3.5 Sonnet для четырех различных конфигураций домена "Aeronautics", оцененных τ-Bench:

настроить	k =1	k =2	k =3	k =4	k =5
"Думай" + оптимизация слов для подсказки	0.584	0.444	0.384	0.356	0.340
Только инструмент "Думай"	0.404	0.254	0.186	0.140	0.100
Расширенное мышление	0.412	0.290	0.232	0.192	0.160
базовая линия (в геодезической съемке)	0.332	0.206	0.148	0.116	0.100

Таблица 1: Результаты оценки сонетов Claude 3.5 в домене τ-Bench "Авиация".

В авиации оптимальная производительность может быть достигнута, если использовать инструмент "думать" в паре с оптимизированными словами-подсказками. Оптимизированные слова-подсказки представляют собой примеры методов рассуждения, используемых при анализе запросов клиентов. Ниже приведены примеры оптимизированных слов-подсказок:

## 使用 think 工具
在采取任何行动或在收到工具结果后回应用户之前，使用 think 工具作为草稿板来：
- 列出适用于当前请求的具体规则
- 检查是否收集了所有必需的信息
- 验证计划的操作是否符合所有策略
- 迭代工具结果以确保正确性
以下是在 think 工具中迭代的一些示例：
<think_tool_example_1>
用户想要取消航班 ABC123
- 需要验证：用户 ID、预订 ID、原因
- 检查取消规则：
  * 是否在预订后 24 小时内？
  * 如果不是，检查机票等级和保险
- 验证没有航段已飞行或已过时
- 计划：收集缺失信息，验证规则，获取确认
</think_tool_example_1>
<think_tool_example_2>
用户想要预订 3 张前往纽约的机票，每张机票有 2 件托运行李
- 需要用户 ID 来检查：
  * 会员等级以确定行李限额
  * 个人资料中存在哪些付款方式
- 行李计算：
  * 经济舱 × 3 名乘客
  * 如果是普通会员：每人 1 件免费行李 → 3 件额外行李 = 150 美元
  * 如果是白银会员：每人 2 件免费行李 → 0 件额外行李 = 0 美元
  * 如果是黄金会员：每人 3 件免费行李 → 0 件额外行李 = 0 美元
- 需要验证的付款规则：
  * 最多 1 张旅行券，1 张信用卡，3 张礼品卡
  * 所有付款方式必须在个人资料中
  * 旅行券余额作废
- 计划：
1. 获取用户 ID
2. 验证会员级别以确定行李费
3. 检查个人资料中的付款方式以及是否允许组合使用
4. 计算总价：机票价格 + 任何行李费
5. 获取明确的预订确认
</think_tool_example_2>

Особый интерес представляет сравнение различных методов. Использование инструмента "думай" с оптимизационными подсказками позволило добиться значительно лучших результатов, чем расширенный подход (который оказался аналогичен инструменту "думай" без подсказок). Использование только инструмента "думать" (без подсказок) улучшило результаты по сравнению с базовым уровнем, но все равно уступало оптимизационному подходу.

Сочетание инструмента "думать" и подсказок по оптимизации обеспечивает значительно более высокую производительность, что может быть связано с тем, что бенчмарки вавиационная стратегияИз-за высокого уровня сложности модель больше всего выигрывает от примера с "мышлением".

В торговом пространстве Anthropic также протестировала различные конфигурации, чтобы понять, какое влияние оказывает каждый подход.

$让 AI 停下来思考：Anthropic \$

Рисунок 2: Производительность Claude 3.5 Sonnet в трех различных конфигурациях в домене "Розничная торговля", оцененная с помощью τ-Bench.

В таблице ниже приведены данные для модели Claude 3.5 Sonnet в трех различных конфигурациях домена "Розничная торговля", оцененные с помощью τ-Bench:

Конфигурация	k =1	k =2	k =3	k =4	k =5
Только инструмент "Думай"	0.812	0.735	0.685	0.650	0.626
Расширенное мышление	0.770	0.681	0.623	0.581	0.548
базовая линия (в геодезической съемке)	0.783	0.695	0.643	0.607	0.583

Таблица 2: Результаты оценки Claude 3.5 Sonnet в домене τ-Bench "Розничная торговля".

Даже без дополнительных подсказок инструмент "Думай" обеспечивает самый высокий процент прохождения.¹ Оценка 0.812.стратегия розничной торговлиКлоду было значительно легче управлять самолетом, чем в авиации, и он смог улучшить свои показатели, получив пространство для размышлений без дополнительных инструкций.

Основные выводы из анализа τ-Bench

Детальный анализ Anthropic выявил несколько закономерностей, которые могут помочь эффективно внедрить "думающие" инструменты:

В сложных местах слова подсказки жизненно необходимы. Простое использование инструмента "думать" может несколько улучшить результаты, но его использование в паре с оптимизированными подсказками может дать значительно лучшие результаты в сложных областях. В более простых областях, однако, можно получить пользу от простого использования инструмента "думать".
Улучшение согласованности результатов испытанийИнструмент "думать" приносит улучшения в прохождении. Улучшения, вызванные использованием инструмента "думать" в прохождении^k при удержании k=5, что говорит о том, что инструмент помогает Клоду эффективнее справляться с крайними случаями и аномальными сценариями.

Тест производительности SWE-Bench: глазурь на торте

Оценивая модель Claude 3.5 Sonnet, Anthropic добавила аналогичный инструмент "думать" в установку SWE-Bench, чтобы довести ее до современного уровня 0,623. Модифицированный инструмент "думать" определен ниже:

{
"name": "think",
"description": "使用该工具进行思考。它不会获取新信息或对存储库进行任何更改，只会记录想法。在需要复杂推理或集思广益时使用。例如，如果您探索存储库并发现了错误的根源，请调用此工具来集思广益几种独特的修复错误的方法，并评估哪些更改可能最简单和最有效。或者，如果您收到一些测试结果，请调用此工具来集思广益修复失败测试的方法。",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "您的想法。"
}
},
"required": ["thought"]
}
}

Антропные эксперименты (n =30 образцов с помощью инструмента "думать". n (=144 пробы без инструмента "думать") показал, что независимый эффект от включения этого инструмента улучшил производительность в среднем на 1,6% (Welch's t Тест: t (38.89) = 6.71, p < .001, d = 1.47).

Сценарии использования инструмента "Думай"

Основываясь на результатах этих оценок, Anthropic определила конкретные сценарии, в которых Клод получил бы наибольшую выгоду от использования инструмента "думать":

Анализ результатов работы инструмента: Когда Claude необходимо тщательно обработать результаты предыдущего вызова инструмента, прежде чем действовать, и может потребоваться откат назад в своих методах.
стратегически активная среда: Когда Клоду необходимо следовать подробным инструкциям и проверять их соблюдение.
последовательное принятие решений: когда каждое действие опирается на предыдущее и ошибки дорого обходятся (обычно встречается в многошаговых доменах).

Передовой опыт: максимально используйте "мыслительные" инструменты

Чтобы в полной мере воспользоваться преимуществами инструмента Claude's "think", Anthropic предлагает следующие лучшие практики реализации, основанные на экспериментах τ-Bench.

1. Стратегические советы и примеры для конкретной области

Наиболее эффективный способ сделать это - предоставить четкие инструкции о том, когда и как использовать инструмент "think", например, для аэрокосмической области τ-Bench. Приведение примеров, учитывающих специфику конкретного случая, может значительно повысить эффективность использования инструмента "думать" в вашей модели:

Уровень детализации, ожидаемый в процессе рассуждений.
Как разбить сложные инструкции на выполнимые шаги.
Деревья решений для работы с распространенными сценариями.
Как проверить, что вся необходимая информация собрана.

2. Размещение сложных справочников в системных оповещениях

Anthropic обнаружил, что когда описания "мыслительных" инструментов длинные и сложные, эффективнее включать их в системные подсказки, а не помещать в само описание инструмента. Такой подход обеспечивает более широкий контекст и помогает моделям лучше интегрировать мыслительные процессы в свое общее поведение.

Когда не стоит использовать инструмент "думать"

Хотя инструмент "думать" может обеспечить значительные улучшения, он не применим ко всем сценариям использования инструмента и увеличивает длину и производительность запроса. жетон стоимость инструмента. В частности, Anthropic не обнаружила улучшений в работе инструмента "думать" в следующих случаях использования:

Непоследовательные вызовы инструментов: Если для выполнения задачи Клоду нужно сделать всего один вызов инструмента или несколько параллельных вызовов, то добавление инструмента "думать" вряд ли принесет какие-либо улучшения.
Простая команда: Когда Клоду не нужно следовать многим ограничениям и его поведение по умолчанию достаточно хорошо, лишние "размышления" вряд ли окупятся.

Быстрый старт: несколько простых шагов, значительные результаты

Инструмент "думать" - это простое дополнение к внедрению Claude, которое может привести к значимым улучшениям всего за несколько шагов:

Тестирование со сценариями использования прокси-инструментов. Начните со сложных сценариев использования - тех, где Claude в настоящее время испытывает трудности с соблюдением политик или сложными рассуждениями в длинных цепочках вызовов инструментов.
Добавление определений инструментов. Реализуйте инструмент "думать", настроенный для вашего домена. Он требует минимального количества кода, но позволяет проводить более структурированные рассуждения. Также рассмотрите возможность включения в системные подсказки инструкций о том, когда и как использовать инструмент, с примерами, относящимися к вашей области.
Мониторинг и совершенствование. Понаблюдайте, как Клод использует этот инструмент на практике, и адаптируйте свои подсказки, чтобы стимулировать более эффективные модели мышления.

Самое главное, что добавление этого инструмента имеет мало недостатков с точки зрения результатов работы. Он не изменит внешнего поведения и не повлияет на существующие инструменты или рабочий процесс, если только Клод не решит его использовать.

Резюме и перспективы

Исследования Anthropic показывают, что инструмент "думать" значительно повышает производительность модели Claude 3.5 Sonnet при решении сложных задач, требующих соблюдения политик и рассуждений над длинными цепочками вызовов инструментов. Хотя инструмент "think" не является универсальным решением, он обеспечивает значительные преимущества для правильных случаев использования при минимальной сложности реализации.

Мы с нетерпением ждем, когда разработчики начнут использовать инструменты "think" для создания более мощных, надежных и прозрачных систем ИИ. В будущем Anthropic может продолжить изучение сочетания инструментов "думать" с другими технологиями ИИ, такими как обучение с подкреплением и графы знаний, для дальнейшего расширения возможностей моделей ИИ по рассуждению и принятию решений. В то же время, как разработать более эффективные стратегии подсказок и как применить инструмент "думать" в более широком диапазоне областей, также будет важным направлением, заслуживающим изучения.

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.