ReAct: совместная работа рассуждений и действий в большой языковой модели

База знаний по искусственному интеллекту2年前更新 Круг обмена ИИ

75.9K 00

Оригинал: https://arxiv.org/pdf/2210.03629.pdf

Не можете понять, как работает и применяется ReAct, даже после прочтения? Загляните вПрактическое занятие по логике реализации ReAct" с практическими примерами.

рефераты

Хотя крупномасштабные языковые модели (llm) продемонстрировали впечатляющую производительность в задачах понимания языка и интерактивного принятия решений, их возможности рассуждения (например, сигналы цепочки мыслей) и возможности действия (например, генерация плана действий) в основном изучались как отдельные темы. В данной работе исследуется использование llm для генерации траекторий рассуждений и действий, специфичных для конкретной задачи, в чередовании, что позволяет добиться большего синергетического эффекта между ними: траектории рассуждений помогают модели обобщать, отслеживать и обновлять планы действий, а также работать с исключениями, а действия позволяют ей взаимодействовать с внешними источниками (например, базами знаний или окружением) и собирать дополнительную информацию. Предложенный метод ReAct применяется к разнообразным лингвистическим задачам и задачам принятия решений, и его эффективность демонстрируется по сравнению с современными базовыми показателями, в дополнение к улучшению интерпретируемости и достоверности. В частности, в задачах ответа на вопросы (HotpotQA) и проверки фактов (Fever) ReAct преодолевает иллюзии и проблемы распространения ошибок, характерные для рассуждений по цепочке мыслей, взаимодействуя с простым API Википедии и генерируя человекоподобные траектории решения задач, которые легче интерпретировать, чем базовые модели без траекторий рассуждений. Более того, на двух интерактивных эталонах принятия решений (ALFWorld и WebShop) ReAct превосходит подходы, основанные на подражании и обучении с подкреплением, с абсолютным коэффициентом успешности 34 % и 10 % соответственно, требуя при этом всего один или два контекстных примера.

1 Введение

Уникальной особенностью человеческого интеллекта является способность органично сочетать действия, ориентированные на выполнение задачи, с вербальными рассуждениями, которые, как считается, играют важную роль в человеческом познании, способствуя саморегуляции или выработке стратегии, а также поддержанию рабочей памяти. Если взять пример приготовления блюда на кухне, то между двумя конкретными действиями мы можем использовать вербальные рассуждения для отслеживания прогресса ("Теперь, когда все нарезано, я должен нагреть кастрюлю с водой"), для устранения аномалий или корректировки плана в зависимости от ситуации ("У меня нет соли, тогда давайте я использую соевый соус и перец вместо нее"), а также понимать, когда необходима внешняя информация ("Как приготовить тесто? Давайте я поищу в Интернете"). Мы также можем предпринимать действия (открывать книгу рецептов, чтобы прочитать рецепт, открывать холодильник, проверять ингредиенты), чтобы поддержать рассуждения и ответить на вопросы ("Что я могу приготовить прямо сейчас?"). Такие "действия" не являются для нас проблемой. Такая тесная синергия между "действием" и "рассуждением" позволяет человеку быстро осваивать новые задачи и принимать надежные решения или рассуждения в ранее не встречавшихся условиях или в условиях информационной неопределенности.

Последние результаты намекают на возможность сочетания вербальных рассуждений с интерактивным принятием решений в автономных системах. С одной стороны, соответствующим образом управляемые большие языковые модели (LLM) продемонстрировали способность выполнять несколько этапов рассуждений в задачах арифметики, логики и символических рассуждений. Однако эти "цепочки рассуждений" представляют собой статичный "черный ящик", в котором модель использует свое внутреннее представление для генерации мыслей и не опирается на внешний мир, что ограничивает ее способность рассуждать реактивно или обновлять знания. Это может привести к фактическим иллюзиям и распространению ошибок в процессе рассуждений (рис. 1(1b)). С другой стороны, в последних работах изучается использование предварительно обученных языковых моделей для планирования и действий в интерактивных средах с акцентом на предсказание действий с помощью лингвистических предпосылок. Эти подходы обычно преобразуют мультимодальные наблюдения в текст, используют языковые модели для генерации специфических для данной области действий или планов, а затем используют контроллеры для их выбора или выполнения. Однако они не используют лингвистические модели для абстрактного рассуждения о высокоуровневых целях или для поддержания рабочей памяти в поддержку действий, за исключением Huang et al. (2022b), которые использовали ограниченную форму вербального рассуждения для повторения пространственных фактов о текущем состоянии. За пределами этой простой воплощенной задачи, взаимодействующей с несколькими строительными блоками, не проводилось исследований того, как рассуждения и действия могут быть объединены синергетическим образом для решения общих задач, и может ли такая комбинация обеспечить систематические преимущества по сравнению с рассуждениями или действиями по отдельности.

Рисунок 1. (1) Сравнение четырех методов подсказки: (а) стандартная подсказка, (б) цепочка мыслей (CoT, только рассуждения), (в) только действия и (г) ReAct (рассуждения + действия) - для решения задачи HotpotQA (Yang et al., 2018). (2) Сравнение подходов (a) "только действие" и (b) "ReAct" с подсказками для решения игры AlfWorld (Shridhar et al., 2020b). В обоих доменах мы опускаем контекстные примеры из подсказок и показываем только траектории решения задач, созданные моделью (действия, мышление) и окружающей средой (наблюдение).

в данной статье представлены_ReActReAct побуждает llm генерировать релевантные задаче вербальные следы рассуждений и действий сквозным образом, что позволяет модели выполнять динамические рассуждения для создания, поддержания и адаптации высокоуровневых планов действий (обоснованные действия), одновременно взаимодействуя с внешней средой (например, Википедией) для включения дополнительной информации (рассуждения действием). дополнительной информации в рассуждения (рассуждения с помощью действий).

В данной работе проводится эмпирическая оценка ReAct и современных базовых моделей на четырех различных эталонах: викторине, проверке фактов, текстовых играх и веб-навигации. Для HotPotQA и Fever ReAct превосходит обычные модели генерации действий и конкурирует с Chain-of-Thought Reasoning (CoT) за счет доступа к API Википедии, где модели могут взаимодействовать. В целом, лучшим подходом является комбинация ReAct и CoT, которая позволяет использовать в процессе рассуждений как внутренние знания, так и информацию, полученную извне. В ALFWorld и WebShop две или даже одна подсказка ReAct могут превзойти использование 10³∼ 10⁵Методы подражания или обучения с подкреплением, обученные на экземплярах задач, привели к абсолютному увеличению коэффициента успешности на 34 и 10 процентов соответственно. Важность редких, обобщенных рассуждений в принятии решений демонстрирует постоянное преимущество над контролируемой базовой ситуацией, когда нужно только предпринимать действия. Помимо общей применимости и повышения производительности, сочетание рассуждений и действий способствует интерпретируемости, достоверности и диагностируемости модели во всех областях, поскольку люди могут легко отличить информацию, полученную из внутренних знаний модели, от внешней среды, а также изучить траектории выводов, чтобы понять, на чем основаны действия модели при принятии решений.

В целом, наш основной вклад заключается в следующем.

(1) Предложение ReAct, новой парадигмы совместных рассуждений и действий на основе подсказок в языковом моделировании для решения общих задач.

(2) Были проведены обширные эксперименты на различных эталонах, чтобы продемонстрировать преимущества ReAct по сравнению с предыдущими подходами к умозаключениям или генерации действий в условиях обучения без выборки;.

(3) предложить систематическую абляцию и анализ для понимания важности действий в задачах рассуждения и рассуждения в задачах взаимодействия.

(4) Проанализированы ограничения ReAct в условиях с подсказками (т.е. ограниченная поддержка умозаключений и поведения) и проведены предварительные эксперименты по тонкой настройке, показывающие потенциал улучшения ReAct с помощью дополнительных обучающих данных. Расширение ReAct для обучения и манипулирования дополнительными задачами, а также сочетание его с дополнительными парадигмами, такими как обучение с подкреплением, может способствовать дальнейшему раскрытию потенциала больших языковых моделей.

2 РЕАКТ: совместные рассуждения + действия

Рассмотрим общую схему интеллектуального тела, которое взаимодействует с окружающей средой для решения поставленной задачи. На временном шагеtПри включении агент получает наблюдение из окружающей средыo_t∈ O, и в соответствии с некоторой стратегиейπ(a_t|c_t) Выполните операциюa_t∈ A, гдеc_t= (o₁,a₁,--- ,o_t_-1,a_t_-1,o_t) является контекстом агента. При отображенииc_t→7 a_tОбучение стратегиям может быть сложным, если они являются неявными и требуют большого объема вычислений. Например, агент, показанный на рис. 1 (1c), не может сгенерировать правильное конечное действие (Act 4) для завершения задачи QA, поскольку оно требует сложных рассуждений о контексте траектории (Question, Act 1-3, Obs 1-3). Аналогично, агент, изображенный на рис. 1 (2a), не может понять из контекста, что в раковине 1 нет шейкера для перца 1, и поэтому продолжает демонстрировать галлюцинаторное поведение.

Идея ReAct проста: мы расширяем пространство действий интеллектуального тела до Aˆ = A ∪ L, где L - пространство языка. Действие в языковом пространствеaˆ_t∈ L, который мы будем называть следом мысли или рассуждения, не влияет на внешнюю среду и, следовательно, не приводит к обратной связи с наблюдениями. Напротив, мысльaˆ_tСтремится составить полезную информацию, рассуждая о текущем контекстеc_tи обновить контекстc_t₊₁= (c_t,aˆ_t) для поддержки будущих рассуждений или действий. Как показано на рисунке 1, полезные идеи могут быть разных типов, например: разбивка целей задачи и создание плана действий (2b, Act 1; 1d, Thought 1), введение в него знаний, относящихся к решению задачи (2b, Thought 1), извлечение важных деталей из наблюдений (1d, Thoughts 2,4), отслеживание прогресса и транспортировка плана действий (2b, Thought 8), работа с исключениями и корректировка плана действий ( 1d, мысль 3) и так далее.

Однако, поскольку языковое пространство L бесконечно, обучение в этом дополненном пространстве действий затруднено и требует сильных лингвистических предубеждений. В данной работе мы рассматриваем замороженную большую языковую модель PaLM-540B (Chowdhery et al., 2022) в этой ситуации.^[1]Контекстуальные примеры с меньшим количеством образцов были использованы для генерации специфических действий и лингвистических мыслей в свободной форме для решения задач (рис. 1 (1d), (2b)). Примеры в каждом контексте представляют собой траектории действий, мыслей и наблюдений за окружающей средой, используемых для решения задач (см. приложение C). Для задач, в которых рассуждения имеют первостепенное значение (рис. 1(1)), мы генерируем мысли и действия поочередно, так что траектория решения задачи состоит из нескольких шагов "мысль-действие-наблюдение". В отличие от этого, для задач принятия решений, которые могут включать большое количество действий (рис. 1(2)), мысли должны появляться только в наиболее релевантных позициях траектории, поэтому мы позволяем языковой модели самой решать вопрос об асинхронном появлении мыслей и действий.

Благодаря интеграции возможностей принятия решений и рассуждений в большую языковую модель, ReAct обладает рядом уникальных особенностей.

А) Интуитивно понятный и простой дизайн:Разработать подсказки ReAct очень просто, потому что люди-аннотаторы просто выражают свои мысли в словах поверх своих действий. В этой статье не используются конкретные варианты форматов, дизайнов мыслей или образцов. Мы подробно описываем дизайн подсказок для каждой задачи в разделах 3 и 4.

Б) Универсальный и гибкий:Благодаря гибкому пространству мышления и формату "думай-действуй-генерируй" ReAct подходит для различных задач с разными пространствами действий и потребностями в рассуждениях, включая, но не ограничиваясь, QA, проверку фактов, текстовые игры и веб-навигацию.

C) Мощная и надежная производительность:ReAct демонстрирует сильную обобщенность при обучении всего на одном-шести контекстных примерах, постоянно выходя за рамки базового уровня только рассуждений или действий в разных областях. В разделе 3 мы также показываем дополнительные преимущества при включении функции тонкой настройки, а в разделе 4 - устойчивость работы ReAct к выбору подсказок.

Г) Согласован с людьми и поддается контролю:ReAct обещает интерпретируемый последовательный процесс принятия решений и рассуждений, в котором человек может легко проверить правильность рассуждений и фактов. Кроме того, как показано на рисунке 5 в разделе 4, человек может контролировать или корректировать поведение интеллектуального тела, думая о редактировании.

3 Задачи рассуждения, требующие больших знаний

Начиная с наукоемких задач рассуждения, таких как многоходовая викторина и проверка фактов. Как показано на рисунке 1 (1d), взаимодействуя с API Википедии, ReAct может получать информацию для поддержки рассуждений, а также использовать рассуждения для определения того, что нужно получить в следующий раз, демонстрируя синергию рассуждений и действий.

3.1 Настройки

Домены Мы рассматриваем два набора данных, которые представляют проблемы для поиска и вывода знаний: (1) HotPotQA - многоходовый эталон ответа на вопросы, требующий вывода по двум или более статьям Википедии, и (2) FEVER - эталон проверки фактов, в котором каждое утверждение помечено как ПОДТВЕРЖДАЕТ, ОПРОВЕРГАЕТ или НЕ ПОДТВЕРЖДАЕТ. ENOUGH INFO, в зависимости от того, существует ли статья в Википедии, подтверждающая данное утверждение. В данной работе мы используем в обеих задачах только проблему, где модель получает на вход только проблему/высказывание, не имея доступа к вспомогательным отрывкам, и вынуждена полагаться на свои внутренние знания или получать знания, взаимодействуя с внешней средой, для поддержки рассуждений.

Пространство действия Мы разработали простой веб-интерфейс Википедии, содержащий три типа операций для поддержки интерактивного поиска информации:

(1) искать что-л. [Entity], который возвращает первые 5 предложений с соответствующей вики-страницы сущности, если она существует, в противном случае предлагает первые 5 похожих сущностей из поисковой системы Wikipedia.

(2) найти [string], который вернет следующее предложение на странице, содержащей строку, имитируя функцию Ctrl+F в браузере.

(3) выполнить [ответ], завершить текущую задачу с ответом. Пространство действий в основном может извлекать только небольшую часть абзаца, основываясь на точном названии абзаца, что гораздо слабее, чем у современных лексических или нейронных ретриверов. Цель состоит в том, чтобы имитировать взаимодействие человека с Википедией и заставить модель извлекать информацию посредством явных рассуждений на языке.

3.2 Методология

ReAct Prompting Применяя HotpotQA и Fever, мы случайным образом выбрали 6 и 3 случая из обучающего набора и вручную написали траектории в формате ReAct, чтобы использовать их в качестве недовыбранных образцов в подсказках. Как показано на рис. 1 (d), каждая траектория состоит из нескольких шагов "мысль-действие-наблюдение" (т. е. плотное мышление), в которых мысли в свободной форме используются для различных целей. В частности, мы используем комбинацию мыслей для декомпозиции проблемы ("Мне нужно найти x, найти y, а затем найти z"), извлечения информации из наблюдений в Википедии ("x началось в 1844 году", "отрывок не не говорит о x"), руководствоваться здравым смыслом ("x - это не y, поэтому z должно быть ......") или арифметические рассуждения ("1844 < 1989"), направляя реконструкцию поиска ("Может быть, я смогу найти x"), и синтезируя окончательный ответ (" "...... Значит, ответ - x"). Более подробную информацию см. в Приложении C.

Базовые линии Мы систематически удаляли траектории ReAct, чтобы построить несколько базовых сигналов (в формате рис. 1 (1a-1c)).

(a)Стандартная подсказка/Стандартная подсказка(Стандарт), убирая все мысли, действия и наблюдения с траектории ReAct.

(b)Побуждение к размышлению / Побуждение к размышлению(CoT), в которой удалены действия и наблюдения и которая служит только в качестве базовой линии для рассуждений. Самосогласованный базовый уровень (CoT-SC) был установлен путем выборки траекторий с температурой декодирования 21 CoT 0,7 во время умозаключений и использования большинства ответов, что, как было установлено, постоянно улучшает производительность по сравнению с CoT.

(c)Оперативная подсказка(Act), который удаляет идеи из траектории ReAct, примерно аналогичен тому, как WebGPT взаимодействует с Интернетом, чтобы ответить на вопросы, хотя он работает в другом пространстве задач и действий и использует имитацию и обучение с подкреплением, а не подсказки.

Объединение внутренних и внешних знаний / Объединение внутренних и внешних знаний Как мы подробно рассмотрим в разделе 3.3, мы заметили, чтоReAct демонстрировал более фактический и обоснованный процесс решения проблем, в то время как CoT более точно формулировал структуру рассуждений, но был склонен к галлюцинациям.Поэтому мы предлагаем объединить ReAct и CoT-SC и позволить модели решать, когда переключиться на другой метод, основываясь на следующей эвристике.

a) ReAct→КоТ-СКМы установили 7 и 5 шагов для HotpotQA и FEVER, соответственно, поскольку обнаружили, что большее количество шагов не улучшает работу ReAct.

b) КоТ-СК→ReAct:: КогдаnБольшинство ответов в выборке CoT-SC выглядят менее чемn/Во 2 случае (т.е. внутренние знания могут не позволить уверенно выполнить задание) вернитесь к ReAct.

Тонкая настройка/финишная настройка В связи с трудностями ручной маркировки траекторий умозаключений и действий в масштабе, в данной работе рассматривается подход самопомощи, аналогичный подходу Зеликмана и др. (2022), который использует 3000 траекторий с правильными ответами, сгенерированных ReAct (также используется в других базовых моделях), для точной настройки меньшей языковой модели (PaLM-8/62B) для декодирования траекторий, обусловленных входными вопросами/высказываниями (все мысли, действия, наблюдения). Более подробную информацию см. в Приложении B.1.

3.3 Результаты и наблюдения

ReAct в целом превосходит Act / ReAct постоянно превосходит Act В таблице 1 приведены результаты HotpotQA и Fever, использующие PaLM-540B в качестве базовой модели и применяющие различные методы подсказки. Мы отмечаем, что ReAct превосходит Act в обеих задачах, демонстрируя ценность умозаключений для руководства действиями, особенно при синтезе окончательных ответов, как показано на рис. 1 (1c-d). Результат тонкой настройки 3 также подтверждает преимущества следов умозаключений для более обоснованных действий.

Таблица 1: Результаты работы с кием PaLM-540B в играх HotpotQA и Fever.

ReAct против. CoT С другой стороны, ReAct превосходит CoT по показателю Fever (60,9 против 56,3) и немного отстает от CoT по HotpotQA (27,4 против 29,4). Различия в утверждениях "за" и "против" могут быть незначительными (см. Приложение D.1), поэтому очень важно принять меры для получения точных и актуальных знаний. Чтобы лучше понять поведенческие различия между ReAct и CoT в HotpotQA, мы случайным образом выбрали по 50 траекторий с правильными и неправильными ответами (суждения EM) из ReAct и CoT (всего 200 примеров) соответственно и вручную отметили их успехи и неудачи в таблице 2. Ниже приведены некоторые ключевые наблюдения.

Таблица 2: Типы успехов и неудач для ReAct и CoT на HotpotQA, а также их процентное соотношение в случайно выбранных примерах из исследований на людях.

A) Галлюцинации - серьезная проблема для CoTно в режиме успеха приводит к гораздо более высокой частоте ложных тревог, чем ReAct (14% против 6%), и составляет его основной режим отказа (56%). Напротив, траектория решения проблем ReAct более релевантна, основана на фактах и заслуживает доверия благодаря возможности доступа к внешней базе знаний.

Б) Хотя чередование шагов рассуждения, действия и наблюдения повышает практичность и надежность ReAct, это структурное ограничение также снижает гибкость при формулировании шагов рассужденияМы отмечаем, что в ReAct часто встречаются ошибки, когда модель регенерирует предыдущие мысли и действия, которые мы классифицируем как часть "ошибки рассуждения", потому что модель не может адекватно рассуждать о следующем действии и выпрыгивает из цикла.

В) Для ReAct успешное получение информационных знаний с помощью поиска имеет решающее значение.На неинформативные поиски пришлось 23% случаев ошибок, что сбивало рассуждения о модели и затрудняло восстановление и переформулировку идей. Это может быть ожидаемым компромиссом между фактологичностью и гибкостью, что и побудило нас предложить стратегию, сочетающую эти два подхода.

В Приложении E.1 мы приводим примеры для каждого способа успеха и неудачи. Мы также обнаружили, что некоторые вопросы HotpotQA могут содержать устаревшие обозначения ответов, пример см. на рисунке 4.

ReAct + CoT-SC показали наилучшие результаты в стимулировании LLM.Как показано в таблице 1, лучшими методами подсказки в HotpotQA и Fever оказались ReAct → CoT-SC и CoT-SC → ReAct, соответственно. Кроме того, на рисунке 2 показана производительность различных методов при использовании разного количества образцов CoT-SC. Хотя оба метода ReAct + CoT-SC имеют преимущества в своих задачах, они оба значительно и стабильно превосходят CoT-SC при использовании всего 3-5 образцов при различном количестве образцов, что демонстрирует ценность правильного сочетания знаний, заложенных в модель, и знаний, заложенных в задачу рассуждения.

Рисунок 2: Результаты оперативного анализа PaLM-540B представлены в зависимости от количества использованных образцов CoT-SC.

ReAct оптимально подходит для тонкой настройки.На рисунке 3 показаны расширенные эффекты подсказок/тонкой настройки для четырех методов (Standard, CoT, Act, ReAct) в HotpotQA. В PaLM-8/62B подсказка ReAct показала наихудшие результаты из четырех методов из-за сложности обучения рассуждениям и действиям на основе сценариев. Однако при тонкой настройке с использованием всего 3 000 примеров ReAct стал лучшим из четырех методов, при этом ReAct с тонкой настройкой в PaLM-8B превзошел все методы подсказки PaLM-62B, а ReAct с тонкой настройкой в PaLM-62B превзошел все методы подсказки 540B. Напротив, тонкая настройка Standard или CoT оказалась значительно хуже, чем тонкая настройка ReAct или Act, в PaLM8/62B, первый из которых в первую очередь учит модель запоминать (возможно, вымышленные) факты знаний, а второй учит модель (рассуждать и) действовать при получении информации из Википедии, что является более общим навыком рассуждения о знаниях. Поскольку все методы подсказки все еще значительно уступают современным достижениям в конкретной области (табл. 1), мы считаем, что более точная настройка с использованием большего количества данных, написанных человеком, может стать лучшим способом раскрыть возможности ReAct.

Рисунок 3. Расширенные результаты для подсказки и тонкой настройки HotPotQA с помощью ReAct (наш метод) и базовых вариантов.

4 Задачи по принятию решений

Мы также протестировали ReAct в двух интерактивных задачах на принятие решений на основе языка, ALFWorld и WebShop. Обе задачи имеют сложную среду, требующую от интеллекта действий в течение длительного времени с редкими вознаграждениями, что требует от интеллекта эффективных рассуждений, чтобы предпринять действия и исследовать.

ALFWorld ALFWorld (рис. 1(2)) - это синтетическая текстовая игра, разработанная в соответствии с эталоном воплощенного интеллекта ALFRED. Она состоит из 6 типов заданий, в которых интеллект должен ориентироваться в текстовых действиях (например, подойти к журнальному столику1 , взять папку2 , использовать настольную лампу1 ) и взаимодействовать с симулированной семьей для достижения высокоуровневых целей (например, проверить папку под настольной лампой). Экземпляр задачи может содержать более 50 мест и требовать более 50 шагов экспертной стратегии для решения, что требует от интеллекта планирования и отслеживания подцелей, а также систематического поиска (например, проверка всех столов по очереди, чтобы найти настольную лампу). В частности, одной из задач, встроенных в ALFWorld, является необходимость определить вероятное местоположение обычных бытовых предметов (например, настольная лампа, скорее всего, будет находиться на столе, полке или комоде), что делает эту задачу идеальной для использования LLM своих предварительно натренированных знаний. Чтобы задействовать ReAct, мы случайным образом аннотировали три траектории в обучающем наборе для каждого типа задач, каждая из которых состояла из редких идей, которые (1) декомпозировали цель, (2) отслеживали выполнение подцели, (3) определяли следующую подцель и (4) находили местоположение объекта и то, что с ним делать, с помощью рассуждений на уровне здравого смысла. Подсказки, используемые в ALFWorld, приведены в Приложении C.4. Следуя подходу Шридхара и др., мы оценили 134 неизвестные оценочные игры в конкретной постановке задачи. Для надежности мы построили 6 подсказок для каждого типа задач, используя каждую перестановку каждой из аннотированных нами 3 траекторий. Подсказки Act были построены по тем же траекториям, но без идей - поскольку экземпляры задач были выбраны случайно из обучающего набора, они не были предвзяты ни к ReAct, ни к Act. Act, обеспечивая честное и контролируемое сравнение для проверки важности редких идей. В качестве базового уровня мы использовали BUTLER, имитационный обучающий интеллект, обученный на 105 экспертных траекториях для каждого типа задач.

Интернет-магазин Может ли ReAct также взаимодействовать с шумными языковыми средами реального мира для практического применения? Мы изучили WebShop, недавно предложенную среду веб-сайта интернет-магазина с 1,18 млн реальных товаров и 12 тыс. человеческих инструкций. В отличие от ALFWorld, Webshop содержит большое количество структурированного и неструктурированного текста (например, названия, описания и варианты товаров, полученные с Amazon) и просит интеллекты взаимодействовать с ним на основе команд пользователя (например, "Я ищу тумбочку с ящиками. Она должна иметь никелевую отделку и стоить менее 140 долларов") через веб-взаимодействие (например, поиск "тумбочка с ящиками" и выбор таких кнопок, как "Цвет: современный никель белый" или "Вернуться к поиск", выбор таких кнопок, как "Цвет: современный никель белый" или "Назад") для покупки товара. Эта задача оценивалась по среднему баллу (процент требуемых атрибутов, покрываемых выбранным товаром, усредненный по всем эпизодам) и коэффициенту успешности (процент эпизодов, в которых выбранный товар соответствовал всем требованиям) на 500 тестовых инструкциях. Мы разработали подсказки Act, которые включали действия по поиску, выбору продуктов, выбору вариантов и покупке, а подсказки ReAct дополнительно рассуждали, чтобы определить, что нужно изучить, когда купить и какие варианты продуктов соответствуют инструкциям. Примеры подсказок см. в табл. 6, а предсказания модели - в табл. 10 в Приложении. Мы сравниваем этот подход с подходом, основанным на обучении по подражанию, который был обучен на 1012 лично аннотированных траекториях, и дополнительным подходом, основанным на обучении по подражанию + обучении с подкреплением (IL + RL), который был обучен на 10587 инструкциях.

в конце концов На платформе ALFWorld (табл. 3) и Webshop (табл. 4) ReAct превосходит Act. На платформе ALFWorld эксперимент ReAct с наивысшей эффективностью достигает среднего коэффициента успешности 711 TP3T, что значительно превосходит лучшие эксперименты Act (451 TP3T) и BUTLER (371 TP3T). Более того, худший эксперимент ReAct (481 TP3T) также превзошел лучшие эксперименты обоих методов. Более того, преимущество ReAct над Act сохранялось на протяжении всех шести контролируемых экспериментов: относительный прирост производительности составил от 331 TP3T до 901 TP3T, в среднем 621 TP3T. С качественной точки зрения мы обнаружили, что Act не может правильно разбить цель на более мелкие подцели, не думая о ней вообще, или теряет контроль над текущим состоянием среды. Примеры траекторий, в которых сравниваются ReAct и Act, приведены в Приложении D.2.1 и Приложении D.2.2.

Таблица 3: Коэффициенты успешности для конкретной задачи AlfWorld (%). Результаты для BUTLER и BUTLERg взяты из таблицы 4 Shridhar et al. 2020b. Все методы используют жадное декодирование, кроме BUTLER, который использует лучевой поиск.

Таблица 4: Баллы и коэффициенты успешности (SR) в интернет-магазине. Данные IL/IL+RL взяты из работы Yao et al. (2022).

В Webshop одноразовые подсказки Act смогли ужиться с методами IL и IL+RL. С дополнительными разреженными рассуждениями ReAct достигает значительно более высокой производительности, с абсолютным улучшением на 10% по сравнению с предыдущим лучшим показателем успеха. Изучив примеры, мы обнаружили, что ReAct с большей вероятностью преодолевает разрыв между зашумленными наблюдениями и действиями, определяя продукты и варианты, соответствующие инструкции (например, "Для "экономящего место в гостиной табурета для ног" этот предмет имеет размеры ' 39x18x18 дюймов" и "синий", которые, похоже, стоит купить"). . Однако существующие методы все еще работают гораздо хуже, чем люди-эксперты (табл. 4), которые выполняют значительно больше операций по поиску товаров и реконструкции запросов, что остается сложной задачей для методов, основанных на подсказках.

О ценности внутренних рассуждений в сравнении с внешней обратной связью Насколько нам известно, ReAct - это первая демонстрация применения LLM к замкнутой системе, объединяющей рассуждения и действия в интерактивной среде. Возможно, наиболее близкой по времени работы является "Внутренний монолог" (IM) Хуанга и др. (2022b), в котором действия воплощенных агентов определяются одноименным "внутренним монологом".Однако "внутренний монолог" IM ограничивается наблюдениями за состоянием окружающей среды и задачами, которые агент должен выполнить для достижения целей.В отличие от этого, отслеживание принятия решений в ReAct является гибким и разреженным, что позволяет индуцировать различные типы заключений для разных задач (см. раздел 2).

Чтобы продемонстрировать разницу между ReAct и IM и подчеркнуть важность внутренних рассуждений в сравнении с простыми ответами на внешнюю обратную связь, мы провели эксперименты по абляции с использованием мыслительного шаблона, состоящего из плотной внешней обратной связи в стиле IM. Как показано в таблице 3, ReAct значительно превзошел подсказки в стиле ИМ (ReAct-IM) (71% против 53% для общего успеха), с постоянным преимуществом в пяти из шести задач. С качественной точки зрения, мы заметили, что ReAct-IM часто допускал ошибки при определении того, когда подцели были завершены или какой должна быть следующая подцель, из-за отсутствия декомпозиции цели на высоком уровне. Кроме того, многие траектории ReAct-IM испытывали трудности с определением местоположения предметов в среде ALFWorld из-за недостатка здравого смысла.
Оба этих недостатка могут быть устранены в парадигме ReAct. Более подробная информация о ReAct-IM приведена в Приложении B.2. Примеры подсказок для ReAct-IM можно найти в Приложении C.4, а примеры траекторий - в Приложении D.2.3.

5 Похожие работы

Лингвистическая модель рассуждений Пожалуй, самой известной работой, посвященной рассуждениям с помощью больших языковых моделей (БЯМ), является Chain-of-Thought (CoT), которая выявила способность БЯМ формулировать собственные "мыслительные процессы" для решения задач. С тех пор было проведено несколько последующих работ, в том числе по принципу "от меньшего к большему" для сложных задач, по принципу "нулевого выстрела" и по принципу самосогласованных рассуждений. Недавно (Madaan & Yazdanbakhsh, 2022) систематически исследовали построение и структуру КОТ и заметили, что наличие символов, схем и текста имеет решающее значение для эффективности КОТ.
В других работах были созданы более сложные архитектуры рассуждений, выходящие за рамки простых подсказок. Например, Selection-Inference разделяет процесс умозаключения на этапы "выбор" и "умозаключение", а STaR направляет процесс умозаключения, точно настраивая модель на основе правильных умозаключений, генерируемых самой моделью. Процесс рассуждения. Верное рассуждение декомпозирует многоэтапное рассуждение на три этапа, каждый из которых выполняется специальным LM. Аналогичные подходы, такие как Scratchpad, также демонстрируют улучшения в многоэтапных вычислительных задачах за счет точной настройки LM на промежуточных вычислительных шагах.
В отличие от этих подходов, ReAct выполняет не просто изолированные, фиксированные рассуждения, а интегрирует действия модели и соответствующие им наблюдения в целостный входной поток, чтобы модель могла рассуждать более точно и решать задачи, выходящие за рамки рассуждений (например, интерактивное принятие решений).

Использование языковых моделей для принятия решений. Возможности мощных LLM позволяют им выполнять задачи, выходящие за рамки генерации языка, и все более популярным становится использование LLM в качестве стратегической модели для принятия решений, особенно в интерактивных средах. WebGPT использует LLM для взаимодействия с веб-браузерами, навигации по веб-страницам и вывода ответов на сложные вопросы из ELI5 . В отличие от этого, WebGPT не моделирует в явном виде процессы мышления и рассуждения, а полагается на дорогостоящую обратную связь от человека для обучения с подкреплением. В области моделирования диалогов такие системы, как BlenderBot и Sparrow, а также диалоговые системы, ориентированные на решение задач, например SimpleTOD, также обучают ЛМ принимать решения о вызовах API. В отличие от ReAct, они не рассматривают процесс вывода в явном виде и полагаются на дорогостоящие наборы данных и отзывы людей для обучения политике. В отличие от них, ReAct обучает политике более дешевым способом, поскольку для принятия решений требуется только язык для описания процесса рассуждений.

Языковые модели (LLM) также все чаще применяются для планирования и принятия решений в интерактивных и воплощенных средах. В этом отношении наиболее актуальными для ReAct, вероятно, являются SayCan иВнутренний монологВ SayCan LLM предлагается напрямую предсказать возможные действия робота, которые затем упорядочиваются визуальной моделью доступности на основе окружающей среды, чтобы сделать окончательное предсказание. В SayCan ЛЛМ предлагается напрямую предсказать возможные действия робота, которые затем упорядочиваются визуальной моделью доступности на основе окружающей среды, чтобы сделать окончательное предсказание.Inner Monologue еще более улучшен за счет добавления знаменитого "внутреннего монолога", который реализован как обратная связь, поступающая из окружающей среды. Обратная связь из окружающей среды. Насколько нам известно, Inner Monologue - это первая работа, демонстрирующая такую замкнутую систему, и ReAct развивает ее. Однако мы утверждаем, что Inner Monologue на самом деле не содержит внутреннего мышления - об этом подробно говорится в разделе 4. Мы также отмечаем, что использование языка в качестве семантически насыщенного входного сигнала в интерактивных процессах принятия решений доказало свою успешность в других ситуациях. Становится все более очевидным, что с помощью LLM язык как фундаментальный когнитивный механизм будет играть ключевую роль во взаимодействии и принятии решений. Более того, достижения в области LLM вдохновили на разработку универсальных агентов общего назначения, таких как Reed et al.

6 Заключение

Мы представляем ReAct - простой, но эффективный подход для координации рассуждений и действий в больших языковых моделях. Проведя множество экспериментов с многоходовыми ответами на вопросы, проверкой фактов и интерактивными задачами принятия решений, мы показали, что ReAct приводит к превосходной производительности с разберемыми путями принятия решений. Несмотря на простоту нашего подхода, сложные задачи в больших пространствах действий требуют большего количества примеров для хорошего обучения, что может легко превысить ограничения на длину входных данных в контекстном обучении. Мы опробовали тонко настроенный подход на HotpotQA, и первые результаты обнадеживают, но ожидается, что обучение на более качественных человеческих аннотациях еще больше повысит производительность. Возможность масштабирования ReAct при многозадачном обучении в сочетании с дополнительными парадигмами, такими как обучение с подкреплением, может привести к созданию более мощных агентов, которые раскроют потенциал LLM для большего числа приложений.

A Дополнительные выводы

A.1 Эксперимент с GPT-3

Таблица 5: Сравнение результатов для подсказок ReAct с использованием PaLM-540B и GPT-3 (text-davinci-002, жадное декодирование). В HotpotQA мы случайным образом выбрали подмножество из 500 проверочных вопросов. В ALFWorld мы использовали все 134 невидимых экземпляра проверочной задачи с лучшим набором подсказок, выбранным в соответствии с PaLM-540B.

Мы провели дополнительные эксперименты с GPT-3 (Brown et al., 2020), чтобы подтвердить универсальность производительности ReAct cue для различных больших языковых моделей. Как показано в Таблице 5, GPT-3 (text-davinci-002, жадное декодирование) постоянно превосходит PaLM-540B в HotpotQA и ALFWorld, возможно, потому что она была точно настроена на выполнение человеческих инструкций. Это говорит о том, что подсказка ReAct эффективна в разных задачах для разных больших языковых моделей. Код для этих экспериментов можно найти на сайте https://react-lm.github.io/.

A.2 РеАкция для получения актуальных знаний о HotpotQA

Рисунок 4: Еще один пример вопроса викторины "Горячий горшочек", где оригинальные метки устарели. Только ReAct смог получить самые актуальные ответы благодаря реальному взаимодействию с сайтом в сочетании с рассуждениями.

A.3 Поведенческие коррекции для вовлечения человека в цикл на ALFWorld

Мы также исследовали взаимодействие с ReAct с помощью петли вовлечения человека, которая позволяла ему проверять и редактировать следы рассуждений ReAct. На рисунке 5 показано, что, просто удалив галлюцинаторное предложение в акте 17 и добавив несколько подсказок в акте 23, можно заставить ReAct значительно изменить свое поведение, привести его в соответствие с этими правками человеческой мысли и успешно выполнить задание. С точки зрения человека, решение такой задачи становится намного проще: от ввода десятков действий до редактирования всего нескольких мыслей, что позволяет создать новый тип человеко-машинного сотрудничества. Мы отмечаем, что такое редактирование политики затруднено для Act и предыдущих RL-подходов, поскольку человек не может изменять параметры модели, а изменение нескольких действий не может изменить остальную часть поведения модели. Эта парадигма также выходит за рамки человеческого диалога для обновления целей или подцелей, как описано в Huang et al. (2022b) - хотя редактирование идей ReAct может делать все это, оно также может изменять любые внутренние убеждения модели, стили рассуждений или гибкую поддержку мыслительного пространства для лучшего решения задачи. Мы считаем, что это захватывающее направление развития человеческого согласования, и оставляем более систематические исследования в качестве будущей работы.

Рисунок 5: Примеры коррекции поведения HCI с помощью ReAct в AlfWorld. (a) Траектория ReAct не работает из-за галлюцинаторного мышления (поведение 17). (b) Путем простого редактирования человеком двух мыслей (поведения 17, 23) траектория ReAct успешно создает желаемую траекторию рассуждений и действий.

B Экспериментальные детали

B.1 Тонкости настройки викторины "Горячие темы

Для всех тонких настроек мы используем размер партии 64. На PaLM-8B мы выполнили 4 000 шагов тонкой настройки для методов ReAct и Act и 2 000 шагов тонкой настройки для методов Standard и CoT. На PaLM-62B мы выполнили тонкую настройку методов ReAct и Act на 4 000 шагов, а методов Standard и CoT - на 1 000 шагов. Мы обнаружили, что методы ReAct и Act обычно выигрывают от большего количества шагов обучения (и большего количества обучающих данных), в то время как методы Standard и CoT начинают деградировать вскоре после точной настройки.

B.2 Детали стиля ALFWORLD Instant

Для экспериментов с немедленной абляцией стиля были заново проанализированы те же экспертные траектории, которые использовались в ReAct, и эти траектории содержали плотное мышление с внешней обратной связью, что ограничивало ReAct-IM только рассмотрением (1) декомпозиции текущей цели и (2) текущей подцели, которую необходимо выполнить. В частности, ReAct-IM не хватает (1) мышления, определяющего, когда подцель завершена (2) мышления, определяющего, какой должна быть следующая подцель (3) мышления, побуждающего LLM обращаться к своим внутренним предварительно обученным знаниям, чтобы определить возможное местоположение предметов в окружающей среде.

C PROMPTS

C.1 Викторина по горячим темам

Горячие советы в вопросах и ответах

Оригинал
Вопрос	Ответить
Каков диапазон высот для области, на которую распространяется восточный сектор Колорадского орогена?	1 800 - 7 000 футов
Музыкант и сатирик Алли Гертц написал песню о "Симпсонах". персонаж Кого Мэтт Гроунинг назвал в честь Никсона?	Ричард Никсон
Какой документальный фильм посвящен финским рок-группам - "Адам Клейтон Пауэлл" или "Жест Саймы"?	Жест Саймы
Какая профессия объединяет Николаса Рэя и Элиа Казана?	Режиссер, сценарист, актер
Какой журнал был основан первым: Arthur's Magazine или First for Women?	Журнал Артура
Павел Урысон и Леонид Левин известны своими работами?	Да

Оригинал
вопросы	решение
Каков диапазон высот восточного продолжения Колорадского орогена?	1 800 - 7 000 футов.
Музыкант и сатирик Алли Гёрц написал песню о персонаже "Симпсонов" Милхаусе, Мэтте Грёнинге, названном в честь какого человека из Никсона?	Ричард Никсон.
Какой документальный фильм посвящен финской рок-группе, Адаму Клейтону Пауэллу или действиям Саймы?	Операция "Саимаа
Какие профессии объединяют Николаса Рэя и Элиа Казана?	Режиссер, сценарист, актер
Какой журнал был основан раньше - Arthur's Magazine или First for Women?	Журнал Артура
Павел Уризон и Леонид Левин известны по одному и тому же типу работ?	быть

Действуйте
Вопрос	Действие	Наблюдение
Каков диапазон высот для территории, на которую распространяется восточный сектор Колорадского орогена?	Поиск [Колорадский орогенез].	Колорадский орогенез был эпизодом горного строительства (орогенией) в Колорадо и прилегающих районах.
	Поиск [восточный сектор]	(Результат 1 / i) Восточный сектор простирается на Высокие равнины и называется орогенией Центральных равнин.
	Поиск [Высокие равнины]	Высокие равнины относятся к одному из двух различных регионов суши.
	Поиск[Высокие равнины (Соединенные Штаты)].	Высокие равнины - это субрегион Великих равнин. С востока на запад высота Высоких равнин возрастает примерно от 1800 до 7000 футов (550-2 130 м). [3]
	Отделка	[1 800 - 7 000 футов].
Музыкант и сатирик Алли Гёрц написал песню о персонаже "Симпсонов" Милхаусе, которого Мэтт Грёнинг назвал в честь кого?	Поиск [Милхаус].	Милхаус Муссолини Ван Хаутен - повторяющийся персонаж мультсериала канала Fox "Симпсоны", озвученный Памелой Хейден и созданный Мэттом Симпсоны, озвученные Памелой Хейден и созданные Мэттом Грёнингом.
	Lookup [назван в честь]	(Результат 1 / l) Милхаус был назван в честь президента США Ричарда Никсона, второе имя которого было Милхаус.
	Отделка	[Ричард Никсон].
Какой документальный фильм посвящен финским рок-группам: "Адам Клейтон Пауэлл" или "Жест Саймы"?	Поиск [Адам Клейтон Пауэлл].	Не удалось найти [Адам Клейтон Пауэлл]. Похожие: ['Адам Клейтон Пауэлл III', 'Седьмая авеню (Манхэттен)', 'Адам Клейтон Пауэлл-младший, здание государственного офиса', 'Изабель Вашингтон Пауэлл', 'Адам Клейтон Пауэлл (фильм)', 'Адам Клейтон Пауэлл (фильм)']. Powell', 'Adam Clayton Powell (film)', 'Giancarlo Esposito'].
	Поиск [Адам Клейтон Пауэлл (фильм)].	Адам Клейтон Пауэлл - американский документальный фильм 1989 года режиссера Ричарда Килберга. Фильм рассказывает о взлете и падении влиятельного афроамериканского политика Адама Клейтона Пауэлла-младшего[3][4], который впоследствии был показан в рамках серии телеканалов PBs "Американский опыт". Фильм рассказывает о взлете и падении влиятельного афроамериканского политика Адама Клейтона Пауэлла-младшего[3][4], который впоследствии был показан в рамках серии телеканалов PBs "Американский опыт".
	Отделка	[Жест Саймы].
Какая профессия объединяет Николаса Рэя и Элиа Казана?	Поиск [Николас Рэй].	Николас Рэй (урожденный Рэймонд Николас Кьензл-младший, ) 7 августа 1911 - 16 июня 1979) - американский кинорежиссер, сценарист и актер, наиболее известный по фильму фильму 1955 года "Бунтарь без причины".
	Поиск [Элиа Казан]	Элиа Казан - американский кино- и театральный режиссер, продюсер, сценарист и актер.
	Финиш [режиссер, сценарист, актер]
Какой журнал был основан первым - Arthur's Magazine или First for Women?	Поиск [Журнал Артура]	Arthur's Magazine (1844-1846) - американское литературное периодическое издание, выходившее в Филадельфии в XIX веке.
	Поиск [Сначала для женщин]	First for Women - женский журнал, издаваемый компанией Bauer Media Group в США.[1] Журнал был основан в 1989 году.
	Закончить [Журнал Артура]
Были ли Павел Урысон и Леонид Левин известны своими работами?	Поиск [Павел Урысон]	Павел Самуилович Урысон (3 февраля 1898 - 17 августа 1924) - советский математик, наиболее известный своим вкладом в теорию размерностей.
	Поиск [Леонид Левин]	Леонид Анатольевич Левин - советско-американский математик и компьютер ученый.
	Закончить[да]

Действуйте
вопросы	движение	прислушаться
Каков диапазон высот территории, на которую распространяется восточная часть Колорадского орогена?	Поиск [Colorado Mountain Building Campaign]	Колорадский орогенез - это горное движение (орогенез), которое происходило в штате Колорадо и его окрестностях.
	Найти [Восточный сектор]	(Результаты 1 / i) Восточная часть простирается на Высокие равнины и известна как орогения Центральных равнин.
	Поиск [Высокие равнины]	Высокие равнины относятся к одной из двух отдельных областей:
	Поиск [Высокие равнины (США)]	Высокие равнины - это субрегион Великих равнин. С востока на запад высота Высоких равнин поднимается примерно с 1800 футов (550 метров) до 7000 футов (2130 метров). [3]
	выполнить	[1 800 - 7 000 футов].
Музыкант и сатирик Алли Гёрц написал песню о персонаже "Симпсонов" Милхаусе, в честь которого Мэтт Грёнинг назвал персонажа?	Поиск [Милхаус].	Милхаус Муссолини Ван Хаутен - персонаж мультсериала "Симпсоны" на канале Fox, озвученный Памелой Хейден и созданный Мэттом Гроунингом.
	Найти [названный источник]	(Результаты 1 / l) Милхаус был назван в честь Ричарда Никсона, президента США, второе имя которого было Милхаус.
	выполнить	[Ричард Никсон].
Какой документальный фильм рассказывает о финской рок-группе, Адаме Клейтоне Пауэлле или "Жест Саймы"?	Поиск [Адам Клейтон Пауэлл]	Не найдено ни одного [Адам Клейтон Пауэлл]. Похожие: ['Адам Клейтон Пауэлл III', 'Седьмая авеню (Манхэттен)', 'Адам Клейтон Пауэлл-младший, здание государственного управления', 'Изабель Вашингтон Пауэлл', 'Адам Пауэлл', 'Адам Клейтон Пауэлл (фильм)', 'Джанкарло Эспозито'].
	Поиск [Адам Клейтон Пауэлл (фильм)].	Адам Клейтон Пауэлл" - американский документальный фильм 1989 года режиссера Ричарда Килберга. Фильм рассказывает о взлете и падении влиятельного афроамериканского политика Адама Клейтона Пауэлла-младшего. [3][4] Позже он был показан в рамках цикла PBS "Американский опыт".
	выполнить	[Жест Саймы].
Какие профессии объединяют Николаса Рэя и Элиа Казана?	Поиск [Николас Рэй].	Николас Рэй (настоящее имя Рэймонд Николас Кьензл-младший, 7 августа 1911 - 16 июня 1979) - американский кинорежиссер, сценарист и актер, наиболее известный по фильму 1955 года "Бунтарь без причины".
	Поиск [Элиа Казан]	Элиа Казан - американский кино- и театральный режиссер, продюсер, сценарист и актриса.
	Закончил [режиссер, сценарист, актер]
Какой журнал был основан первым: Arthur's Magazine или First for Women?	Поиск [Журнал Артура].	Arthur's Magazine (1844-1846) - американский литературный журнал, издававшийся в Филадельфии, США, в XIX веке.
	Поиск [Сначала для женщин]	First for Women - женский журнал, издаваемый в США компанией Bauer Media Group.[1] Он был основан в 1989 году. [1] Журнал был запущен в 1989 году.
	Закончить [Журнал Артура]
Павел Урысон и Леонид Левин известны своими работами?	Поиск [Павел Урысон]	Павел Самуилович Урысон (3 февраля 1898 - 17 августа 1924) - советский математик, наиболее известный своим вкладом в теорию размерных чисел.
	Поиск [Леонид Левин]	Леонид Анатольевич Левин - советско-американский математик и специалист по информатике.
	Выполнено [да]

CoT
Вопрос	Мысль	Ответить
Каков диапазон высот для территории, на которую распространяется восточный сектор Колорадского орогена?	Давайте рассуждать шаг за шагом. Восточный сектор Колорадского орогена простирается на Высокие равнины. Высокие равнины поднимаются на высоту примерно от 1800 до 7000 футов, так что ответ - от 1800 до 7000 футов. Высокие равнины поднимаются на высоту примерно от 1800 до 7000 футов, так что ответ - от 1800 до 7000 футов.	1 800 - 7 000 футов
Музыкант и сатирик Алли Гёрц написал песню о персонаже "Симпсонов" Милхаусе, которого Мэтт Грёнинг назвал в честь кого?	Милхаус был назван в честь президента США Ричарда Никсона, поэтому ответ - Ричард Никсон.	Ричард Никсон
Какой документальный фильм посвящен финским рок-группам - "Адам Клейтон Пауэлл" или "Жест Саймы"?	Давайте думать шаг за шагом. Адам Клейтон Пауэлл (фильм) - это документальный фильм об афроамериканском политике, а не о финских рок-группах. Адам Клейтон Пауэлл (фильм) - документальный фильм об афроамериканском политическом деятеле, а не о финских рок-группах.	Жест Саймы
Какая профессия объединяет Николаса Рэя и Элиа Казана?	Профессии Николаса Рэя - режиссер, сценарист и актер. Профессии Элиа Казана - режиссер, продюсер, сценарист и актер. Профессии Элиа Казана: режиссер, продюсер и актер.	режиссер, сценарист, актер
Какой журнал был основан первым - Arthur's Magazine или First for Women?	Давайте рассуждать шаг за шагом. Журнал Arthur's Magazine был основан в 1844 году. First for Women был основан в 1989 году. 1844 (Arthur's Magazine) < 1989 (First for Women), поэтому Журнал Артура был основан первым.	Журнал Артура
Были ли Павел Урысон и Леонид Левин известны своими работами?	Павел Урысон - математик, Леонид Левин - математик и компьютерщик. Значит, у Павла Урысона и Леонида Левина один и тот же тип работы.	Да

CoT
вопросы	мыслительный процесс	решение
Каков диапазон высот территории, на которую распространяется восточная часть Колорадского орогена?	Давайте рассмотрим это шаг за шагом. Восточная часть Колорадского орогена простирается на Высокие равнины. Высота Высоких равнин поднимается примерно от 1 800 до 7 000 футов, поэтому ответ - от 1 800 до 7 000 футов.	1 800 - 7 000 футов.
Музыкант и сатирик Алли Гёрц написал песню о персонаже "Симпсонов" Милхаусе, в честь которого Мэтт Грёнинг назвал персонажа?	Милхаус назван в честь Ричарда Никсона, президента США, поэтому ответ - Ричард Никсон.	Ричард Никсон.
Документальный фильм о финской рок-группе Adam Clayton Powell или The Semaja Gesture?	Давайте рассмотрим это шаг за шагом. Адам Клейтон Пауэлл (фильм) - это документальный фильм об афроамериканском политическом деятеле, а не о финской рок-группе. Поэтому документальным фильмом о финской рок-группе был бы "Жест Семаи".	Жест "Семайя
Какие профессии объединяют Николаса Рэя и Илью Казана?	Давайте рассмотрим его шаг за шагом. Профессия Николаса Рэя - режиссер, сценарист и актер. Профессия Ильи Казана - режиссер, продюсер, сценарист и актер. Таким образом, Николас Рэй и Илья Казан делят профессию режиссера, сценариста и актера.	Режиссер, сценарист, актер
Журнал Arthur's Magazine или First for Women были основаны первыми?	Давайте рассмотрим это шаг за шагом. Журнал Arthur's Magazine был основан в 1844 году. First for Women был основан в 1989 году. 1844 (Arthur's Magazine) < 1989 (First for Women), поэтому Arthur's Magazine был основан первым.	Журнал Артура
Павел Урысон и Леонид Левин известны своими работами?	Павел Урысон - математик, Леонид Левин - математик и компьютерщик. Таким образом, Павел Урысон и Леонид Левин имеют одинаковый тип работы.	быть

ReAct
Вопрос	Мысль	Действие	Наблюдение
Каков диапазон высот для территории, на которую распространяется восточный сектор Колорадского орогена?	Мне нужно найти ороген Колорадо, найти область, на которую распространяется восточный сектор орогена Колорадо, затем найти диапазон высот этой области.	Поиск [Колорадский орогенез].	Колорадский орогенез был эпизодом горного строительства (анорогенеза) в Колорадо и прилегающих районах.
	В нем не упоминается восточный сектор. Значит, мне нужно найти восточный сектор.	Поиск [восточный сектор]	(Результат 1 / 1) Восточный сектор простирается на Высокие равнины и называется орогенией Центральных равнин.
	Восточный сектор Колорадского орогена простирается на Высокие равнины. Поэтому мне нужно найти Высокие равнины и найти их высотный диапазон.	Поиск [Высокие равнины]	Высокие равнины относятся к одному из двух отдельных регионов суши
	Вместо этого мне нужно поискать Хай Плейнс (Соединенные Штаты).	Поиск[Высокие равнины (Соединенные Штаты)].	Высокие равнины - это субрегион Великих равнин. С востока на запад высота Высоких равнин возрастает примерно от 1800 до 7000 футов (550-2 130 м). [3]
	Высокие равнины поднимаются на высоту от 1800 до 7000 футов, поэтому ответ составляет от 1800 до 7000 футов.	Финиш [1 800 - 7 000 футов]

Музыкант и сатирик Алли Гёрц написал песню о персонаже "Симпсонов" Милхаусе, которого Мэтт Грёнинг назвал в честь кого?	Вопрос упрощается до того, что персонаж "Симпсонов" Милхаус назван в честь кого. Мне нужно только найти Милхауса и узнать, в честь кого он назван.	Поиск [Милхаус].	Милхаус Муссолини Ван Хаутен - повторяющийся персонаж мультсериала канала Fox "Симпсоны", озвученный Памелой Хейден и созданный Мэттом Гроунингом. Симпсоны", озвученный Памелой Хейден и созданный Мэттом Грёнингом.
	В параграфе не сказано, в честь кого назван Милхаус, возможно, я могу поискать слово "назван в честь".	Lookup [назван в честь]	(Результат 1 / 1) Милхаус был назван в честь президента США Ричарда Никсона, второе имя которого было Милхаус.
	Милхаус был назван в честь президента США Ричарда Никсона, поэтому ответ - Ричард Никсон.	Финиш [Ричард Никсон]
Какой документальный фильм посвящен финским рок-группам - "Адам Клейтон Пауэлл" или "Жест Саймы"?	Мне нужно найти "Адам Клейтон Пауэлл" и "Жест Саймы", а также выяснить, какой документальный фильм посвящен финским рок-группам.	Поиск [Адам Клейтон Пауэлл]	Не удалось найти [Адам Клейтон Пауэлл]. Похожие: ['Адам Клейтон Пауэлл III', 'Седьмая авеню (Манхэттен)', 'Адам Клейтон Пауэлл мл. 'Здание государственного управления Клейтона Пауэлла-младшего', 'Изабель Вашингтон Пауэлл', 'Адам Пауэлл ', 'Адам Клейтон Пауэлл (фильм)', 'Джанкарло Эспозито'].
	Чтобы найти документальный фильм, я могу поискать Адам Клейтон Пауэлл (фильм).	Поиск [Адам Клейтон Пауэлл (фильм)].	Адам Клейтон Пауэлл" - американский документальный фильм 1989 года режиссера Ричарда Килберга, рассказывающий о взлете и падении влиятельного афроамериканского политика Адама Клейтона Пауэлла-младшего[3][4], который позже был показан в рамках сериала PBS "Американский опыт". Фильм рассказывает о взлете и падении влиятельного афроамериканского политика Адама Клейтона Пауэлла-младшего[3][4], который позже был показан в рамках сериала PBS "Американский опыт".
	Адам Клейтон Пауэлл (фильм) - это документальный фильм об афроамериканском политике, а не о финских рок-группах. Поэтому документальный фильм о финских рок-группах должен называться "Жест Саймы" (The Saimaa Gesture). Поэтому документальный фильм о финских рок-группах должен называться "Жест Саймы".	Завершение [Жест Саймы]
Какая профессия объединяет Николаса Рэя и Элиа Казана?	Мне нужно найти Николаса Рэя и Элиа Казана, найти их профессии, а затем найти профессию, которая их объединяет.	Поиск [Николас Рэй].	Николас Рэй (урожденный Рэймонд Николас Кьензл-младший, 7 августа 1911 - 16 июня 1979) - американский кинорежиссер, сценарист и актер, наиболее известный по фильму фильму 1955 года "Бунтарь без причины".
	Профессии Николаса Рэя - режиссер, сценарист и актер. Далее мне нужно найти Элиа Казана и найти его профессии.	Поиск [Элиа Казан]	Элиа Казан - американский кино- и театральный режиссер, продюсер, сценарист и актер.
	Профессии Элиа Казана - режиссер, продюсер, сценарист и актер. Таким образом, у Николаса Рэя и Элиа Казана есть общие профессии: режиссер, сценарист и актер.	Финиш [режиссер, сценарист, актер]
Какой журнал был основан первым - Arthur's Magazine или First for Women?	Мне нужно найти журналы Arthur's Magazine и First for Women и выяснить, какой из них был основан первым.	Поиск [Журнал Артура]	Arthur's Magazine (1844-1846) - американское литературное периодическое издание, выходившее в Филадельфии в XIX веке.
	Журнал "Артурс" был основан в 1844 г. Мне нужно поискать "Первый для женщин".	Поиск [Сначала для женщин]	First for Women - женский журнал, издаваемый компанией Bauer Media Group в США.[1] Журнал был основан в 1989 году.
	Журнал First for Women был основан в 1989 году. 1844 (Arthur's Magazine) < 1989 (First for Women), так что журнал Arthur's Magazine был основан первым. .	Закончить [Журнал Артура]
Были ли Павел Урысон и Леонид Левин известны своими работами?	Мне нужно найти Павла Урысона и Леонида Левина, найти их типы работ, а затем выяснить, одинаковы ли они.	Поиск [Павел Урысон]	Павел Самуилович Урысон (3 февраля 1898 - 17 августа 1924) - советский математик, наиболее известный своим вкладом в теорию размерностей.
	Павел Урысон - математик. Мне нужно поискать Леонида Левина и найти его род деятельности.	Поиск [Леонид Левин]	Леонид Анатольевич Левин - советско-американский математик и специалист по информатике.
	Леонид Левин - математик и компьютерщик. Таким образом, Павел Урысон и Леонид Левин занимаются одним и тем же видом деятельности.	Закончить[да]

ReAct
вопросы	размышления	акт
Каков диапазон высот региона, на который распространяется восточная часть Колорадского орогенного пояса?	Мне нужно найти орогенный пояс Колорадо, найти область, в которую выходит восточный участок, а затем определить диапазон высот в этой области.	Поиск [Колорадский орогенный пояс].
	Здесь нет упоминания о восточной части. Значит, мне нужно найти восточную часть.	Найти [Восточный сектор]
	Восточная часть Колорадского орогенного пояса простирается на Высокие равнины. Поэтому мне нужно найти Высокие равнины и определить их высотный диапазон.	Поиск [Высокие равнины]
	Высота Высоких равнин поднимается примерно от 1 800 до 7 000 футов, поэтому ответ - от 1 800 до 7 000 футов.	Завершение [от 1800 до 7000 футов]

Музыкант и сатирик Алли Гёрц написал песню о персонаже Милхаусе из "Симпсонов", в честь которого Мэтт Грёнинг назвал Милхауса?	Вопрос упрощен до того, в честь кого назван персонаж Милхаус в "Симпсонах". Осталось найти Милхауса и узнать, в честь кого он назван.	Поиск [Милхаус].
	В параграфе не сказано, в честь кого назван Милхаус, так что, возможно, я могу поискать "названный в честь...". Назван в честь".	Найти [названный в честь... Имя]
	Милхаус назван в честь президента США Ричарда Никсона, поэтому ответ - Ричард Никсон.	Закончил [Ричард Никсон].
Документальный фильм о финской рок-группе Adam Clayton Powell или The Saimaa Gesture?	Мне нужно найти "Адам Клейтон Пауэлл" и "Жест Саймы" и выяснить, какой документальный фильм посвящен финской рок-группе.	Поиск [Адам Клейтон Пауэлл]
	Чтобы найти этот документальный фильм, я бы поискал "Адам Клейтон Пауэлл (фильм)".	Поиск [Адам Клейтон Пауэлл (фильм)].
	Адам Клейтон Пауэлл (фильм) - это документальный фильм об афроамериканском политическом деятеле, а не о финской рок-группе. Поэтому документальным фильмом о финской рок-группе должен быть "Жест Саймы".	Завершение [Жест Саймы]
Какие профессии объединяют Николаса Рэя и Элиа Казана?	Мне нужно найти Николаса Рэя и Элиа Казана, найти их профессии, а затем выяснить, какие профессии у них общие.	Поиск [Николас Рэй].
	Профессия Николаса Рэя - режиссер, сценарист и актер. Далее мне нужно найти Элиа Казана и выяснить его профессию.	Поиск [Элиа Казан]
	Профессия Элиа Казана - режиссер, продюсер, сценарист и актер. Таким образом, Николас Рэй и Элиа Казан имеют одну и ту же профессию - режиссер, сценарист и актер.	Завершение [режиссер, сценарист, актер]
Какой журнал был основан первым: Arthur's Magazine или First for Women?	Мне нужно найти журналы Arthur's Magazine и First for Women и выяснить, какой из них появился первым.	Поиск [Журнал Артура].
	Журнал Arthur's Magazine был основан в 1844 году. Далее мне нужно искать "First for Women".	Поиск [Сначала для женщин]
	First for Women был основан в 1989 году. 1844 (Arthur's Magazine) < 1989 (First for Women), так что Arthur's Magazine был основан первым.	Закончить [Журнал Артура]
Павел Урысон и Леонид Левин известны своими работами?	Мне нужно найти Павла Урысона и Леонида Левина, чтобы узнать, чем они занимаются, а потом выяснить, одно ли это и то же.	Поиск [Павел Урысон]
	Павел Урысон - математик. Далее мне нужно найти Леонида Левина и выяснить, чем он занимается.	Поиск [Леонид Левин]
	Леонид Левин - математик и компьютерщик. Таким образом, Павел Урысон и Леонид Левин имеют одинаковый тип работы.	Выполнено [да]

C.2 Набор данных для извлечения и проверки фактов/FEVER

FEVER Prompts

Оригинал
Вопрос: Определите, есть ли наблюдение, подтверждающее или опровергающее утверждение, или же информации недостаточно.
Заявление	Ответить
Николай Костер-Вальдау работал с телекомпанией Fox Broadcasting Company.	SUPPORTS
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	ОПРОВЕРЖЕНИЯ
Beautiful достиг второго места в Billboard Hot 100 в 2003 году.	НЕДОСТАТОЧНО ИНФОРМАЦИИ

Оригинал
Проблема: Определите, есть ли наблюдения, которые подтверждают или опровергают утверждение, или же информации недостаточно.
представления	решение
Николай Костер-Вальдау сотрудничал с Fox Broadcasting Co.	адъювант
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	реторта
Песня "Beautiful" достигла второго места в Billboard Hot 100 в 2003 году.	Недостаточная информация

Действуйте
Вопрос: Определите, есть ли наблюдение, подтверждающее или опровергающее утверждение, или же информации недостаточно.
Заявление	Действие	Наблюдение
Николай Костер-Вальдау работал с телекомпанией Fox Broadcasting Company.	Поиск [Nikolaj Coster-Waldau]	Николай Уильям Костер-Вальдау (род. 27 июля 1970 г.) - датский актер и продюсер. Окончил Датскую национальную школу исполнительских искусств в Копенгагене в 1993 году[1], а прорывную роль в Дании получил в фильме "Ночной дозор" (1994). Копенгаген в 1993 году[1], а его прорывной ролью в Дании стал фильм "Ночной дозор" (1994). Он сыграл Джейме Ланнистера в фэнтезийном драматическом сериале HBO "Игра престолов", за что получил две номинации на премию Primetime Emmy Award в категории "Выдающийся актер второго плана в драме". Актер второго плана в драматическом сериале. Костер-Вальдау снялся в многочисленных фильмах в родной Дании и Скандинавии, включая "Охотники за головами" (2011) и "Тысячу раз спокойной ночи" (2013). . В США его дебютная роль в кино состоялась в военном фильме Black Hawk Down (2001), где он сыграл обладателя Почетной медали Гэри Гордона.[2] Затем он сыграл детектива в недолговечном телесериале Fox New York City. В США его дебютной киноролью стал военный фильм "Черный ястреб" (2001), в котором он сыграл награжденного почетной медалью Гэри Гордона.[2] Затем он сыграл детектива в недолговечном телесериале Fox "Новый Амстердам" (2008) и снялся в телефильме Fox 2009 года "Виртуальность", который первоначально задумывался как пилот.
	Финиш[SUPPORTS]
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	Поиск [Stranger Things]	Stranger Things - американский научно-фантастический драматический телесериал, созданный братьями Даффер. Действие сериала происходит в 1980-х годах, в основном в Действие сериала происходит в 1980-х годах, в основном в вымышленном городе Хокинс, штат Индиана. В центре сериала - ряд загадок и сверхъестественных событий, происходящих в городе, и их влияние на ансамбль детей и взрослых персонажей. Ансамбль детских и взрослых персонажей.
	Финиш [опровержение]
Beautiful достиг второго места в Billboard Hot 100 в 2003 году.	Поиск [Красивые]	Не удалось найти [Beautiful]. Похожие: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	Поиск [Beautiful (песня Кристины Агилеры)	"Beautiful" - песня, записанная американской певицей Кристиной Агилерой для ее четвертого студийного альбома Stripped (2002).
	Lookup [Billboard Hot 100]	(Результат 1 / 3) Песня заняла второе место в Billboard Hot 100 в Соединенных Штатах, где она была сертифицирована как золотая за 500 000 поставленных единиц.
	Финиш [NOT ENOUGH INFO]

Действуйте
Проблема: Определите, подтверждает или опровергает наблюдение то или иное утверждение, или если информации недостаточно.
представления	акт	прислушаться
Николадж Костер-Вальдау работал с телекомпанией Fox Broadcasting Company.	Поиск [Nikolaj Coster-Waldau]	Николай Уильям Костер-Вальдау (родился 27 июля 1970 года) - датский актер и продюсер. Окончил Датскую национальную академию исполнительских искусств в Копенгагене в 1993 году[1] и получил свою прорывную роль в Дании в фильме "Ночной дозор" (1994). За роль Джейме Ланнистера в фэнтези-сериале HBO "Игра престолов", за которую он получил две номинации на премию Primetime Emmy Award, Костер-Вальдау снялся в многочисленных фильмах на родине в Дании и Скандинавии, включая "Охотники за головами" (2011) и "Тысячу раз спокойной ночи" (2013). В США его первой ролью в кино стала роль награжденного Почетной медалью Гэри Гордона в военном фильме Black Hawk Down (2001).[2] Он также сыграл детектива в недолговечном телесериале Fox New Amsterdam (2008) и появился в телефильме Fox 2009 года Virtua Fighter, который первоначально задумывался как пилотный эпизод.
	Выполнено [поддерживается]
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	Поиск [Stranger Things]	Stranger Things - американский научно-фантастический драматический сериал ужасов, созданный братьями Дафф. Действие сериала происходит в 1980-х годах в вымышленном городе Хокинс, штат Индиана, и вращается вокруг серии загадочных и сверхъестественных событий, происходящих в городе, и их влияния на группу детей и взрослых персонажей.
	Выполнено [Опровержение]
Песня "Beautiful" достигла второго места в Billboard Hot 100 в 2003 году.	Поиск [Красивые]	Не найдено ни одного [Beautiful]. Похожие: ['Прекрасный', 'Прекрасный, прекрасный', 'Прекрасный ум (фильм) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	Поиск [Beautiful (песня Кристины Агилеры)].	"Beautiful" - песня, записанная американской певицей Кристиной Агилерой для ее четвертого студийного альбома Stripped, выпущенного в 2002 году.
	Найти [Billboard Hot 100]	(Результаты 1 / 3) Песня достигла второго места в Billboard Hot 100 в США и была сертифицирована как золотая с поставкой 500 000 единиц.
	Завершено [недостаточно информации]

CoT
Вопрос: Определите, есть ли наблюдение, подтверждающее или опровергающее утверждение, или же информации недостаточно.
Заявление	Мысль	Ответить
Николай Костер-Вальдау работал с телекомпанией Fox Broadcasting Company.	Николай Уильям Костер-Вальдау снимался в телевизионном фильме "Виртуальность", вышедшем на канале Fox в 2009 году, так что он уже сотрудничал с телекомпанией Fox Broadcasting Company.	SUPPORTS
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	Действие Stranger Things происходит в вымышленном городе Хокинс, штат Индиана, а не в Блумингтоне, штат Индиана.	ОПРОВЕРЖЕНИЯ
Beautiful достиг второго места в Billboard Hot 100 в 2003 году.	Песня заняла второе место в Billboard Hot 100 в США, но не уверен, что это было в 2003 году.	НЕДОСТАТОЧНО ИНФОРМАЦИИ

COT
Проблема: Определите, есть ли наблюдения, которые подтверждают или опровергают утверждение, или же информации недостаточно.
точка зрения	размышления	решение
Николай Костер-Вальдау сотрудничал с Fox Broadcasting Co.	Николай Уильям Костер-Вальдау снимался в телефильме "Виртуальная жизнь" на канале Fox в 2009 году, так что ему доводилось работать с телекомпанией Fox Broadcasting Company.	адъювант
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	Действие Stranger Things происходит в вымышленном городе Хокинс, штат Индиана, а не в Блумингтоне, штат Индиана.	реторта
Песня "Beautiful" достигла второго места в Billboard Hot 100 в 2003 году.	Песня достигла второго места в Billboard Hot 100, но точно неизвестно, было ли это в 2003 году.	Недостаточная информация

ReAct
Вопрос: Определите, есть ли наблюдение, подтверждающее или опровергающее утверждение, или же информации недостаточно.
Заявление	Мысль	Действие	Наблюдение
Николай Костер-Вальдау работал с телекомпанией Fox Broadcasting Company.	Мне нужно найти Николая Костера-Вальдау и выяснить, работал ли он с Fox Broadcasting Company.	Поиск [Nikolaj Coster-Waldau]	Николай Уильям Костер-Вальдау (род. 27 июля 1970 г.) - датский актер и продюсер. Окончил Датскую национальную школу исполнительских искусств в Копенгагене в 1993 году[1], а прорывную роль в Дании получил в фильме "Ночной дозор" (1994). Копенгаген в 1993 году[1], а его прорывной ролью в Дании стал фильм "Ночной дозор" (1994). Он сыграл Джейме Ланнистера в фэнтезийном драматическом сериале HBO "Игра престолов", за что получил две номинации на премию Primetime Emmy Award в категории "Выдающийся актер второго плана в драме". Актер второго плана в драматическом сериале. Костер-Вальдау снялся в многочисленных фильмах в родной Дании и Скандинавии, включая "Охотники за головами" (2011) и "Тысячу раз спокойной ночи" (2013). . В США его дебютная роль в кино состоялась в военном фильме Black Hawk Down (2001), где он сыграл обладателя Почетной медали Гэри Гордона.[2] Затем он сыграл детектива в недолговечном телесериале Fox New York City. В США его дебютной киноролью стал военный фильм "Черный ястреб" (2001), в котором он сыграл награжденного почетной медалью Гэри Гордона.[2] Затем он сыграл детектива в недолговечном телесериале Fox "Новый Амстердам" (2008) и снялся в телефильме Fox 2009 года "Виртуальность", который первоначально задумывался как пилот.
	Поскольку он "снялся в телевизионном фильме "Виртуальность" компании Fox в 2009 году", он должен был работать с телекомпанией Fox.	Финиш[SUPPORTS]
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	Надо поискать "Stranger Things" и посмотреть, не происходит ли действие в Блумингтоне, штат Индиана.	Поиск [Stranger Things]	Stranger Things - американский научно-фантастический драматический телесериал, созданный братьями Даффер. Действие сериала происходит в 1980-х годах, в основном в Действие сериала происходит в 1980-х годах, в основном в вымышленном городе Хокинс, штат Индиана. В центре сериала - ряд загадок и сверхъестественных событий, происходящих в городе, и их влияние на ансамбль детей и взрослых персонажей. Ансамбль детских и взрослых персонажей.
	В описании сказано, что действие происходит в "вымышленном городе Хокинс, штат Индиана", так что действие происходит не в Блумингтоне.	Финиш [опровержение]
Beautiful достиг второго места в Billboard Hot 100 в 2003 году.	Мне нужно найти песню Beautiful и выяснить, достигла ли она второго места в Billboard Hot 100 в 2003 году.	Поиск [Красивые]	Не удалось найти [Beautiful]. Похожие: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	Из предложенных вариантов следует, что я должен искать "Beautiful (Christina Aguilera song)", чтобы найти эту песню.	Поиск [Beautiful (песня Кристины Агилеры)].	"Beautiful" - песня, записанная американской певицей Кристиной Агилерой для ее четвертого студийного альбома Stripped (2002).
	В нем не упоминается Billboard, поэтому мне нужно найти "Billboard Hot 100", чтобы узнать, достигла ли она второго места в нем в 2003 году.	Lookup [Billboard Hot 100]	(Результат 1 / 3) Песня заняла второе место в Billboard Hot 100 в Соединенных Штатах, где она была сертифицирована как золотая за 500 000 поставленных единиц.
	Здесь говорится только о том, что песня заняла второе место в Billboard Hot 100, но не указано, было ли это в 2003 г. Я не уверен, что это утверждение верно или нет.	Финиш [NOT ENOUGH INFO]

ReAct
ВОПРОС: Определите, есть ли наблюдения, которые подтверждают или опровергают утверждение, или же информации недостаточно.
представления	размышления	акт	прислушаться
Николай Костер-Вальдау сотрудничал с Fox Broadcasting Co.	Мне нужно найти Николая Костера-Вальдау, чтобы узнать, работал ли он с Fox Broadcasting.	Поиск [Nikolaj Coster-Waldau]	Николай Вильгельм Костер-Вальдау (родился 27 июля 1970 года) - датский актер и продюсер. Окончил Датскую национальную академию исполнительских искусств в Копенгагене в 1993 году[1] и получил свою прорывную роль в Дании в 1994 году в фильме "Ночная смена". За роль Джейме Ланнистера в фэнтезийном сериале HBO "Игра престолов" он был дважды номинирован на премию "Эмми" в категории "Лучший актер второго плана в драматическом сериале". Костер-Вальдау снялся в многочисленных фильмах в родной Дании и Скандинавии, включая "Охотники за головами" (2011) и "Тысячу раз спокойной ночи" (2013). В США его первой ролью в кино стала роль награжденного Почетной медалью Гэри Гордона в военном фильме "Черный ястреб" (2001). [2] Он сыграл детектива в скетч-шоу канала Fox "Новый Амстердам" (2008) и снялся в телефильме канала Fox "Виртуальные миры" 2009 года, который изначально был снят как пилотный эпизод.
	Поскольку он снялся в "2009 Fox TV movie Virtua Fighter", он должен был работать с Fox Broadcasting.	Выполнено [поддерживается]
Действие "Stranger Things" происходит в Блумингтоне, штат Индиана.	Я должен поискать "Stranger Things", чтобы узнать, происходит ли действие в Блумингтоне, штат Индиана.	Поиск [Stranger Things].	Stranger Things - американский научно-фантастический драматический сериал ужасов, созданный братьями Дафф. Действие сериала происходит в 1980-х годах, в основном в вымышленном городе Хокинс, штат Индиана, и вращается вокруг серии загадочных и сверхъестественных событий, происходящих в городе, и их влияния на группу детей и взрослых персонажей.
	По наблюдениям, действие происходит в "вымышленном городе Хокинс, штат Индиана", то есть не в Блумингтоне.	Выполнено [Опровержение]
Beautiful достиг второго места в Billboard Hot 100 в 2003 году.	Мне нужно найти песню Beautiful и выяснить, достигла ли она #2 в Billboard Hot 100 в 2003 году.	Поиск [Красивые]	['Beautiful'] не найдено. Похожие: ['Прекрасный', 'Прекрасный, прекрасный', 'A Beautiful Mind (фильм) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	Судя по предложениям, я должен был искать "песню Кристины Агилеры "Beautiful"", чтобы найти эту песню.	Поиск [песня Кристины Агилеры "Beautiful"].	"Beautiful" - песня, записанная американской певицей Кристиной Агилерой для ее четвертого студийного альбома Stripped, выпущенного в 2002 году.
	Здесь не упоминается Billboard, так что мне нужно посмотреть "Billboard Hot 100", чтобы узнать, достиг ли он #2 в 2003 году.	Найти [Billboard Hot 100]	(Результаты 1 / 3) Песня заняла второе место в Billboard Hot 100 в Соединенных Штатах, где она была сертифицирована как золотая за 500 000 единиц.
	Здесь говорится только о том, что песня достигла #2 в Billboard Hot 100, но не о том, было ли это в 2003 году. Я не уверен, что это утверждение верно или нет.	Завершено [недостаточно информации]

C.3 Интернет-покупки

Таблица 6: Подсказки, использованные в главе 4 для эксперимента с веб-магазином. Мы использовали подсказки слева для действия (Act) и подсказки справа (добавление рассуждений) для реакции (ReAct).

Инструкции:Я бы хотела получить 3-унцевый флакон яркого дезодоранта с цитрусовым ароматом для чувствительной кожи по цене менее $50.00!
Действуйте		ReAct
движение	прислушаться	движение	прислушаться
Поиск [Дезодорант для чувствительной кожи с ярким цитрусовым ароматом 3 унции]	[Вернуться к поиску] Страница 1 (Всего результатов: 50) [Следующая][B078GWRC1J]Дезодорант Earth Mama's Bright Citrus \| Натуральный и подходит для Чувствительная кожа, беременность и грудное вскармливание с органическим Цветок ноготков 3 унции $10.99[B078GTKVXY]Дезодорант Earth Mama's Ginger Fresh \| Натуральный и подходит для Чувствительная кожа, беременность и грудное вскармливание с органическим Цветок ноготков 3 унции $10.99[B08KBVJ4XN]Бочка и Дуб - дезодорант для мужчин без алюминия Аромат на основе эфирных масел, 24-часовая защита от запаха, кедровое дерево Смеси & Patchouli бережно относятся к чувствительной коже (шалфей. (2,7 унции, 2 бутылки) $15.95	Поиск 3 унции Яркий дезодорант с цитрусовым ароматом для чувствительной кожи	[Вернуться к поиску] Страница 1 (Всего результатов: 50) [Следующая][B078GWRC1J]Дезодорант Earth Mama's Bright Citrus \| Натуральный и подходит для Чувствительная кожа, беременность и грудное вскармливание с органическим Цветок ноготков 3 унции $10.99[B078GTKVXY]Дезодорант Earth Mama's Ginger Fresh \| Натуральный и подходит для Чувствительная кожа, беременность и грудное вскармливание с органическим Цветок ноготков 3 унции $10.99[B08KBVJ4XN]Бочка и Дуб - дезодорант для мужчин без алюминия Аромат на основе эфирных масел, 24-часовая защита от запаха, кедровое дерево Смеси & Patchouli бережно относятся к чувствительной коже (шалфей. (2,7 унции, 2 бутылки) $15.95
Нажмите на [B078GWRC1J].	Вернуться к поиску Предыдущая страница Аромат [Различные ароматы] [Яркий цитрус] [Успокаивающая лаванда] Имбирь [Освежающий] Просто неароматизированный] Размер [Дорожный набор (4 бутылочки)] [3 унции. Бутылка)] Дезодорант Earth Mama's Bright Citrus \| Натуральный и подходит для Чувствительная кожа, беременность и грудное вскармливание с органическим Цветок ноготков 3 унции Цена: $10.99 Рейтинг: N.A. [Описание][Характеристики][Отзывы][Купить сейчас]	Мысли [B078GWRC1J и B078GTKVXY - яркие дезодоранты с цитрусовым ароматом по цене менее 50 долларов. Я, пожалуй, сначала проверю B078GWRC1J].	Хорошо.
Нажмите на [яркий цитрус].	Вы нажали кнопку "Яркий цитрус".	Нажмите на [B078GWRC1J].	[Назад к поиску][Предыдущий] Аромат [Различные ароматы][Яркий цитрус][Успокаивающая лаванда] Имбирь [Освежающий] Просто неароматизированный] Размер [Дорожный набор (4 бутылочки)] [3 унции. Бутылка)] Дезодорант Earth Mama's Bright Citrus \| Натуральный и подходит для Чувствительная кожа, беременность и грудное вскармливание с органическим Цветок ноготков 3 унции Цена: $10.99 Рейтинг: N.A. [Описание][Характеристики][Отзывы][Купить сейчас]
Нажмите [3 унции (1 бутылка)].	Вы нажали на 3 унции (1 бутылка).	Мысли [Для флакона 3 унции дезодоранта с ароматом яркого цитруса для чувствительной кожи товар доступен в вариантах "Яркий цитрус" и "3 унции (1 флакон)", что выглядит как возможность его приобретения].	Хорошо.
Нажмите [Купить сейчас]		Нажмите на [яркий цитрус].	Вы нажали кнопку "Яркий цитрус".
		Нажмите [3 унции (1 бутылка)].	Вы нажали на 3 унции (1 бутылка).

C.4 ALFWORLD

Симулятор ALFWORLD - среда, содержащая более 25 000 уникальных, процедурно генерируемых заданий, охватывающих реальную обстановку, такую как кухни, гостиные, спальни и многое другое.

Вы находитесь посреди комнаты. Быстро оглядевшись вокруг, вы видите шкаф.
13, шкаф 12, шкаф 11, шкаф 10, шкаф 9, шкаф 8, шкаф
7, шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф
1, кофемашина 1, столешница 1, обеденный стол 1, тумба 1, холодильник 1, холодильник 1, кофемашина 1.
контейнер для мусора 1, микроволновая печь 1, полка 3, полка 2, полка 1, раковина 1, раковина
печь 4, печь 3, печь 2, печь 1 и тостер 1.
Ваша задача: положить чистый салат на обеденный стол.
> перейти к холодильнику 1
Холодильник 1 закрыт.
> открыть холодильник 1
Вы открываете холодильник 1. Холодильник 1 открыт. В нем вы видите чашку 3, яйцо 2, яйцо 2.
картофель 3 и картофель 2.
> перейти к обеденному столу 1
На обеденном столе 1 вы видите яблоко 1, хлеб 1, ножик для масла 2, чашку 2, бутерброд 2.
вилка 2, нож 2, нож 1, половник 1, салатница 1, кружка 2, кружка 1, сковорода 2, сковорода
перечница 1, лопатка 3, томат 2 и помидор 1.
> возьмите салат 1 с обеденного стола 1
Вы берете салат 1 с обеденного стола 1.
> перейти в раковину 1
На раковине 1 вы видите яблоко 2, половник 2, ложку 1 и помидор 3.
> очистить салат 1 с раковиной 1
Вы очищаете салатницу 1 с помощью раковины 1.
> Теперь я чищу салат (1). Затем мне нужно положить его в/на обеденный стол 1.
ХОРОШО.
> перейти к обеденному столу 1
На обеденном столе 1 вы видите яблоко 1, хлеб 1, нож для масла 2, чашку 2, вилку
2, нож 2, нож 1, половник 1, кружка 2, кружка 1, сковорода 2, перечница 1, перечница
лопатка 3, помидор 2 и помидор 1.
> положите салат 1 на обеденный стол 1
Вы кладете салат 1 в/на обеденный стол 1.

Таблица 7: Советы по выполнению задания ALFWorld по уборке. Идеи не представлены.

Вы находитесь в центре комнаты. Быстро оглядевшись по сторонам, вы видите шкаф.
13, шкаф 12, шкаф 11, шкаф 10, шкаф 9, шкаф 8, шкаф
7, шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф
1, 1 кофеварка, 1 столешница, 1 обеденный стол, 1 тумба, 1 холодильник,
1 мусорное ведро, 1 микроволновая печь, 3 полки, 2 стеллажа, 1 полка, 1 раковина,
Плита 4, плита 3, плита 2, плита 1 и тостер 1.
Ваша задача: положить чистый салат на стол.
> Перейти к холодильнику 1
Холодильник 1 закрыт.
> Откройте холодильник 1
Вы открываете холодильник 1. Холодильник 1 открыт. В нем вы можете увидеть чашку 3, яйцо 2 и
3 картофелины, 2 картофелины.
> Перейти к таблице 1
На столе 1 вы видите яблоко 1, буханку хлеба 1, нож для масла 2, чашку 2, бутерброд 2.
Вилка 2, нож 2, нож 1, ложка с длинной ручкой 1, салатница 1, чашка 2, кружка 1, сковорода 2,
1 шейкер для перца, 3 лопатки, 2 помидора, 1 помидор.
> Салат-латук 1 из таблицы 1
Вы берете салат 1 со стола 1.
> Перейти к раковине 1
На раковине 1 вы можете увидеть яблоко 2, ложку с длинной ручкой 2, ложку 1 и помидор 3.
> 1 салатовая мойка, 1 с раковиной
Вы используете раковину 1, чтобы помыть салат 1.
> Подумайте: сейчас я мою салат-латук (1). Затем мне нужно положить его в/на стол 1.
Хорошо.
> Перейти к таблице 1
На столе 1 вы видите яблоко 1, хлеб 1, нож для масла 2, чашку 2, вилку
2, нож 2, нож 1, ложка с длинной ручкой 1, чашка 2, кружка 1, сковорода 2, перечница 1,
3 лопатки, 2 помидора, 1 помидор.
> Поместите салат 1 на стол 1
Вы кладете салат 1 на стол 1.

Вы находитесь посреди комнаты. Быстро оглядевшись вокруг, вы видите шкаф.
13, шкаф 12, шкаф 11, шкаф 10, шкаф 9, шкаф 8, шкаф
7, шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф
1, кофемашина 1, столешница 1, обеденный стол 1, тумба 1, холодильник 1, холодильник 1, кофемашина 1.
контейнер для мусора 1, микроволновая печь 1, полка 3, полка 2, полка 1, раковина 1, раковина
печь 4, печь 3, печь 2, печь 1 и тостер 1.
Ваша задача: положить чистый салат на обеденный стол.
> подумайте: чтобы решить задачу, мне нужно найти и взять салат-латук, затем очистить его с помощью
Раковину, затем поставьте ее на обеденный стол.
ХОРОШО.
> Сначала мне нужно найти салат-латук. Салат-латук с большей вероятностью появится в
холодильник (1), обеденный стол (1), раковина (1), плита (1-3), шкаф (1-13). I
можно проверять по очереди, начиная с холодильника 1.
ХОРОШО.
> перейти к холодильнику 1
Холодильник 1 закрыт.
> открыть холодильник 1
Вы открываете холодильник 1. Холодильник 1 открыт. В нем вы видите чашку 3, яйцо 2, яйцо 2.
картофель 3 и картофель 2.
> перейти к обеденному столу 1
На обеденном столе 1 вы видите яблоко 1, хлеб 1, ножик для масла 2, чашку 2, бутерброд 2.
вилка 2, нож 2, нож 1, половник 1, салатница 1, кружка 2, кружка 1, сковорода 2, сковорода
перечница 1, лопатка 3, томат 2 и помидор 1.
> Теперь я нашел салат-латук (1). Далее мне нужно взять его.
ХОРОШО.
> возьмите салат 1 с обеденного стола 1
Вы берете салат 1 с обеденного стола 1.
> подумайте: сейчас я приму салат (1). Затем мне нужно пойти в раковину (1) и почистить
Это.
ХОРОШО.
> перейти в раковину 1
На раковине 1 вы видите яблоко 2, половник 2, ложку 1 и помидор 3.
> очистить салат 1 с раковиной 1
Вы очищаете салатницу 1 с помощью раковины 1.
> Теперь я чищу салат (1). Затем мне нужно положить его в/на обеденный стол 1.
ХОРОШО.
> перейти к обеденному столу 1
На обеденном столе 1 вы видите яблоко 1, хлеб 1, нож для масла 2, чашку 2, вилку
2, нож 2, нож 1, половник 1, кружка 2, кружка 1, сковорода 2, перечница 1, перечница
лопатка 3, помидор 2 и помидор 1.
> положите салат 1 на обеденный стол 1
Вы кладете салат 1 в/на обеденный стол 1.

Таблица 8: Предупреждения о действиях ReAct для задачи очистки ALFWorld.

Вы находитесь в центре комнаты. Быстро оглядевшись вокруг, вы видите шкаф 13, шкаф 12, шкаф 11, шкаф 10, шкаф 9, шкаф 8, шкаф 7, шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2 и шкаф 1, кофеварку 1, столешницу 1, обеденный стол 1, комод 1, холодильник 1 и мусорное ведро 1, Микроволновая печь 1, полка 3, полка 2, полка 1, раковина 1, варочная панель 4, варочная панель 3, варочная панель 2, варочная панель 1 и тостер 1.
Ваша задача: положить чистый салат на стол.
> Подумайте: чтобы решить эту задачу, мне нужно найти и взять салат, затем помыть его в раковине и, наконец, поставить на стол.
Хорошо.
> Подумайте: сначала мне нужно найти салат-латук. Скорее всего, салат находится в холодильнике (1), на обеденном столе (1), в раковине (1), на плите (1-3) и в шкафах (1-13). Я могу проверять их по очереди, начиная с холодильника 1.
Хорошо.
> Подойдите к холодильнику 1
Холодильник 1 закрыт.
> Открыть холодильник 1
Вы открыли холодильник 1. Холодильник 1 теперь открыт. Внутри вы видите чашку 3, яйцо 2, картофель 3 и картофель 2.
> Перейти к таблице 1
На столе 1 вы видите яблоко 1, буханку хлеба 1, нож для масла 2, чашку 2, вилку 2, нож 2, резак 1, ложку 1, лопатку 1, салат 1, кружку 2, кружку 1, сковороду 2, перечницу 1, ложку 3, помидор 2 и помидор 1.
> Подумайте: теперь я нашел салат (1). Далее мне нужно его забрать.
Хорошо.
> Возьмите салат 1 из таблицы 1
Вы берете салат 1 со стола 1.
> Подумайте: Сейчас я взял салат-латук (1). Далее мне нужно подойти к раковине (1), чтобы помыть его.
Хорошо.
> Перейти к умывальнику 1
На раковине 1 вы видите яблоко 2, лопатку 2, ложку 1 и помидор 3.
> Мытье салата в умывальнике 1 1
Вы помыли салат 1 в раковине 1.
> Подумайте: сейчас я почистил салат (1). Далее мне нужно положить его на стол /up.
Хорошо.
> Перейти к таблице 1
На столе 1 вы видите яблоко 1, буханку хлеба 1, нож для масла 2, чашку 2, вилку 2, нож 2, нож 1, ложку 1, кружку 2, кружку 1, сковороду 2, перечницу 1, ложку 3, помидор 2 и помидор 1.
> Положите салат 1 на/вверх стола
Вы кладете салат 1 на стол 1.

Вы находитесь посреди комнаты. Быстро оглядевшись вокруг, вы видите шкаф.
13, шкаф 12, шкаф 11, шкаф 10, шкаф 9, шкаф 8, шкаф
7, шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф
1, кофемашина 1, столешница 1, обеденный стол 1, тумба 1, холодильник 1, холодильник 1, кофемашина 1.
контейнер для мусора 1, микроволновая печь 1, полка 3, полка 2, полка 1, раковина 1, раковина
печь 4, печь 3, печь 2, печь 1 и тостер 1.
Ваша задача: положить чистый салат на обеденный стол.
> подумайте: чтобы решить задачу, мне нужно найти и взять салат-латук, затем очистить его с помощью
Раковину, затем поставьте ее на обеденный стол.
ХОРОШО.
> Сначала мне нужно найти салат-латук.
ХОРОШО.
> перейти к холодильнику 1
Холодильник 1 закрыт.
> Сначала мне нужно найти салат-латук.
ХОРОШО.
> открыть холодильник 1
Вы открываете холодильник 1. Холодильник 1 открыт. В нем вы видите чашку 3, яйцо 2, яйцо 2.
картофель 3 и картофель 2.
> Сначала мне нужно найти салат-латук.
ХОРОШО.
> перейти к обеденному столу 1
На обеденном столе 1 вы видите яблоко 1, хлеб 1, ножик для масла 2, чашку 2, бутерброд 2.
вилка 2, нож 2, нож 1, половник 1, салатница 1, кружка 2, кружка 1, сковорода 2, сковорода
перечница 1, лопатка 3, томат 2 и помидор 1.
> Сначала мне нужно найти салат-латук.
ХОРОШО.
> возьмите салат 1 с обеденного стола 1
Вы берете салат 1 с обеденного стола 1.
> подумайте: мне нужно очистить этот салат (1) с помощью sinkbasin 1.
ХОРОШО.
> перейти в раковину 1
На раковине 1 вы видите яблоко 2, половник 2, ложку 1 и помидор 3.
> подумайте: мне нужно очистить этот салат (1) с помощью sinkbasin 1.
ХОРОШО.
> очистить салат 1 с раковиной 1
Вы очищаете салатницу 1 с помощью раковины 1.
> подумайте: мне нужно положить этот очищенный салат (1) в/на обеденный стол 1.
ХОРОШО.
> перейти к обеденному столу 1
На обеденном столе 1 вы видите яблоко 1, хлеб 1, нож для масла 2, чашку 2, вилку
2, нож 2, нож 1, половник 1, кружка 2, кружка 1, сковорода 2, перечница 1, перечница
лопатка 3, помидор 2 и помидор 1.
> подумайте: мне нужно положить этот очищенный салат (1) в/на обеденный стол 1.
ХОРОШО.
> положите салат 1 на обеденный стол 1
Вы кладете салат 1 в/на обеденный стол 1.

Таблица 9: Подсказки действий ReAct-IM для задачи очистки ALFWorld.

Вы находитесь в центре комнаты. Быстро оглядевшись вокруг, вы видите шкаф 13, шкаф 12, шкаф 11, шкаф 10, шкаф 9, шкаф 8, шкаф 7, шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф 1, кофеварку 1, столешницу 1, обеденный стол 1, комод 1, холодильник 1, мусорное ведро 1, микроволновую печь 1, полку 3, полку 2, полку 1, раковину 1, конфорку 4, конфорку 3, конфорку 2, полку 1. микроволновая печь 1, полка 3, полка 2, полка 1, раковина 1, конфорка 4, конфорка 3, конфорка 2, конфорка 1 и тостер 1.
Ваша задача: положить чистый салат на стол.
> Подумайте: чтобы решить эту задачу, мне нужно найти и взять салат-латук, затем вымыть его в раковине, прежде чем поставить на стол.
Хорошо.
> Подумайте: сначала мне нужно найти салат-латук.
Хорошо.
> Подойдите к холодильнику 1
Холодильник 1 закрыт.
> Подумайте: сначала мне нужно найти салат-латук.
Хорошо.
> Открыть холодильник 1
Вы открыли холодильник 1. Холодильник 1 теперь открыт. В холодильнике вы видите чашку 3, яйцо 2, картофель 3 и картофель 2.
> Подумайте: сначала мне нужно найти салат-латук.
Хорошо.
> Перейти к таблице 1
На столе 1 вы видите яблоко 1, буханку хлеба 1, нож для масла 2, чашку 2, вилку 2, нож 2, нож 1, ложку 1, лопатку 1, салат 1, кружку 2, кружку 1, сковороду 2, перечницу 1, лопатку 3, помидор 2 и помидор 1.
> Подумайте: сначала мне нужно найти салат-латук.
Хорошо.
> Удалите салат 1 из таблицы 1
Вы берете салат 1 со стола 1.
> Подумайте: мне нужно использовать раковину 1, чтобы помыть этот салат (1).
Хорошо.
> Перейти к умывальнику 1
На раковине 1 вы видите яблоко 2, лопатку 2, ложку 1 и помидор 3.
> Подумайте: мне нужно использовать раковину 1, чтобы помыть этот салат (1).
Хорошо.
> Использование умывальника1 для мытья салата1
Вы использовали раковину 1 для мытья салата 1.
> ПОДУМАЙТЕ: Мне нужно положить этот уже вымытый салат (1) на стол.
Хорошо.
> Перейти к таблице 1
На столе 1 вы видите яблоко 1, буханку хлеба 1, нож для масла 2, чашку 2, вилку 2, нож 2, нож 1, ложку 1, кружку 2, кружку 1, сковороду 2, перечницу 1, лопатку 3, помидор 2 и помидор 1.
> ПОДУМАЙТЕ: Мне нужно положить этот уже вымытый салат (1) на стол.
Хорошо.
> Положите салат 1 на стол
Вы кладете на стол салат 1.

D Траектория

D.1 Траектория FEVER

Мы приводим несколько траекторий, сгенерированных ReAct, CoT и Act, а ниже - несколько случайно выбранных примеров из набора FEVER dev. Результаты поиска опущены для экономии места.

Пример 2491 (стандартный ответ: опровержение)

ReAct
Заявление: Бермудский треугольник - это нечетко очерченный регион в Тихом океане.
Мысль 1: Мне нужно найти Бермудский треугольник и выяснить, находится ли он в Тихом океане.
Действие 1: Поиск[Бермудский треугольник] Наблюдение 1: По сообщениям, в этих местах водятся привидения...
Мысль 2: По наблюдениям, он находится в западной части Северной Атлантики
Океан, поэтому он не находится в Тихом океане.
Действие 2: Закончить[REFUTES]Наблюдение 2: Эпизод закончен
Действуйте
Заявление: Бермудский треугольник - это нечетко очерченный регион в Тихом океане.
Действие 1: Поиск[Бермудский треугольник]Наблюдение 1: Места с привидениями:...
Действие 2: Закончить[REFUTES]Наблюдение 2: Эпизод закончен
CoT
Заявление: Бермудский треугольник - это нечетко очерченный регион в Тихом океане.
Мысль: Давайте подумаем шаг за шагом. Бермудский треугольник - это нечетко определенный регион.
Тихий океан - это не Атлантический океан.
Ответ: Опровержения

ReAct
Отказ от ответственности: Бермудский треугольник - это нечетко определенная область в Тихом океане.
Мысль 1: Мне нужно найти Бермудский треугольник, чтобы выяснить, находится ли он в Тихом океане.
Действие 1: Поиск [Бермудский треугольник]
Наблюдение 1: Это одни из самых известных мест с привидениями...
Размышление 2: Наблюдения показывают, что он расположен в западной части Северной Атлантики, поэтому не находится в Тихом океане.
Действие 2: Заключение [опровергнуто]
Наблюдение 2: конец эпизода
Действуйте
Отказ от ответственности: Бермудский треугольник - это нечетко определенная область в Тихом океане.
Действие 1: Поиск [Бермудский треугольник]
Наблюдение 1: Вот некоторые из мест с привидениями:...
Действие 2: Заключение [опровергнуто]
Наблюдение 2: конец эпизода
CoT (мыслительный процесс)
Отказ от ответственности: Бермудский треугольник - это нечетко определенная область в Тихом океане.
Подумайте: давайте разберемся с этим по порядку. Бермудский треугольник - это нечетко определенная область Атлантического океана. Тихий океан - это не Атлантический океан.
Ответ: опровергнуть
Благодаря этому процессу логических рассуждений мы можем сделать вывод, что Бермудский треугольник на самом деле расположен в Атлантическом, а не в Тихом океане. Этот вывод основан на знании и подтверждении географического положения Бермудского треугольника. Бермудский треугольник известен своими таинственными исчезновениями и легендами, но точность географического положения не менее важна, чтобы избежать дезинформации и путаницы.

Пример 5908 (стандартный ответ: поддержка)

ReAct
Утверждение: "Принцесса Мононоке" - это фильм.
Мысль 1: Мне нужно найти "Принцессу Мононоке" и узнать, снят ли по ней фильм.
Действие 1: Поиск[Принцесса Мононоке]Наблюдение 1: Принцесса Мононоке ...
Мысль 2: Из обзора следует, что "Принцесса Мононоке" - это фильм.
Действие 2: Закончить[SUPPORTS]Наблюдение 2: Эпизод закончен
Действуйте
Утверждение: "Принцесса Мононоке" - это фильм.
Действие 1: Поиск[Принцесса Мононоке]Наблюдение 1: Принцесса Мононоке ...
Действие 2: Закончить[SUPPORTS]Наблюдение 2: Эпизод закончен
CoT
Утверждение: "Принцесса Мононоке" - это фильм.
Мысль: Давайте подумаем шаг за шагом. Принцесса Мононоке - это фильм, а фильмы - это
фильмы.
Ответ: ПОДДЕРЖКИ

ReAct
Отказ от ответственности: "Принцесса Нойзарка" - это фильм.
Идея № 1: Мне нужно найти "Принцессу Нойзарки", чтобы узнать, снят ли по ней фильм.
Действие 1: Поиск [Принцессы Нойзарки] Наблюдение 1: "Принцесса Нойзарка"...
Идея 2: Судя по наблюдениям, "Принцесса Нойзарка" - это фильм.
Действие 2: Завершить [поддержку] Наблюдение 2: Этот эпизод завершен
Действуйте
Отказ от ответственности: "Принцесса Нойзарка" - это фильм.
Действие 1: Поиск [Принцессы Нойзарки] Наблюдение 1: "Принцесса Нойзарка"...
Действие 2: Завершить [поддержку] Наблюдение 2: Этот эпизод завершен
CoT
Отказ от ответственности: "Принцесса Нойзарка" - это фильм.
Идея: давайте думать шаг за шагом. Принцесса Нойзарка" - это фильм, а фильм - это фильм.
Ответ: Поддержка

Пример 1951 (стандартный ответ: опровержение)

ReAct
Утверждение: "Союз" был частью американской космической программы.
Мысль 1: Мне нужно найти "Союз" и выяснить, был ли он частью американского космического
программа.
Действие 1: Поиск[Союз]Наблюдение 1: "Союз" - это транслитерация...
Мысль 2: В ней не упоминается американская космическая программа, поэтому мне нужно поискать
"Американская космическая программа", чтобы выяснить, была ли она частью этой программы.
Действие 2: Поиск [Американская космическая программа] Наблюдение 2: Космическая политика...
Мысль 3: Здесь не упоминается "Союз", поэтому я не уверен, верно ли это утверждение или нет.
Действие 3: Закончить[НЕ ДОСТАТОЧНО ИНФОРМАЦИИ]Наблюдение 3: Эпизод закончен
Действуйте
Утверждение: "Союз" был частью американской космической программы.
Действие 1: Поиск[Союз]Наблюдение 1: "Союз" - это транслитерация...
Действие 2: Закончить[НЕ ДОСТАТОЧНО ИНФОРМАЦИИ]Наблюдение 2: Эпизод закончен
CoT
Утверждение: "Союз" был частью американской космической программы.
Мысль: Давайте подумаем шаг за шагом. "Союз" - это российский космический корабль.
Космическая программа - это НАСА. вместе на
Международная космическая станция.
Ответ: ПОДДЕРЖКИ

ReAct
Отказ от ответственности: "Союз" является частью космической программы США.
Мысль 1: Мне нужно найти "Союз", чтобы выяснить, является ли он частью космической программы США.
Действие 1: Поиск [Союз] Наблюдение 1: "Союз" - это фонетическое слово...
Мысль 2: Здесь нет упоминания о космической программе США, поэтому мне нужно найти "космическую программу США", чтобы узнать, является ли она ее частью.
Действие 2: Поиск [Космическая программа США] Наблюдение 2: Космическая политика...
Мысль 3: О "Союзе" ничего не говорится, поэтому я не уверен, верно ли это утверждение.
Действие 3: Заключение [недостаточно информации] Наблюдение 3: Заключение
Действуйте
Отказ от ответственности: "Союз" является частью космической программы США.
Действие 1: Поиск [Союз] Наблюдение 1: "Союз" - это фонетическое слово...
Действие 2: Закрыть [недостаточно информации] Наблюдение 2: Закрыть
CoT
Отказ от ответственности: "Союз" является частью космической программы США.
Подумайте: давайте думать шаг за шагом. Союз" - это российский космический корабль. Американская космическая программа - это НАСА. НАСА и Россия сотрудничают по Международной космической станции.
Ответ: Поддержка

Пример 3208 (стандартный ответ: опровержение)

ReAct
Заявка: Reign Over Me - американский фильм, снятый в 2010 году.
Мысль 1: Мне нужно найти "Reign Over Me" и выяснить, американский ли это фильм.
в 2010 году.
Действие 1: Поиск[Царствуй надо мной] Наблюдение 1: Царствуй надо мной ...
Мысль 2: В наблюдении сказано, что это американский фильм, снятый в 2007 году, поэтому он не
сделанные в 2010 году.
Действие 2: Закончить[REFUTES]Наблюдение 2: Эпизод закончен
Действуйте
Заявка: Reign Over Me - американский фильм, снятый в 2010 году.
Действие 1: Искать[Царствуй надо мной] Действие 2: Закончить[ПОДДЕРЖКИ] Наблюдение 2: Эпизод закончен
CoT
Заявка: Reign Over Me - американский фильм, снятый в 2010 году.
Давайте подумаем шаг за шагом. Во-первых, является ли фильм Reign Over Me американским? Да, является.
Во-вторых, была ли она сделана в 2010 году? Да, была.
Ответ: ПОДДЕРЖКИ

ReAct
Отказ от ответственности: Reign Over Me - американский фильм, снятый в 2010 году.
Идея 1: Мне нужно найти Reign Over Me, чтобы убедиться, что это американский фильм, снятый в 2010 году.
Действие 1: Поиск [Reign Over Me] Наблюдение 1: "Reign Over Me"...
Идея 2: Наблюдения показывают, что это американский фильм, снятый в 2007 году, поэтому он не был снят в 2010 году.
Действие 2: конец [опровергнуто] Наблюдение 2: конец
Действуйте
Отказ от ответственности: Reign Over Me - американский фильм, снятый в 2010 году.
Действие 1: Поиск [Воцариться надо мной] Действие 2: Завершить [Поддержка] Наблюдение 2: Завершить
CoT
Отказ от ответственности: Reign Over Me - американский фильм, снятый в 2010 году.
Размышления: давайте разберемся по порядку. Во-первых, является ли Reign Over Me американским фильмом? Да, американский. Во-вторых, снят ли он в 2010 году? Да, снят.
Ответ: Поддержка

D.2 Траектории ALFWORLD

Мы приводим примеры траекторий для ReAct, Act и ReAct-IM в одной и той же игре ALFWorld, pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754.

D.2.1 Траектории REACT

Компания ReAct смогла правильно найти нож, очистить его и положить на столешницу.

Траектория ReAct ALFWorld

Вы находитесь посреди комнаты. Быстро оглядевшись вокруг, вы видите шкаф 6, шкаф
шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф 1, кофемашина 1, кофемашина
столешница 3, столешница 2, столешница 1, ящик 3, ящик 2, ящик 1, ящик
холодильник 1, контейнер для мусора 1, микроволновая печь 1, полка 3, полка 2, полка 1, раковина
1, печь 4, печь 3, печь 2, печь 1 и тостер
1.
Ваша задача: положить чистый нож на столешницу.
> подумайте: чтобы решить задачу, мне нужно найти и взять нож, а затем очистить его с помощью
раковину, затем поставьте ее на столешницу.
ХОРОШО.
> Сначала мне нужно найти нож. Нож с большей вероятностью появится в шкафу.
(1-6), ящик (1-3), столешница (1-3), холодильник (1), корзина для мусора (1), полка (1-3),
раковина (1), конфорка плиты (1-4), тостер (1). Я могу проверять по одному, начиная с
шкаф 1.
ХОРОШО.
> перейти в кабинет 1
На шкафу 1 вы видите чашу 1.
> перейти в кабинет 2
Шкаф 2 закрыт.
> перейти в кабинет 3
На шкафу 3 вы видите стеклянную бутылку 1.
> перейти в кабинет 4
На шкафу 4 вы видите кружку 1.
> перейти в кабинет 5
Шкаф 5 закрыт.
> перейти в кабинет 6
Шкаф 6 закрыт.
> перейти к ящику 1
Выдвижной ящик 1 закрыт.
> перейти к ящику 2
Выдвижной ящик 2 закрыт.
> перейдите к ящику 3
Выдвижной ящик 3 закрыт.
> перейти к столешнице 1
На столешнице 1 вы видите салатницу 2, кружку 2, перечницу 1 и ложку 2.
> перейти к столешнице 2
На столешнице 2 вы видите чашку 1, губку для мытья посуды 1, стеклянную бутылку 3, нож 1, нож 2.
тарелка 2, картофель 3 и статуэтка 1.
> Теперь я нахожу нож (1). Далее мне нужно взять его.
ХОРОШО.
> возьмите нож 1 со столешницы 2
Возьмите нож 1 со столешницы 2.
> Теперь я беру нож (1). Далее мне нужно подойти к раковине (1) и почистить ее.
ХОРОШО.
> перейти в раковину 1
На раковине 1 вы видите вилку 3, салатницу 3 и лопатку 2.
> чистый нож 1 с раковиной 1
Вы очищаете нож 1 с помощью раковины 1.
> Теперь я чищу нож (1). Затем мне нужно положить его в/на столешницу 1.
ХОРОШО.
> перейти к столешнице 1
На столешнице 1 вы видите салатницу 2, кружку 2, перечницу 1 и ложку 2.
> положите нож 1 на столешницу 1
Вы кладете нож 1 в/на столешницу 1.

Вы находитесь в центре комнаты. Быстро оглядевшись вокруг, вы видите шкаф 6, шкаф 5, шкаф 4, шкаф 3, шкаф 2, шкаф 1, кофеварку 1, столешницу 3, столешницу 2, столешницу 1, ящик 3, ящик 2, ящик 1, холодильник 1, мусорное ведро 1, микроволновую печь 1, полку 3, полку 2, полку 1, раковину 1, варочную панель 4, варочную панель 3, варочную панель 2, варочную панель 1 и тостер 1. раковина 1, варочная панель 4, варочная панель 3, варочная панель 2, варочная панель 1 и тостер 1.
Ваша задача: положить на стол чистый нож.
> Подумайте: чтобы выполнить задание, мне нужно найти и взять нож, затем вымыть его в раковине и положить на стол.
Хорошо.
> Подумайте: сначала мне нужно найти нож. Скорее всего, нож находится в шкафу (1-6), ящике (1-3), столешнице (1-3), холодильнике (1), мусорном ведре (1), полке (1-3), раковине (1), варочной панели (1-4), тостере (1). Я могу проверять их по очереди, начиная со шкафа 1.
Хорошо.
> Перейти в кабинет 1
На шкафу 1 вы видите чашу 1.
> Перейти в кабинет 2
Шкаф 2 закрыт.
> Перейти в кабинет 3
На шкафу 3 вы видите стеклянную бутылку 1.
> Перейти в кабинет 4
На шкафу 4 вы видите чашку 1.
> Перейти в кабинет 5
Шкаф 5 закрыт.
> Перейти в кабинет 6
Шкаф 6 закрыт.
> Перейти к ящику 1
Ящик 1 закрыт.
> Перейдите к ящику 2
Ящик 2 закрыт.
> Перейдите к ящику 3
Ящик 3 закрыт.
> Перейти на рабочий стол 1
На столешнице 1 вы видите головку салата 2, чашку 2, шейкер для соли с черным перцем 1 и две ложки 2.
> Перейти на рабочий стол 2
На столешнице 2 вы видите чашку 1, щетку для овец 1, стеклянную бутылку 3, нож 1, тарелку 2, три картофелины 3 и статуэтку 1.
> Подумайте: сейчас я нашел нож (1). Далее мне нужно взять его.
Хорошо.
> Возьмите нож 1 со стола 2
Вы берете нож 1 со столешницы 2.
> Подумайте: сейчас я беру в руки нож (1). Затем мне нужно подойти к раковине (1), чтобы почистить его.
Хорошо.
> Перейти к раковине 1
Над раковиной 1 вы видите вилку 3, головку салата 3 и лопатку для переворачивания 2.
> Нож для чистки 1 с раковиной 1
Вы используете раковину 1 для чистки ножа 1.
> Подумайте: сейчас я почистил нож (1). Далее мне нужно положить его на стол 1.
Хорошо.
> Перейти на рабочий стол 1
На столешнице 1 вы видите головку салата 2, чашку 2, шейкер для соли с черным перцем 1 и две ложки 2.
> Положите нож 1 на стол 1
Вы кладете нож 1 на столешницу 1.

D.2.2 Траектории ACT

Модель действия способна правильно найти нож, но пытается очистить его с помощью умывальника, прежде чем действительно доберется до умывальника. С этого момента модель не может прийти в себя и начинает повторять одну и ту же последовательность команд. При использовании модели ReAct уже существующая идея определяет, что нож был похищен, и следующей подцелью является путешествие к умывальнику, чтобы очистить его.

D.2.3 Траектория REACT-IM

ReAct-IM смог правильно определить местонахождение ножа, но также не смог его очистить. Тогда у LLM возникают проблемы, когда он пытается положить этот нож на прилавок. Одна из возможных проблем - неправильное представление: подумайте: мне нужно найти чистый нож. Это, по-видимому, заставило ЛЛМ поверить, что нож уже был очищен. В ReAct эта серия подцелей будет отражена конкретно в каждой идее.

D.3 Траектория WEBSHOP

Инструкции:Купите мне шестнадцать упаковок сублимированных банановых чипсов со вкусом яблочной корицы по цене менее $50.00

Таблица 10: Примеры траекторий движения по интернет-магазину, предсказанные Act и ReAct. В отличие от Act, ReAct использует умозаключения для поиска товаров, удовлетворяющих всем целевым атрибутам.

E Дополнительные анализы

E.1 Анализ режимов успеха и неудачи

Мы приводим несколько примеров, соответствующих анализу моделей успеха и ошибок, приведенному в разделе 3.3. Результаты поиска и нерепрезентативные шаги опущены для экономии места.

Успех: Настоящий позитив

ReAct
Вопрос: Автор Дэвид Чанофф сотрудничал с адмиралом ВМС США, который служил в качестве
посол в Великобритании при каком президенте?
Мысль 1: Мне нужно найти Дэвида Чаноффа и найти адмирала ВМС США, которого он
сотрудничал с.
Действие 1: Поиск[Дэвид Чанофф]Наблюдение 1: Дэвид Чанофф - известный автор...
Действие 2: Поиск[Уильям Дж. Кроу] Наблюдение 2: Уильям Дж. Кроу является...
Мысль 3: Уильям Дж. Кроу служил послом в Великобритании при
Так что ответ - Билл Клинтон.
Действие 3: Закончить[Билл Клинтон]Наблюдение 3: Эпизод закончен
CoT
Вопрос: Как называлась команда, представлявшая один из университетов Аризоны в
конференция, которая охватывает широкую территорию западной части США.
включая Аризону, Калифорнию и Нью-Мексико?
Мысль: Давайте подумаем шаг за шагом. Название команды, которая представляла Аризону
университет в конференции, которая охватывает широкую территорию западного
Соединенные Штаты, включая Аризону, Калифорнию и Нью-Мексико - Аризона
Штат "Солнечные дьяволы".
Ответ: Солнечные дьяволы штата Аризона

ReAct
ВОПРОС: Автор Дэвид Чарнофф работал с адмиралом ВМС США, который служил послом Великобритании при каком президенте?
Размышление 1: Мне нужно найти Дэвида Чарноффа и выяснить, с какими адмиралами ВМС США он работал.
Действие 1: Поиск [Дэвид Чарнофф] Наблюдение 1: Дэвид Чарнофф - известный автор...
Действие 2: Поиск [Уильяма Дж. Кроу] Наблюдение 2: Уильям Дж. Кроу был...
Подумайте 3: Уильям Дж. Кроу был послом Великобритании во время президентства Билла Клинтона. Поэтому ответ - Билл Клинтон.
Действие 3: Заключение [Билл Клинтон] Наблюдение 3: Проведение завершено
CoT
ВОПРОС: Какая команда, представляющая университет в Аризоне, участвовала в конференции, которая охватывала большую территорию западной части США, включая Аризону, Калифорнию и Нью-Мексико?
Пища для размышлений: давайте разберем все по порядку. В конференции, которая охватывает обширную территорию на западе США, включая Аризону, Калифорнию и Нью-Мексико, командой, представляющей университет в Аризоне, является Arizona State University Sun Devils.
В ответ на "Солнечные дьяволы университета штата Аризона

Ошибка/Успех прогноза: Ложное срабатывание

ReAct
Вопрос: Настольная игра "Сан-Марко" или "О времени" вышла первой?
Мысль 1: Мне нужно поискать "Сан-Марко" и "О времени" и выяснить, что вышло первым.
Действие 1: Поиск[Сан-Марко]Наблюдение 1: Сан-Марко - один из ... Он был построен в Венеции.
Мысль 2: Сан-Марко - один из районов Венеции. Мне нужно поискать "О времени" дальше.
Действие 2: Поиск[О времени] Наблюдение 2: Не удалось найти [О времени]. Аналогично: [...] .
Мысль 3: "О времени" - фильм 2013 года. Значит, "Сан-Марко" вышел первым.
Действие 3: Закончить[Сан-Марко]Наблюдение 3: Эпизод закончен
CoT
Вопрос: Кто был основан первым - Университет Вандербильта или Университет Эмори?
Мысль: Давайте подумаем шаг за шагом. Университет Вандербильта был основан в 1873 году.
Университет был основан в 1836 году. 1873 (Университет Вандербильта) > 1836 (Эмори)
Первым был основан Университет Вандербильта.
Ответ: Университет Эмори

ReAct
ВОПРОС: Какая из двух настольных игр, St Mark's или About Time, вышла первой?
Мысль 1: Мне нужно выяснить, какая игра выйдет первой, St Mark's или About Time.
Действие 1: Поиск [Собора Святого Марка] Наблюдение 1: Собор Святого Марка был... Он был построен в Венеции.
Подумайте 2: Сан-Марко - это район Венеции. Далее мне нужно поискать "О времени".
Действие 2: Поиск [примерно время] Наблюдение 2: Не удалось найти [примерно время]. Вместо этого было найдено [...].
Мысль 3: Фильм "О времени" вышел в 2013 году, поэтому "Святой Марк" должен был стать первым релизом.
Действие 3: Конец поиска [Сан-Марко] Наблюдение 3: Конец миссии
CoT
Вопрос: Что было основано первым - Вандербильт или Эмори?
Размышления: во-первых, Университет Вандербильта был основан в 1873 году, а Университет Эмори - в 1836 году; в хронологическом порядке Вандербильт (1873 год) находится позже Эмори (1836 год), а значит, Эмори был основан раньше.
Ответ: Университет Эмори.

Отказ: ошибка обоснования / Failure: Reasoning error

ReAct
Вопрос: Какое второе имя было у актрисы, которая снималась вместе с Харви?
Фиерштейн, Линда Харт, Дик Латесса, Кларк Торелл, Мэри Бонд Дэвис, Лора
Белла Банди, Мэттью Моррисон, Кори Рейнольдс и Марисса Джарет Винокур в фильме
Лак для волос?
Мысль 1: Мне нужно поискать Харви Фиерштейна, Линду Харт, Дика Латессу, Кларка Торелла.
Мэри Бонд Дэвис, Лора Белл Банди, Мэттью Моррисон, Кори Рейнольдс и
Марисса Джарет Винокур, найдите актрису, которая снималась вместе с ними в фильме
Лак для волос, а затем найдите его второе имя.
Действие 1: Поиск[Харви Фиерштейн] Наблюдение 1: Харви Форбс Фиерштейн ...
Мысль 2: Харви Фиерштейн - актер, драматург и сценарист.
искать Линду Харт дальше...
Действие 2: Поиск [Линды Харт]...
CoT
Вопрос: Кто старше - Дэнни Грин или Джеймс Уорти?
Дэнни Грин родился в 1987 г. Джеймс Уорти был членом Сената США.
родился в 1961 году. 1987 (Дэнни Грин) > 1961 (Джеймс Уорти), так что Дэнни Грин - это
старше.
Ответ: Дэнни Грин

ReAct
ВОПРОС: В фильме "Лак для волос" вместе с Харви Фиерштейном, Линдой Харт, Диком Латессой, Кларком Тореллом, Мэри Бонд Дэвис, Лорой Белл Банди, Мэтью Моррисоном, Кори Рейнольдсом и Мариссой Какое второе имя у актрисы, выступавшей вместе с Джарет Винокур?
Идея 1: Мне нужно найти Харви Фиерштейна, Линду Харт, Дика Латессу, Кларка Торелла, Мэри Бонд Дэвис, Лору Белл Банди, Мэтью Моррисона, Кори Рейнольдса и Мариссу Jaret Winokur, выяснить актрису, которая играла с ними в пьесе, и найти ее второе имя.
Действие 1: Поиск [Харви Фиерштейн] Наблюдение 1: Харви Форбс Фиерштейн...
Идея №2: Харви Фиерштейн - актер, драматург и сценарист. Далее вам нужно найти Линду Харт...
Действие 2: Поиск [Линды Харт]...
CoT
ВОПРОС: Кто старше, Дэнни Грин или Джеймс Уорти?
Подумайте: давайте сделаем это поэтапно. Дэнни Грин родился в 1987 году, а Джеймс Уорти - в 1961. 1987 (Дэнни Грин) > 1961 (Джеймс Уорти), поэтому Дэнни Грин старше.
В ответ на Дэнни Грин

Сбой: ошибка поиска / Сбой: ошибка поиска

ReAct
Вопрос: Из чего состоит богиня, связанная с богиней Фригг?
Сказки?
Мысль 1: Мне нужно отыскать богиню Фригг и найти связанную с ней богиню.
Действие 1: Поиск[богиня Фригг]Наблюдение 1: Не удалось найти богиню Фригг. Похожие: ['Фригг', 'Фригг и Фрейя обыкновенная
гипотеза происхождения", "Фрейя (раздел Отношение к Фригг и другим богиням
и фигуры)', 'Eir (перенаправление от Eir (богиня))', 'Baldr'].
Мысль 2: Мне нужно поискать Фригг...

ReAct
ВОПРОС: В какой истории фигурирует богиня Фригг?
Идея № 1: Мне нужно найти богиню Фригг и найти связанных с ней богинь.
Действие 1: Поиск [богини Фригг] Наблюдение 1: Невозможно найти богиню Фригг. похожие: ['Фригг', 'Гипотеза об общем происхождении Фригг и Фрейи', 'Фрейя (в связи с Фригг и другими богинями и персонажами)', 'Эйр (перенаправлено с Эйр (богиня))', 'Бальдр'].
Идея № 2: Мне нужно искать Фригг по-другому...

Провал: Галлюцинация / Failure: Hallucination

CoT
Вопрос: В каком году впервые появился научный журнал, издаваемый организацией
В Бронксе была опубликована книга, расположенная в Бронксе?
Мысль: Давайте рассуждать шаг за шагом. В первый год научный журнал, издаваемый
Организация, расположенная в Бронксе, была опубликована в 1916 году.
Ответ: 1916 (Пометка: 1909)

CoT
ВОПРОС: В каком году это учреждение, расположенное в Бронксе, впервые опубликовало научный журнал?
Мыслить: Мы мыслим поэтапно. Год выхода первого научного журнала, изданного учреждением в Бронксе, - 1916-й.
Ответ: 1916 (Пометка: 1909)

Неудача: двусмысленность этикетки / Неудача: двусмысленность этикетки

ReAct
Вопрос: Какой национальности человек, разработавший игру про диктатора?
Мысль 1: Мне нужно найти игру "Диктатор", найти человека, который ее разработал, затем найти его
национальность.
Действие 1: Поиск[игра диктатор]Наблюдение 1: Игра диктатор - популярный экспериментальный инструмент в социальной психологии
и экономика...
Действие 3: Поиск[Амос Тверски] Наблюдение 3: Амос Натан Тверски...
Мысль 4: Амос Тверски - израильский когнитивный и математический психолог, поэтому
Человек, разработавший игру "Диктатор", - израильтянин.
Действие 4: Закончить[Израильский] (метка: Израильско-американский)
CoT
Вопрос: Курт Фуллер из Стоктона, штат Калифорния, снимался в какой американской детективной комедии
Драматический телесериал, созданный Стивом Фрэнксом?
Курт Фуллер из Стоктона, Калифорния, появился в журнале Psych.
Psych - американский детективно-комедийный драматический телесериал, созданный
Стив Фрэнкс.
Ответ: Psych (метка: Psych - американская детективная комедия-драма)

ReAct
Вопрос: Назовите страну человека, который придумал "Игру в диктатора"?
Мысль 1: Мне нужно набрать в поисковике "игра в диктатора", найти человека, который ее придумал, а затем выяснить его национальность.
Действие 1: Поиск [Игра в диктатора] Наблюдение 1: Игра в диктатора - распространенный экспериментальный инструмент в социальной психологии и экономике .......
Действие 3: Поиск [Амос Тверски] Наблюдение 3: Амос Натан Тверски ......
Размышление 4: Амос Тверски - израильский когнитивный и математический психолог. Следовательно, человек, придумавший "Игру в диктатора", - израильтянин.
Действие 4: Заключение [израильтяне] (примечание: Израиль-США)
CoT
ВОПРОС: В каком американском детективном комедийном сериале, созданном Стивом Фрэнком, снимался Курт Фуллер из Стоктона, штат Калифорния?
Размышления: давайте делать шаг за шагом. Курт Фуллер появился в сериале "Психология". Psych - американский детективно-комедийный телесериал, созданный Стивом Фрэнком.
Ответ: "Psych" (Примечание: "Psych" - американская детективная комедия)

Нетезовая часть, легкая для понимания, простая для логического разбора

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.