ReAct: raciocínio e ação trabalham juntos em grandes modelos de linguagem

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Original: https://arxiv.org/pdf/2210.03629.pdf

Não consegue entender como o ReAct funciona e se aplica mesmo depois de lê-lo? Dê uma olhada na seçãoPrática da lógica de implementação do ReAct" com exemplos práticos.

resumos

Embora os modelos de linguagem em larga escala (MLL) tenham demonstrado um desempenho impressionante em tarefas de compreensão de linguagem e tomada de decisões interativas, seus recursos de raciocínio (por exemplo, dicas de cadeia de pensamento) e recursos de ação (por exemplo, geração de plano de ação) foram amplamente estudados como tópicos separados. Este artigo explora o uso de llm para gerar trajetórias de raciocínio e ações específicas de tarefas de forma intercalada, permitindo uma maior sinergia entre os dois: as trajetórias de raciocínio ajudam o modelo a generalizar, rastrear e atualizar planos de ação, bem como lidar com exceções, enquanto as ações permitem que ele interaja com fontes externas (por exemplo, bases de conhecimento ou ambientes) e reúna informações adicionais. O método proposto ReAct é aplicado a um conjunto diversificado de tarefas linguísticas e de tomada de decisão, e sua eficácia é demonstrada em uma linha de base de última geração, além de melhorar a interpretabilidade e a confiabilidade humanas. Especificamente, na resposta a perguntas (HotpotQA) e na verificação de fatos (Fever), o ReAct supera as ilusões e os problemas de propagação de erros predominantes no raciocínio de cadeia de raciocínio, interagindo com uma API simples da Wikipédia e gerando trajetórias de solução de tarefas semelhantes às humanas que são mais fáceis de interpretar do que as linhas de base sem trajetórias de raciocínio. Além disso, em dois benchmarks interativos de tomada de decisão (ALFWorld e WebShop), o ReAct supera as abordagens de imitação e de aprendizado por reforço com uma taxa de sucesso absoluta de 34% e 10%, respectivamente, exigindo apenas um ou dois exemplos contextuais.

1 Introdução

Uma característica exclusiva da inteligência humana é a capacidade de combinar perfeitamente ações orientadas para a tarefa com o raciocínio verbal, que se acredita desempenhar um papel importante na cognição humana, contribuindo para a autorregulação ou formulação de estratégias, bem como para a manutenção da memória de trabalho. Tomando o exemplo de cozinhar um prato na cozinha, entre duas ações específicas, podemos usar o raciocínio verbal para acompanhar o progresso ("Agora que tudo está picado, devo esquentar a panela com água"), para lidar com anomalias ou ajustar o plano de acordo com a situação ("Não tenho sal, então vou usar molho de soja e pimenta em vez disso"), e perceber quando são necessárias informações externas ("Como preparo a massa? Deixe-me fazer uma pesquisa na Internet"). Também podemos agir (abrir um livro de receitas para ler uma receita, abrir a geladeira, verificar os ingredientes) para apoiar o raciocínio e responder a perguntas ("O que posso cozinhar agora?") Esse tipo de "ação" não é um problema para nós. Essa sinergia estreita entre "ação" e "raciocínio" permite que os seres humanos aprendam rapidamente novas tarefas e tomem decisões ou raciocínios robustos em ambientes nunca antes encontrados ou diante da incerteza de informações.

Resultados recentes sugeriram a possibilidade de combinar o raciocínio verbal com a tomada de decisão interativa em sistemas autônomos. Por um lado, os modelos de linguagem grande (LLMs) adequadamente orientados demonstraram a capacidade de executar várias etapas de raciocínio em tarefas de aritmética, senso comum e raciocínio simbólico. No entanto, esse raciocínio de "cadeia de pensamento" é uma caixa preta estática, em que o modelo usa sua representação interna para gerar pensamento e não se baseia no mundo externo, o que limita sua capacidade de raciocinar de forma reativa ou de atualizar o conhecimento. Isso pode levar a ilusões factuais e à propagação de erros no processo de raciocínio (Figura 1(1b)). Por outro lado, trabalhos recentes exploraram o uso de modelos de linguagem pré-treinados para planejamento e ação em ambientes interativos, com foco na previsão de ação por meio de antecedentes linguísticos. Em geral, essas abordagens convertem observações multimodais em texto, usam modelos de linguagem para gerar ações ou planos específicos do domínio e, em seguida, usam controladores para selecioná-los ou executá-los. No entanto, elas não usam modelos linguísticos para raciocinar abstratamente sobre metas de alto nível ou para manter a memória de trabalho em apoio às ações, com exceção de Huang et al. (2022b), que realizaram uma forma limitada de raciocínio verbal para reiterar fatos espaciais sobre o estado atual. Além dessa simples tarefa incorporada que interage com vários blocos de construção, não há pesquisas sobre como o raciocínio e a ação podem ser combinados de forma sinérgica para resolver tarefas gerais e se essa combinação pode proporcionar benefícios sistemáticos em relação ao raciocínio ou à ação isoladamente.

ReAct: raciocínio e ação trabalhando juntos em modelagem de linguagem ampla-1

Figura 1: (1) Comparação de quatro métodos de solicitação, (a) solicitação padrão, (b) cadeia de pensamento (CoT, somente raciocínio), (c) somente ação e (d) ReAct (raciocínio + ação), para resolver um problema HotpotQA (Yang et al., 2018). (2) Uma comparação das abordagens de dicas (a) somente ação e (b) ReAct para resolver um jogo AlfWorld (Shridhar et al., 2020b). Em ambos os domínios, omitimos exemplos contextuais dos prompts e mostramos apenas trajetórias de solução de problemas geradas pelo modelo (ação, pensamento) e pelo ambiente (observação).

Este documento apresenta_ReActO ReAct é um paradigma generalizado para combinar raciocínio e ação com modelos de linguagem para resolver uma variedade de tarefas de raciocínio linguístico e de tomada de decisão (Fig. 1). O ReAct solicita que o llm gere traços e ações de raciocínio verbal relevantes para a tarefa de forma transversal, o que permite que o modelo execute um raciocínio dinâmico para criar, manter e adaptar planos de ação de alto nível (ação fundamentada), enquanto interage com ambientes externos (por exemplo, Wikipedia) para incorporar informações adicionais ao raciocínio (raciocínio por ação). informações adicionais ao raciocínio (raciocínio por ação).

Este artigo avalia empiricamente o ReAct e as linhas de base do estado da arte em quatro referências diferentes: questionários, verificação de fatos, jogos de texto e navegação na Web. Para o HotPotQA e o Fever, o ReAct supera os modelos comuns de geração de ações e compete com o Chain-of-Thought Reasoning (CoT) acessando a API da Wikipédia, onde os modelos podem interagir. Em geral, a melhor abordagem é uma combinação de ReAct e CoT, que permite o uso de conhecimento interno e de informações obtidas externamente no processo de raciocínio. No ALFWorld e no WebShop, dois ou até mesmo um prompt do ReAct podem superar o uso de 10³∼ 10⁵Os métodos de aprendizagem por imitação ou reforço treinados em instâncias de tarefas resultaram em aumentos absolutos nas taxas de sucesso de 34% e 10%, respectivamente. A importância do raciocínio esparso e generalizado na tomada de decisões é demonstrada por meio de uma vantagem consistente em relação a uma linha de base controlada de apenas ação. Além da aplicabilidade geral e dos ganhos de desempenho, a combinação de raciocínio e ação contribui para a interpretabilidade, a confiabilidade e a capacidade de diagnóstico do modelo em todos os domínios, já que os seres humanos podem distinguir facilmente entre as informações derivadas do conhecimento interno do modelo e o ambiente externo, além de examinar as trajetórias de inferência para entender os fundamentos da tomada de decisão das ações do modelo.

Em resumo, nossas principais contribuições são as seguintes.

(1) Propondo o ReAct, um novo paradigma baseado em dicas para raciocínio e ação colaborativos na modelagem de linguagem para resolver tarefas gerais.

(2) Foram realizados experimentos abrangentes em diferentes benchmarks para demonstrar as vantagens do ReAct em relação às abordagens anteriores de inferência ou geração de ações isoladas em um cenário de aprendizado com menos amostras; o

(3) propor ablação e análises sistemáticas para entender a importância da ação em tarefas de raciocínio e do raciocínio em tarefas de interação.

(4) As limitações do ReAct na configuração de cued (ou seja, suporte limitado para inferência e comportamento) são analisadas e experimentos preliminares de ajuste fino são realizados, mostrando o potencial de aprimoramento do ReAct com dados de treinamento adicionais. Ampliar o ReAct para treinar e manipular tarefas adicionais e combiná-lo com paradigmas complementares, como o aprendizado por reforço, poderia revelar ainda mais o potencial de modelos de linguagem grandes.

2 REACT: raciocínio colaborativo + ação

Considere a configuração geral de um corpo inteligente que interage com seu ambiente para resolver uma tarefa. Na etapa de tempotEm seguida, o agente recebe uma observação do ambienteo_t∈ O, e de acordo com alguma estratégiaπ(a_t|c_t) Faça uma operaçãoa_t∈ A, ondec_t= (o₁,a₁,--- ,o_t_-1,a_t_-1,o_t) é o contexto do agente. Ao mapearc_t→7 a_tAs estratégias de aprendizado podem ser desafiadoras quando são altamente implícitas e exigem uma grande quantidade de cálculos. Por exemplo, o agente mostrado na Fig. 1 (1c) não consegue gerar a ação final correta (Ato 4) para concluir a tarefa de controle de qualidade porque ela exige um raciocínio complexo sobre o contexto da trajetória (Pergunta, Ato 1-3, Obs 1-3). Da mesma forma, o agente mostrado na Fig. 1 (2a) não consegue entender, com base no contexto, que a pia 1 não contém o pimenteiro 1 e, portanto, continua produzindo comportamentos alucinatórios.

A ideia do ReAct é simples: expandimos o espaço de ação de um corpo inteligente para Aˆ = A ∪ L, em que L é o espaço de linguagem. Uma ação no espaço de linguagemaˆ_t∈ L, que chamaremos de traço de pensamento ou raciocínio, não afeta o ambiente externo e, portanto, não gera feedback observacional. Por outro lado, um pensamentoaˆ_tTem como objetivo compor informações úteis por meio do raciocínio sobre o contexto atualc_te atualizar o contextoc_t₊₁= (c_t,aˆ_t) para apoiar o raciocínio ou a ação futura. Conforme mostrado na Figura 1, pode haver vários tipos de ideias úteis, tais como: decompor as metas da tarefa e criar um plano de ação (2b, Ato 1; 1d, Pensamento 1), injetar conhecimento de senso comum relevante para a resolução da tarefa (2b, Pensamento 1), extrair partes importantes das observações (1d, Pensamentos 2,4), acompanhar o progresso e transportar o plano de ação (2b, Pensamento 8), lidar com exceções e ajustar o plano de ação ( 1d, pensamento 3), e assim por diante.

No entanto, como o espaço de linguagem L é infinito, o aprendizado nesse espaço de ação aumentado é difícil e exige uma prévia linguística forte. Neste artigo, nos concentramos em um modelo de linguagem grande congelado PaLM-540B (Chowdhery et al., 2022) nessa configuração^[1]Os exemplos contextuais com menos amostras foram selecionados para gerar ações específicas do domínio e pensamentos linguísticos de forma livre para a solução da tarefa (Fig. 1 (1d), (2b)). Os exemplos em cada contexto são trajetórias de ações humanas, pensamentos e observações ambientais usadas para resolver instâncias de tarefas (consulte o Apêndice C). Para tarefas em que o raciocínio é de importância primordial (Fig. 1(1)), geramos pensamentos e ações alternativamente, de modo que a trajetória da solução da tarefa consiste em várias etapas de pensamento-ação-observação. Por outro lado, nas tarefas de tomada de decisão que podem envolver um grande número de ações (Fig. 1(2)), os pensamentos só precisam aparecer de forma esparsa nas posições mais relevantes da trajetória, de modo que deixamos o modelo de linguagem decidir por si mesmo a ocorrência assíncrona de pensamentos e ações.

Devido à integração dos recursos de tomada de decisão e raciocínio em um grande modelo de linguagem, o ReAct tem vários recursos exclusivos.

A) Intuitivo e fácil de projetar:Projetar os prompts do ReAct é fácil porque os anotadores humanos simplesmente expressam seus pensamentos em palavras, além de suas ações. Este documento não usa opções específicas de formato, projetos de think-aloud ou opções de amostra. Descrevemos o design do prompt para cada tarefa em detalhes nas Seções 3 e 4.

B) Universal e flexível:Devido ao espaço de pensamento flexível e ao formato pensar-agir-gerar, o ReAct é adequado para diversas tarefas com diferentes espaços de ação e necessidades de raciocínio, incluindo, entre outros, controle de qualidade, verificação de fatos, jogos de texto e navegação na Web.

C) Desempenho potente e robusto:O ReAct demonstra uma forte generalização ao aprender com apenas um a seis exemplos contextuais, indo consistentemente além da linha de base de apenas raciocínio ou ação em todos os domínios. Também mostramos benefícios adicionais ao permitir o ajuste fino na Seção 3, e a robustez do desempenho do ReAct para a seleção de dicas na Seção 4.

D) Alinhado com os seres humanos e controlável:O ReAct promete um processo de tomada de decisão e raciocínio sequencial interpretável em que os humanos podem verificar facilmente o raciocínio e a correção dos fatos. Além disso, conforme mostrado na Figura 5 da Seção 4, os humanos também podem controlar ou corrigir o comportamento do corpo inteligente pensando na edição.

3 Tarefas de raciocínio com uso intensivo de conhecimento

Começando com tarefas de raciocínio com uso intensivo de conhecimento, como questionamento de vários locais e verificação de fatos. Conforme mostrado na Figura 1 (1d), ao interagir com a API da Wikipédia, o ReAct é capaz de recuperar informações para apoiar o raciocínio e também usar o raciocínio para determinar o que recuperar em seguida, demonstrando a sinergia entre raciocínio e ação.

3.1 Configurações

Domínios Consideramos dois conjuntos de dados que apresentam desafios para a recuperação e a inferência de conhecimento: (1) HotPotQA , um benchmark de resposta a perguntas com vários saltos que exige inferência em dois ou mais artigos da Wikipédia, e (2) FEVER , um benchmark de verificação de fatos em que cada declaração é rotulada como APOIA, REFUTA ou NÃO TEM INFORMAÇÃO SUFICIENTE. ENOUGH INFO, dependendo da existência ou não de um artigo da Wikipédia para validar a declaração. Neste trabalho, usamos uma configuração somente de problema em ambas as tarefas, em que o modelo só recebe o problema/declaração como entrada e não tem acesso às passagens de apoio, tendo que confiar em seu conhecimento interno ou recuperar conhecimento interagindo com o ambiente externo para apoiar o raciocínio.

Espaço de ação Projetamos uma API simples da Wikipédia na Web com três tipos de operações para dar suporte à recuperação interativa de informações:

(1) procurar algo [Entity], que retorna as 5 primeiras frases da página wiki da entidade correspondente, se ela existir; caso contrário, sugere as 5 primeiras entidades semelhantes do mecanismo de pesquisa da Wikipedia.

(2) localizar [string], que retornará a próxima frase na página que contém a string, simulando a função Ctrl+F em um navegador.

(3) cumprir [answer], conclui a tarefa atual com a resposta. O espaço de ação pode, em sua maioria, recuperar apenas uma pequena parte de um parágrafo com base no nome exato do parágrafo, muito mais fraco do que os recuperadores léxicos ou neurais de última geração. O objetivo é simular como os humanos interagem com a Wikipédia e forçar o modelo a recuperar por meio de raciocínio explícito na linguagem.

3.2 Metodologia

ReAct Prompting Aplicado ao HotpotQA e ao Fever, selecionamos aleatoriamente 6 e 3 casos do conjunto de treinamento e escrevemos manualmente trajetórias no formato ReAct para serem usadas como amostras insuficientes nos prompts. De forma semelhante à Fig. 1 (d), cada trajetória consiste em várias etapas de pensamento-ação-observação (ou seja, pensamento denso) em que pensamentos de forma livre são usados para várias finalidades. Especificamente, usamos uma combinação de pensamentos para decompor o problema ("preciso pesquisar x, encontrar y e depois encontrar z"), extrair informações das observações da Wikipédia ("x começou em 1844", "a passagem não diz x"), executar o senso comum ("x não é y, portanto z deve ser ......") ou raciocínio aritmético ("1844 < 1989"), direcionando a reconstrução da pesquisa (""Talvez eu possa pesquisar/encontrar x") e sintetizando a resposta final (" "...... Então a resposta é x"). Consulte o Apêndice C para obter mais detalhes.

Linhas de base Removemos sistematicamente as trajetórias do ReAct para construir várias pistas de linha de base (no formato da Fig. 1 (1a-1c)).

(a)Solicitação padrão/Solicitação padrão(Padrão), removendo todos os pensamentos, ações e observações da trajetória do ReAct.

(b)Solicitação de cadeia de raciocínio / Solicitação de cadeia de raciocínio(CoT), que remove ações e observações e serve apenas como uma linha de base para o raciocínio. Uma linha de base autoconsistente (CoT-SC) foi estabelecida por meio da amostragem de trajetórias com uma temperatura de decodificação CoT de 0,7 durante a inferência e usando a maioria das respostas, o que melhorou consistentemente o desempenho em relação à CoT.

(c)Prompt somente de atuação(Act), que remove ideias da trajetória do ReAct, é mais ou menos análogo ao modo como o WebGPT interage com a Internet para responder a perguntas, embora opere em um espaço de ação e tarefa diferente e use imitação e aprendizado por reforço em vez de prompts.

Combinação de conhecimento interno e externo / Combining Internal and External Knowledge Como detalharemos na Seção 3.3, observamos queO ReAct demonstrou um processo de solução de problemas mais factual e fundamentado, enquanto o CoT foi mais preciso na formulação de uma estrutura de raciocínio, mas era propenso a alucinações.Portanto, propomos mesclar o ReAct e o CoT-SC e deixar que o modelo decida quando mudar para o outro método com base na seguinte heurística.

a) ReAct→CoT-SCVolte para o CoT-SC quando o ReAct não conseguir retornar uma resposta em um determinado número de etapas. Definimos 7 e 5 etapas para o HotpotQA e o FEVER, respectivamente, porque descobrimos que mais etapas não melhoram o desempenho do ReAct.

b) CoT-SC→ReAct:: QuandonA maioria das respostas na amostra do CoT-SC aparece com menos den/Em 2 ocasiões (ou seja, o conhecimento interno pode não ser capaz de apoiar a tarefa com confiança), retorne ao ReAct.

Ajuste fino/Finetuning Devido aos desafios de rotular manualmente trajetórias de inferência e ações em escala, este artigo considera uma abordagem de autoajuda semelhante à de Zelikman et al. (2022), que usa 3.000 trajetórias com respostas corretas geradas pelo ReAct (também usado em outras linhas de base) para ajustar um modelo de linguagem menor (PaLM-8/62B) para decodificar trajetórias condicionadas a perguntas/declarações de entrada (todos os pensamentos, ações, observações). Consulte o Apêndice B.1 para obter mais detalhes.

3.3 Resultados e observações

O ReAct em geral supera o Act/ReAct supera o Act de forma consistente A Tabela 1 mostra os resultados do HotpotQA e do Fever usando o PaLM-540B como modelo de base e usando diferentes métodos de sugestão. Observamos que o ReAct supera o Act em ambas as tarefas, demonstrando o valor do raciocínio para orientar as ações, especialmente na síntese das respostas finais, conforme mostrado na Figura 1 (1c-d). O resultado de ajuste fino 3 também confirma os benefícios dos rastros de inferência para uma ação mais informada.

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande-2

Tabela 1: Resultados da sugestão do PaLM-540B no HotpotQA e Fever.

ReAct vs. CoT Por outro lado, o ReAct supera o CoT em Fever (60,9 vs. 56,3) e fica um pouco atrás do CoT em HotpotQA (27,4 vs. 29,4). Pode haver apenas pequenas diferenças nas declarações de fervor pró/recusa (consulte o Apêndice D.1), portanto, é fundamental tomar medidas para obter conhecimento preciso e atualizado. Para entender melhor as diferenças de comportamento entre o ReAct e o CoT no HotpotQA, coletamos aleatoriamente 50 trajetórias com respostas corretas e incorretas (julgamentos EM) do ReAct e do CoT (200 exemplos no total), respectivamente, e marcamos manualmente seus padrões de sucesso e fracasso na Tabela 2. A seguir, algumas observações importantes.

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande-3

Tabela 2: Tipos de modos de sucesso e falha para ReAct e CoT no HotpotQA e suas porcentagens em exemplos selecionados aleatoriamente de estudos em humanos.

A) As alucinações são um problema sério para os CoTsO ReAct, no modo de sucesso, leva a uma taxa de alarme falso muito maior do que o ReAct (14% vs. 6%) e constitui seu principal modo de falha (56%). Em contrapartida, a trajetória de solução de problemas do ReAct é mais relevante, orientada por fatos e confiável devido à sua capacidade de acessar uma base de conhecimento externa.

B) Embora a intercalação das etapas de raciocínio, ação e observação aumente a praticidade e a credibilidade do ReAct, essa restrição estrutural também reduz sua flexibilidade na formulação das etapas de raciocínioObservamos que o ReAct tem um padrão de erro frequente específico, em que o modelo regenera pensamentos e ações anteriores, que classificamos como parte do "erro de raciocínio" porque o modelo não consegue raciocinar adequadamente sobre a próxima ação e sai do loop.

C) Para o ReAct, a recuperação bem-sucedida do conhecimento informacional por meio de pesquisa é fundamental.As buscas não informativas foram responsáveis por 23% dos casos de erro, prejudicando o raciocínio do modelo e dificultando a recuperação e a reformulação de ideias. Isso pode ser uma compensação esperada entre factualidade e flexibilidade, o que nos inspirou a propor uma estratégia que combina as duas abordagens.

Fornecemos exemplos para cada modo de sucesso e falha no Apêndice E.1. Também descobrimos que algumas perguntas do HotpotQA podem conter rótulos de resposta desatualizados; veja um exemplo na Figura 4.

O ReAct + CoT-SC teve o melhor desempenho na solicitação de LLMs.Conforme mostrado na Tabela 1, os melhores métodos de sinalização no HotpotQA e na Fever foram ReAct → CoT-SC e CoT-SC → ReAct, respectivamente. Além disso, a Figura 2 demonstra o desempenho dos diferentes métodos ao usar diferentes números de amostras de CoT-SC. Embora os dois métodos ReAct + CoT-SC tenham vantagens em suas respectivas tarefas, ambos superam de forma significativa e consistente o CoT-SC ao usar apenas 3 a 5 amostras em um número variável de amostras, um resultado que demonstra o valor de combinar adequadamente o conhecimento interno ao modelo com o conhecimento externo à tarefa de raciocínio.

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande - 4

Figura 2: Resultados imediatos do PaLM-540B apresentados de acordo com o número de amostras de CoT-SC usadas.

O ReAct tem um desempenho ideal em termos de ajuste fino.A Figura 3 mostra os efeitos estendidos da sugestão/ajuste fino para os quatro métodos (Standard, CoT, Act, ReAct) no HotpotQA. No PaLM-8/62B, o prompting ReAct teve o pior desempenho entre os quatro métodos devido à dificuldade de aprender a raciocinar e agir a partir de cenários. No entanto, quando ajustado com apenas 3.000 exemplos, o ReAct se tornou o melhor dos quatro métodos, com o ReAct ajustado com precisão no PaLM-8B superando todos os métodos de solicitação do PaLM-62B e o ReAct ajustado com precisão no PaLM-62B superando todos os métodos de solicitação do 540B. Por outro lado, o ajuste fino do Standard ou do CoT teve um desempenho significativamente pior do que o ajuste fino do ReAct ou do Act, no PaLM8/62B, sendo que o primeiro ensina principalmente o modelo a memorizar fatos de conhecimento (possivelmente fictícios) e o último ensina o modelo a (raciocinar e) agir ao obter informações da Wikipédia, que é uma habilidade de raciocínio de conhecimento mais geral. Como todos os métodos de solicitação ainda estão significativamente abaixo do estado da arte específico do domínio (Tabela 1), acreditamos que o ajuste fino com mais dados escritos por humanos pode ser uma maneira melhor de liberar os recursos do ReAct.

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande - 5

Figura 3: Resultados estendidos para a sugestão e o ajuste fino do HotPotQA usando o ReAct (nosso método) e linhas de base.

4 Tarefas de tomada de decisão

Também testamos o ReAct em duas tarefas interativas de tomada de decisão baseadas em linguagem, ALFWorld e WebShop, ambas com ambientes complexos que exigem que as inteligências tomem medidas durante longos períodos de tempo com recompensas esparsas, o que exige que as inteligências raciocinem de forma eficaz para tomar medidas e explorar.

ALFWorld O ALFWorld (Figura 1(2)) é um jogo sintético baseado em texto projetado para se alinhar com o benchmark ALFRED incorporado. Ele consiste em 6 tipos de tarefas em que as inteligências precisam navegar por ações textuais (por exemplo, ir até a mesa de centro1 , pegar o arquivo2 , usar a luminária da escrivaninha1 ) e interagir com uma família simulada para atingir objetivos de alto nível (por exemplo, verificar o arquivo sob a luminária da escrivaninha). Uma instância de tarefa pode ter mais de 50 locais e exigir mais de 50 etapas de estratégia especializada para ser resolvida, desafiando as inteligências a planejar e rastrear subobjetivos, bem como a explorar sistematicamente (por exemplo, verificar todas as mesas uma a uma para encontrar a luminária de mesa). Em particular, um dos desafios incorporados ao ALFWorld é a necessidade de determinar os locais prováveis de itens domésticos comuns (por exemplo, um abajur provavelmente estará em uma mesa, prateleira ou cômoda), o que torna essa configuração ideal para o LLM aproveitar seu conhecimento de senso comum pré-treinado. Para dar dicas ao ReAct, anotamos aleatoriamente três trajetórias no conjunto de treinamento para cada tipo de tarefa, cada uma consistindo de ideias esparsas que (1) decompõem a meta, (2) rastreiam a conclusão da submeta, (3) determinam a próxima submeta e (4) encontram a localização do objeto e o que fazer com ele por meio do raciocínio de senso comum. Mostramos as dicas usadas para o ALFWorld no Apêndice C.4. Seguindo a abordagem de Shridhar et al., avaliamos 134 jogos de avaliação inéditos em uma configuração de tarefa específica. Para aumentar a robustez, construímos 6 dicas para cada tipo de tarefa por meio de cada permutação de cada uma de nossas 3 trajetórias anotadas. As dicas de Act foram construídas usando as mesmas trajetórias, mas sem ideias - como as instâncias de tarefas foram selecionadas aleatoriamente do conjunto de treinamento, elas não foram tendenciosas para ReAct nem para Act, proporcionando uma comparação justa e controlada. Act, proporcionando uma comparação justa e controlada para testar a importância das ideias esparsas. Como linha de base, usamos o BUTLER, uma inteligência de aprendizado por imitação treinada em 105 trajetórias de especialistas para cada tipo de tarefa.

Loja virtual O ReAct também pode interagir com ambientes linguísticos ruidosos do mundo real para aplicações práticas? Estudamos o WebShop, um ambiente de site de compras on-line proposto recentemente com 1,18 milhão de produtos do mundo real e 12 mil instruções humanas. Ao contrário do ALFWorld, o Webshop contém uma grande quantidade de texto estruturado e não estruturado (por exemplo, títulos de produtos, descrições e opções extraídas da Amazon) e pede que as inteligências interajam com ele com base nos comandos do usuário (por exemplo, "Estou procurando uma mesa de cabeceira com gavetas. Ela deve ter acabamento em níquel e custar menos de US$ 140") por meio de interações na Web (por exemplo, pesquisar "nightstand drawers" e selecionar botões como "Colour: Modern Nickel White" ou "Return to pesquisa", selecionando botões como "Color: Modern Nickel White" ou "Back") para comprar o produto. Essa tarefa foi avaliada em 500 instruções de teste por meio da pontuação média (porcentagem dos atributos necessários cobertos pelo produto selecionado, média de todos os episódios) e da taxa de sucesso (porcentagem de episódios em que o produto selecionado atendeu a todos os requisitos). Desenvolvemos prompts Act que incluíam ações de pesquisa, seleção de produtos, escolha de opções e compra, enquanto os prompts ReAct raciocinavam adicionalmente para determinar o que explorar, quando comprar e quais opções de produtos eram relevantes para as instruções. Consulte a Tabela 6 para ver exemplos de prompts e a Tabela 10 no Apêndice para ver as previsões do modelo. Comparamos isso com uma abordagem de aprendizagem por imitação treinada com 1012 trajetórias anotadas pessoalmente e uma abordagem adicional de aprendizagem por imitação + reforço (IL + RL) treinada com 10587 instruções de treinamento.

no final O ReAct supera o Act nas plataformas ALFWorld (Tabela 3) e Webshop (Tabela 4). No ALFWorld, o experimento ReAct de melhor desempenho atinge uma taxa média de sucesso de 711 TP3T, o que excede em muito os melhores experimentos Act (451 TP3T) e BUTLER (371 TP3T). De fato, o experimento ReAct de pior desempenho (481 TP3T) também superou os melhores experimentos de ambos os métodos. Além disso, a vantagem do ReAct sobre o Act persistiu nos seis experimentos controlados, com ganhos de desempenho relativos que variaram de 331 TP3T a 901 TP3T, com uma média de 621 TP3T. De uma perspectiva qualitativa, descobrimos que o Act não conseguiu dividir corretamente o alvo em subalvos menores ou perdeu o controle do estado atual do ambiente na ausência de qualquer pensamento. Exemplos de trajetórias comparando o ReAct e o Act podem ser encontrados no Apêndice D.2.1 e no Apêndice D.2.2.

ReAct: raciocínio e ação trabalhando juntos em modelagem de linguagem ampla-1

Tabela 3: Taxas de sucesso específicas da tarefa AlfWorld (%). Os resultados para BUTLER e BUTLERg são de Shridhar et al. 2020b Tabela 4. Todos os métodos usam decodificação gulosa, exceto BUTLER, que usa busca de feixe.

ReAct: raciocínio e ação em colaboração na modelagem de linguagem ampla - 7

Tabela 4: Pontuações e taxas de sucesso (SR) na Webshop. Dados de IL/IL+RL extraídos de Yao et al. (2022).

Na Webshop, as dicas únicas do Act foram capazes de andar de mãos dadas com os métodos IL e IL+RL. Com raciocínio esparso adicional, o ReAct obtém um desempenho significativamente melhor, com uma melhoria absoluta de 10% em relação à melhor taxa de sucesso anterior. Ao examinar exemplos, descobrimos que o ReAct tem maior probabilidade de preencher a lacuna entre observações e ações ruidosas por meio do raciocínio para identificar produtos e opções relevantes para a instrução (por exemplo, "Para a 'banqueta para os pés da sala de estar que economiza espaço', o item tem um tamanho de ' 39x18x18inch' e 'blue' que parecem valer a pena comprar.") . No entanto, os métodos existentes ainda têm um desempenho muito inferior ao de humanos experientes (Tabela 4), que realizam significativamente mais exploração de produtos e reconstrução de consultas, o que continua sendo um desafio para os métodos baseados em dicas.

Sobre o valor do raciocínio interno versus feedback externo Até onde sabemos, o ReAct é a primeira demonstração de LLM aplicada a um sistema de loop fechado que combina raciocínio e ação em um ambiente interativo. Talvez o trabalho anterior mais próximo seja o Internal Monologue (IM), de Huang et al. (2022b), no qual as ações dos agentes incorporados são conduzidas pelo "monólogo interno" homônimo.No entanto, o "monólogo interno" do IM limita-se a observações do estado do ambiente e das tarefas que o agente precisa realizar para satisfazer as metas.Em contrapartida, o rastreamento de inferência de decisão no ReAct é flexível e esparso, permitindo que diversos tipos de inferência sejam induzidos para diferentes tarefas (consulte a Seção 2).

Para demonstrar a diferença entre o ReAct e o IM, e para enfatizar a importância do raciocínio interno em relação às respostas simples ao feedback externo, realizamos experimentos de ablação usando um padrão de pensamento que consistia em feedback externo denso no estilo IM. Como mostra a Tabela 3, o ReAct superou em muito os prompts do estilo IM (ReAct-IM) (71% vs. 53% para o sucesso geral), com vantagens consistentes em cinco das seis tarefas. Qualitativamente, observamos que o ReAct-IM cometeu erros frequentes ao determinar quando as submetas foram concluídas ou qual deveria ser a próxima submeta, devido à falta de decomposição de metas de alto nível. Além disso, muitas das trajetórias do ReAct-IM também tiveram dificuldades para determinar onde os itens poderiam estar localizados no ambiente do ALFWorld devido à falta de raciocínio de senso comum.
Essas duas deficiências podem ser resolvidas no paradigma ReAct. Mais detalhes sobre o ReAct-IM estão no Apêndice B.2. Exemplos de dicas para o ReAct-IM podem ser encontrados no Apêndice C.4, e exemplos de trajetórias estão no Apêndice D.2.3.

5 Trabalhos relacionados

Um modelo linguístico de raciocínio Talvez o trabalho mais conhecido sobre raciocínio com modelos de linguagem grandes (LLMs) seja o Chain-of-Thought (CoT), que revelou a capacidade dos LLMs de formular seus próprios "processos de pensamento" para resolver problemas. Desde então, vários trabalhos de acompanhamento foram realizados, incluindo a solicitação do mínimo para o máximo em tarefas complexas, CoT de disparo zero e raciocínio de autoconsistência. Recentemente, (Madaan & Yazdanbakhsh, 2022) investigaram sistematicamente a construção e a estrutura das CoTs e observaram que a presença de símbolos, esquemas e texto é fundamental para a eficácia das CoTs.
Outros trabalhos se estenderam a arquiteturas de raciocínio mais complexas que vão além de simples dicas. Por exemplo, o Selection-Inference divide o processo de inferência em etapas de "seleção" e "inferência", e o STaR orienta o processo de inferência por meio do ajuste fino do modelo com base na inferência correta gerada pelo próprio modelo. Processo de raciocínio. O raciocínio fiel decompõe o raciocínio de várias etapas em três etapas, cada uma delas executada por um LM dedicado. Abordagens semelhantes, como o Scratchpad, também demonstram melhorias em problemas computacionais de várias etapas por meio do ajuste fino do LM em etapas computacionais intermediárias.
Em contraste com essas abordagens, o ReAct realiza mais do que um raciocínio isolado e fixo e integra as ações do modelo e suas observações correspondentes em um fluxo de entrada coerente para que o modelo possa raciocinar com mais precisão e resolver tarefas que vão além do raciocínio (por exemplo, tomada de decisão interativa).

Uso de modelos de linguagem para a tomada de decisões. Os recursos de LLMs poderosos permitem que eles executem tarefas que vão além da geração de linguagem, e é cada vez mais popular utilizar LLMs como um modelo de estratégia para a tomada de decisões, especialmente em ambientes interativos. O WebGPT usa LLMs para interagir com navegadores da Web, navegar em páginas da Web e inferir respostas a perguntas complexas do ELI5 . Em contrapartida, o WebGPT não modela explicitamente os processos de pensamento e raciocínio, mas depende de feedback humano caro para o aprendizado por reforço. Na modelagem de diálogo, sistemas como o BlenderBot e o Sparrow e sistemas de diálogo orientados a tarefas como o SimpleTOD também treinam LMs para tomar decisões sobre chamadas de API. Ao contrário do ReAct, eles não consideram explicitamente o processo de inferência e dependem de conjuntos de dados caros e conjuntos de feedback humano para o aprendizado de políticas. Por outro lado, o ReAct aprende a política de uma forma mais econômica, pois o processo de tomada de decisão requer apenas uma linguagem para descrever o processo de raciocínio.

Os modelos de linguagem (LLMs) também estão sendo cada vez mais aplicados ao planejamento e à tomada de decisões em ambientes interativos e incorporados. Nesse sentido, os mais relevantes para o ReAct são provavelmente o SayCan e oMonólogo interiorNo SayCan, os LLMs são solicitados a prever diretamente as possíveis ações do robô, que são então reordenadas por um modelo de disponibilidade baseado no ambiente visual para fazer a previsão final. No SayCan, os LLMs são solicitados a prever diretamente as ações possíveis do robô, que são então reordenadas por um modelo de disponibilidade baseado no ambiente visual para fazer a previsão final. feedback do ambiente. Até onde sabemos, o Inner Monologue é o primeiro trabalho a demonstrar esse sistema de loop fechado, e o ReAct se baseia nele. No entanto, argumentamos que o Inner Monologue não contém realmente o pensamento interno - isso é detalhado na Seção 4. Também observamos que o uso da linguagem como uma entrada semanticamente rica em processos interativos de tomada de decisão foi comprovadamente bem-sucedido em outros cenários. Está ficando cada vez mais claro que, com os LLMs, a linguagem como um mecanismo cognitivo fundamental desempenhará um papel fundamental na interação e na tomada de decisões. Além disso, os avanços nos LLMs inspiraram o desenvolvimento de agentes versáteis e de uso geral, como Reed et al.

6 Conclusão

Apresentamos o ReAct, um método simples, porém eficaz, para coordenar o raciocínio e a ação em grandes modelos de linguagem. Por meio de um conjunto diversificado de experimentos em tarefas de resposta a perguntas com vários saltos, verificação de fatos e tomada de decisões interativas, mostramos que o ReAct leva a um desempenho superior com caminhos de decisão analisáveis. Apesar da simplicidade de nossa abordagem, tarefas complexas em grandes espaços de ação exigem mais exemplos para um bom aprendizado, o que pode facilmente exceder os limites de comprimento de entrada no aprendizado contextual. Experimentamos a abordagem ajustada no HotpotQA e os resultados iniciais são encorajadores, mas espera-se que o aprendizado em mais anotações humanas de alta qualidade melhore ainda mais o desempenho. Permitir que o ReAct aumente a escala do treinamento multitarefa, combinado com paradigmas complementares, como o aprendizado por reforço, pode resultar em agentes mais poderosos que liberam o potencial dos LLMs para mais aplicações.

A Conclusões adicionais

A.1 Experimento GPT-3

ReAct: raciocínio e ação trabalhando juntos em modelagem de linguagem ampla - 8

Tabela 5: Comparação de resultados para prompts do ReAct usando o PaLM-540B com GPT-3 (text-davinci-002, decodificação gulosa). No HotpotQA, selecionamos aleatoriamente um subconjunto de 500 perguntas de validação. No ALFWorld, usamos todas as 134 instâncias não vistas da tarefa de verificação com o melhor conjunto de dicas selecionado de acordo com o PaLM-540B.

Realizamos experimentos adicionais com o GPT-3 (Brown et al., 2020) para confirmar a generalidade do desempenho do ReAct cue em diferentes modelos de idiomas grandes. Conforme mostrado na Tabela 5, o GPT-3 (text-davinci-002, decodificação gulosa) supera consistentemente o PaLM-540B no HotpotQA e no ALFWorld, possivelmente porque foi ajustado para seguir instruções humanas. Isso sugere que a dica ReAct é eficaz em diferentes tarefas para diferentes modelos de idiomas grandes. O código para esses experimentos pode ser encontrado em https://react-lm.github.io/.

A.2 ReAct para obter conhecimento atualizado sobre o HotpotQA

ReAct: raciocínio e ação trabalhando juntos em modelagem de linguagem ampla-9

Figura 4: Outro exemplo de uma pergunta de teste de hotpot em que os rótulos originais estão desatualizados. Somente o ReAct foi capaz de obter as respostas mais atualizadas por meio de interações reais com a Web, aliadas ao raciocínio.

A.3 Correções comportamentais para o envolvimento humano no ciclo no ALFWorld

Também exploramos interações de loop de envolvimento humano com o ReAct que permitiram aos humanos inspecionar e editar os traços de raciocínio do ReAct. A Figura 5 mostra que, simplesmente removendo uma frase alucinatória no Ato 17 e acrescentando algumas dicas no Ato 23, o ReAct pode mudar significativamente seu comportamento, alinhar-se com essas edições de pensamento humano e concluir a tarefa com êxito. Do ponto de vista humano, a solução de uma tarefa como essa se torna muito mais fácil, desde a entrada de dezenas de ações até a edição de apenas alguns pensamentos, o que permite um novo tipo de colaboração homem-máquina. Observamos que essa edição de estratégia é difícil para o Act e para as abordagens de RL anteriores porque os humanos não podem alterar os parâmetros do modelo e a alteração de algumas ações pode não editar o restante do comportamento do modelo. Esse paradigma também vai além do diálogo humano para atualizar metas ou submetas, conforme descrito em Huang et al. (2022b) - embora a edição de ideias do ReAct possa fazer tudo isso, ela também pode modificar qualquer uma das crenças internas do modelo, estilos de raciocínio ou suporte flexível ao espaço de pensamento para resolver melhor a tarefa. Acreditamos que essa é uma direção interessante para o alinhamento humano e deixamos uma pesquisa mais sistemática como trabalho futuro.

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande-10

Figura 5: Exemplos de correções comportamentais de HCI usando o ReAct no AlfWorld. (a) A trajetória do ReAct falha devido ao pensamento alucinatório (comportamento 17). (b) Com a simples edição das duas mentes (comportamentos 17 e 23) por um humano, a trajetória do ReAct produz a trajetória de raciocínio e a ação desejadas com sucesso.

B Detalhes experimentais

B.1 Detalhes de ajuste fino do questionário Hot Topics

Para todos os ajustes finos, usamos um tamanho de lote de 64. No PaLM-8B, realizamos 4.000 etapas de ajuste fino para os métodos ReAct e Act, e 2.000 etapas de ajuste fino para os métodos Standard e CoT. No PaLM-62B, fizemos o ajuste fino dos métodos ReAct e Act em 4.000 etapas e dos métodos Standard e CoT em 1.000 etapas. Descobrimos que os métodos ReAct e Act normalmente se beneficiam de mais etapas de treinamento (e mais dados de treinamento), enquanto os métodos padrão e CoT começam a se degradar logo após o ajuste fino.

B.2 Detalhes do estilo instantâneo do ALFWORLD

Para os experimentos de ablação imediata de estilo, as mesmas trajetórias de especialistas usadas no ReAct foram anotadas novamente, e essas trajetórias continham internamente um pensamento denso de feedback externo que limitava o ReAct-IM a considerar apenas (1) a decomposição da meta atual e (2) a submeta atual que precisa ser concluída. Especificamente, o ReAct-IM carece (1) do raciocínio que determina quando uma submeta está concluída (2) do raciocínio que determina qual deve ser a próxima submeta (3) do raciocínio que induz o LLM a consultar seu conhecimento interno pré-treinado para identificar os possíveis locais dos itens no ambiente.

C PROMPOSTOS

C.1 Questionário sobre tópicos importantes

Dicas quentes de perguntas e respostas

Original
Pergunta	Resposta
Qual é a faixa de elevação da área para a qual o setor leste da orogênese do Colorado se estende?	1.800 a 7.000 pés
O músico e satirista Allie Goertz escreveu uma música sobre o personagem Milhouse, de "Os Simpsons". Quem Matt Groening batizou com o nome de Nixon?	Richard Nixon
Qual documentário é sobre grupos de rock finlandeses, Adam Clayton Powell ou The Saimaa Gesture?	O gesto Saimaa
Que profissão Nicholas Ray e Elia Kazan têm em comum?	Diretor, roteirista, ator
Qual revista foi criada primeiro, a Arthur's Magazine ou a First for Women?	Revista do Arthur
Pavel Urysohn e Leonid Levin são conhecidos pelo mesmo tipo de trabalho?	Sim

Original
problemas	solução
Qual é a faixa de elevação da extensão leste da orogênese do Colorado?	1.800 a 7.000 pés.
O músico e satirista Allie Goertz escreveu uma música sobre o personagem dos Simpsons, Milhouse, Matt Groening, em homenagem a qual homem de Nixon?	Richard Nixon.
Qual é o documentário sobre a banda de rock finlandesa, Adam Clayton Powell, ou sobre as ações da Saimaa?	Operação Saïmaa
Que carreiras Nicholas Ray e Elia Kazan têm em comum?	Diretor, roteirista, ator
Qual revista foi fundada antes, a Arthur's Magazine ou a First for Women?	Revista do Arthur
Pavel Urizon e Leonid Levin são conhecidos pelo mesmo tipo de trabalho?	ser

Lei
Pergunta	Ação	Observação
Qual é a faixa de elevação da área para a qual o setor leste da orogênese do Colorado se estende?	Pesquisa [orogenia do Colorado].	A orogênese do Colorado foi um episódio de formação de montanhas (uma orogênese) no Colorado e arredores.
	Pesquisa [setor leste]	(Resultado 1 / i) O setor oriental se estende até as Planícies Altas e é chamado de orogenia das Planícies Centrais.
	Pesquisar [High Plains].	High Plains refere-se a uma de duas regiões terrestres distintas.
	Pesquisa[High Plains (Estados Unidos)].	As Planícies Altas são uma sub-região das Grandes Planícies. De leste a oeste, as Planícies Altas se elevam de cerca de 550 a 2.130 m (1.800 a 7.000 pés). [3]
	Acabamento	[1.800 a 7.000 pés].
A musicista e satirista Allie Goertz escreveu uma música sobre o personagem Milhouse de "Os Simpsons", que Matt Groening batizou em homenagem a quem?	Busca [Milhouse]	Milhouse Mussolini Van Houten é um personagem recorrente na série de televisão animada da Fox Os Simpsons, dublado por Pamela Hayden e criado por Matt Groening. Os Simpsons, dublado por Pamela Hayden e criado por Matt Groening.
	Pesquisa [nomeado após]	(Resultado 1 / l) Milhouse foi batizado em homenagem ao presidente dos EUA Richard Nixon, cujo nome do meio era Milhous.
	Acabamento	[Richard Nixon].
Qual documentário é sobre grupos de rock finlandeses, Adam Clayton Powell ou The Saimaa Gesture?	Pesquisar [Adam Clayton Powell].	Não foi possível encontrar [Adam Clayton Powell]. Similar: ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State office Building', 'Isabel Washington Powell', 'Adam Clayton Powell (filme)', 'Adam Clayton Powell (filme)']. Powell', 'Adam Clayton Powell (filme)', 'Giancarlo Esposito'].
	Busca [Adam clayton Powell (filme)]	Adam clayton Powell é um documentário estadunidense de 1989, dirigido por Richard Kilberg, sobre a ascensão e a queda do influente político afro-americano Adam clayton Powell Jr.[3][4] Posteriormente, foi ao ar como parte da série The American Experience, da BBC. O filme é sobre a ascensão e a queda do influente político afro-americano Adam Clayton Powell Jr.[3][4] Posteriormente, foi ao ar como parte da série The American Experience da BBC.
	Acabamento	[O gesto Saimaa].
Que profissão Nicholas Ray e Elia Kazan têm em comum?	Busca [Nicholas Ray]	Nicholas Ray (nascido Raymond Nicholas Kienzle Jr., ) 7 de agosto de 1911 - 16 de junho de 1979) foi um diretor de cinema, roteirista e ator estadunidense mais conhecido pelo filme filme Rebelde sem causa, de 1955.
	Pesquisar [Elia Kazan].	Elia Kazan foi um diretor, produtor, roteirista e ator americano de cinema e teatro.
	Finish [diretor, roteirista, ator]
Qual revista foi criada primeiro, a Arthur's Magazine ou a First for Women?	Pesquisar [Arthur's Magazine].	A Arthur's Magazine (1844-1846) foi um periódico literário americano publicado na Filadélfia no século XIX.
	Pesquisar [First for Women]	First for Women é uma revista feminina publicada pelo Bauer Media Group nos EUA.[1] A revista foi criada em 1989.
	Finalizar [Arthur's Magazine]
Pavel Urysohn e Leonid Levin eram conhecidos pelo mesmo tipo de trabalho?	Pesquisar [Pavel Urysohn].	Pavel Samuilovich Urysohn (3 de fevereiro de 1898 - 17 de agosto de 1924) foi um matemático soviético mais conhecido por suas contribuições à teoria da dimensão.
	Pesquisar [Leonid Levin].	Leonid Anatolievich Levin é um matemático soviético-americano e um dos maiores nomes do mundo. computador cientista.
	Finalização[sim]

Lei
problemas	movimento	prestar atenção
Qual é a faixa de elevação da área na qual a seção leste da orogênese do Colorado se estende?	Pesquisar [Campanha de Construção da Montanha do Colorado].	A orogenia do Colorado é um movimento de formação de montanhas (orogenia) que ocorreu no Colorado e em seus arredores.
	Localizar [Setor Leste]	(Resultados 1 / i) A seção leste se estende até as Planícies Altas e é conhecida como a orogenia das Planícies Centrais.
	Pesquisar [High Plains].	As High Plains se referem a uma de duas áreas distintas:
	Pesquisar [High Plains (EUA)].	As High Plains são uma sub-região das Great Plains. De leste a oeste, a elevação das High Plains vai de cerca de 550 metros (1.800 pés) a 2.130 metros (7.000 pés). [3]
	cumprir	[1.800 a 7.000 pés].
O músico e satírico Allie Goertz escreveu uma música sobre o personagem Milhouse, dos Simpsons, em homenagem a quem Matt Groening deu o nome ao personagem?	Busca [Milhouse]	Milhouse Mussolini Van Houten é um personagem residente da série animada de televisão Os Simpsons, da Fox, dublado por Pamela Hayden e criado por Matt Groening.
	Localizar [fonte nomeada]	(Resultados 1 / l) Milhouse foi batizado em homenagem a Richard Nixon, presidente dos Estados Unidos, cujo nome do meio era Milhous.
	cumprir	[Richard Nixon].
Qual documentário é sobre uma banda de rock finlandesa, Adam Clayton Powell ou The Saimaa Gesture?	Busca [Adam Clayton Powell]	Não foi encontrado nenhum [Adam Clayton Powell]. Similar: ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell', 'Adam Clayton Powell (filme)', 'Giancarlo Esposito'].
	Busca [Adam Clayton Powell (filme)]	Adam Clayton Powell é um documentário estadunidense de 1989 dirigido por Richard Kilberg. O filme acompanha a ascensão e a queda do influente político afro-americano Adam Clayton Powell Jr. [3][4]. [3][4] Posteriormente, foi transmitido como parte da série da PBS The American Experience.
	cumprir	[O gesto Saimaa].
Que carreiras Nicholas Ray e Elia Kazan têm em comum?	Busca [Nicholas Ray]	Nicholas Ray (nome verdadeiro Raymond Nicholas Kienzle Jr., 7 de agosto de 1911 - 16 de junho de 1979) foi um diretor de cinema, roteirista e ator estadunidense, mais conhecido pelo filme Rebelde sem causa, de 1955.
	Pesquisar [Elia Kazan].	Elia Kazan é um diretor de cinema e teatro, produtor, roteirista e atriz norte-americano.
	Finalizado [diretor, roteirista, ator]
Qual revista foi criada primeiro, a Arthur's Magazine ou a First for Women?	Pesquisar [Arthur's Magazine].	A Arthur's Magazine (1844-1846) foi uma revista literária americana publicada na Filadélfia, EUA, no século XIX.
	Pesquisar [First for Women]	First for Women é uma revista feminina publicada nos Estados Unidos pelo Bauer Media Group[1] e foi fundada em 1989. [1] A revista foi lançada em 1989.
	Finalizar [Arthur's Magazine]
Pavel Urysohn e Leonid Levin são conhecidos pelo mesmo tipo de trabalho?	Pesquisar [Pavel Urysohn].	Pavel Samuilovich Urysohn (3 de fevereiro de 1898 - 17 de agosto de 1924) foi um matemático soviético mais conhecido por suas contribuições à teoria dos números dimensionais.
	Pesquisar [Leonid Levin].	Leonid Anatolievich Levin foi um matemático e cientista da computação soviético-americano.
	Concluído [sim]

CoT
Pergunta	Pensamento	Resposta
Qual é a faixa de elevação da área para a qual o setor leste da orogênese do Colorado se estende?	Vamos pensar passo a passo. O setor oriental da orogênese do Colorado se estende até as High Plains. A elevação das High Plains vai de cerca de 1.800 a 7.000 pés, portanto a resposta é de 1.800 a 7.000 pés. A elevação das High Plains vai de cerca de 1.800 a 7.000 pés, portanto a resposta é de 1.800 a 7.000 pés.	1.800 a 7.000 pés
A musicista e satirista Allie Goertz escreveu uma música sobre o personagem Milhouse de "Os Simpsons", que Matt Groening batizou em homenagem a quem?	Milhouse recebeu o nome do presidente dos EUA Richard Nixon, portanto a resposta é Richard Nixon.	Richard Nixon
Qual documentário é sobre grupos de rock finlandeses, Adam Clayton Powell ou The Saimaa Gesture?	Vamos pensar passo a passo. Adam Clayton Powell (filme) é um documentário sobre um político afro-americano, não sobre grupos de rock finlandeses. Adam Clayton Powell (filme) é um documentário sobre um político afro-americano, e não sobre grupos de rock finlandeses.	O gesto Saimaa
Que profissão Nicholas Ray e Elia Kazan têm em comum?	As profissões de Nicholas Ray são diretor, roteirista e ator. As profissões de Elia Kazan são diretor, produtor, roteirista e ator. As profissões de Elia Kazan são diretor, produtor e ator.	diretor, roteirista, ator
Qual revista foi criada primeiro, a Arthur's Magazine ou a First for Women?	Vamos pensar passo a passo. A Arthur's Magazine foi criada em 1844. A First for Women foi criada em 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), portanto A Arthur's Magazine foi lançada primeiro.	Revista do Arthur
Pavel Urysohn e Leonid Levin eram conhecidos pelo mesmo tipo de trabalho?	Vamos pensar passo a passo: Pavel Urysohn é matemático e Leonid Levin é matemático e cientista da computação. Portanto, Pavel Urysohn e Leonid Levin têm o mesmo tipo de trabalho.	Sim

CoT
problemas	processo de pensamento	solução
Qual é a faixa de elevação da área na qual a seção leste da orogênese do Colorado se estende?	Vamos considerar isso passo a passo. A seção leste da orogenia do Colorado se estende até as High Plains. A elevação das High Plains vai de aproximadamente 1.800 pés a 7.000 pés, portanto a resposta é 1.800 a 7.000 pés.	1.800 a 7.000 pés.
O músico e satírico Allie Goertz escreveu uma música sobre o personagem Milhouse, dos Simpsons, em homenagem a quem Matt Groening deu o nome ao personagem?	Milhouse recebeu o nome de Richard Nixon, presidente dos Estados Unidos, portanto a resposta é Richard Nixon.	Richard Nixon.
O documentário é sobre a banda de rock finlandesa Adam Clayton Powell ou The Semaja Gesture?	Vamos considerar isso passo a passo. Adam Clayton Powell (filme) é um documentário sobre um político afro-americano, não sobre uma banda de rock finlandesa. Portanto, um documentário sobre uma banda de rock finlandesa seria The Semaja Gesture.	O gesto Semaya
Que carreiras Nicholas Ray e Ilya Kazan têm em comum?	Vamos considerar isso passo a passo. A carreira de Nicholas Ray é a de diretor, roteirista e ator. A profissão de Ilya Kazan é diretor, produtor, roteirista e ator. Portanto, Nicholas Ray e Ilya Kazan compartilham a profissão de diretor, roteirista e ator.	Diretor, roteirista, ator
A Arthur's Magazine ou a First for Women foi a primeira a ser criada?	Vamos considerar isso passo a passo. A Arthur's Magazine foi fundada em 1844. A First for Women foi fundada em 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), portanto, a Arthur's Magazine foi fundada primeiro.	Revista do Arthur
Pavel Urysohn e Leonid Levin são conhecidos pelo mesmo tipo de trabalho?	Vamos considerar isso passo a passo: Pavel Urysohn é matemático, Leonid Levin é matemático e cientista da computação. Portanto, Pavel Urysohn e Leonid Levin têm o mesmo tipo de trabalho.	ser

ReAct
Pergunta	Pensamento	Ação	Observação
Qual é a faixa de elevação da área para a qual o setor leste da orogênese do Colorado se estende?	Preciso pesquisar a orogenia do Colorado, encontrar a área para a qual o setor leste da orogenia do Colorado se estende e, em seguida, encontrar a faixa de elevação da área.	Pesquisa [orogenia do Colorado].	A orogenia do Colorado foi um episódio de formação de montanhas (anorogenia) no Colorado e áreas adjacentes.
	Não menciona o setor oriental, portanto, preciso procurar o setor oriental.	Pesquisa [setor leste]	(Resultado 1 / 1) O setor oriental se estende até as planícies altas e é chamado de orogênese das planícies centrais.
	O setor leste da orogênese do Colorado se estende até as High Plains, portanto, preciso pesquisar High Plains e encontrar sua faixa de elevação.	Pesquisar [High Plains].	High Plains refere-se a uma de duas regiões terrestres distintas
	Em vez disso, preciso pesquisar High Plains (Estados Unidos).	Pesquisa[High Plains (Estados Unidos)].	As Planícies Altas são uma sub-região das Grandes Planícies. De leste a oeste, as Planícies Altas se elevam de cerca de 550 a 2.130 m (1.800 a 7.000 pés). [3]
	A elevação das High Plains vai de cerca de 1.800 a 7.000 pés, portanto a resposta é é de 1.800 a 7.000 pés.	Acabamento [1.800 a 7.000 pés]

A musicista e satirista Allie Goertz escreveu uma música sobre o personagem Milhouse de "Os Simpsons", que Matt Groening batizou em homenagem a quem?	A pergunta se resume a: "O personagem Milhouse, de Os Simpsons, tem o nome de quem? Só preciso pesquisar Milhouse e descobrir o nome dele.	Busca [Milhouse]	Milhouse Mussolini Van Houten é um personagem recorrente da série animada de televisão da Fox, Os Simpsons, dublado por Pamela Hayden e criado por Matt Groening. Os Simpsons, dublado por Pamela Hayden e criado por Matt Groening.
	O parágrafo não informa o nome de Milhouse, talvez eu possa pesquisar "named after".	Pesquisa [nomeado após]	(Resultado 1 / 1) O nome Milhouse foi dado em homenagem ao presidente dos EUA, Richard Nixon, cujo nome do meio era Milhous.
	Milhouse recebeu o nome do presidente dos EUA Richard Nixon, portanto a resposta é Richard Nixon.	Terminar [Richard Nixon]
Qual documentário é sobre grupos de rock finlandeses, Adam Clayton Powell ou The Saimaa Gesture?	Preciso pesquisar Adam Clayton Powell e The Saimaa Gesture, e descobrir qual documentário é sobre grupos de rock finlandeses.	Busca [Adam Clayton Powell]	Não foi possível encontrar [Adam Clayton Powell]. Clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell ', 'Adam Clayton Powell (filme)', 'Giancarlo Esposito'].
	Para encontrar o documentário, posso pesquisar Adam Clayton Powell (filme).	Busca [Adam Clayton Powell (filme)]	Adam Clayton Powell é um documentário estadunidense de 1989, dirigido por Richard Kilberg, sobre a ascensão e queda do influente político afro-americano Adam Clayton Powell Jr.[3][4] Posteriormente, foi ao ar como parte da série The American Experience, da PBS. O filme é sobre a ascensão e a queda do influente político afro-americano Adam Clayton Powell Jr.[3][4] Posteriormente, foi ao ar como parte da série da PBS The American Experience.
	Adam Clayton Powell (filme) é um documentário sobre um político afro-americano, e não sobre grupos de rock finlandeses. Portanto, o documentário sobre grupos de rock finlandeses deve ser The Saimaa Gesture. Portanto, o documentário sobre grupos de rock finlandeses deve ser The Saimaa Gesture.	Finalizar [O gesto Saimaa]
Que profissão Nicholas Ray e Elia Kazan têm em comum?	Preciso pesquisar Nicholas Ray e Elia Kazan, encontrar suas profissões e, em seguida, encontrar a profissão que eles têm em comum.	Busca [Nicholas Ray]	Nicholas Ray (nascido Raymond Nicholas Kienzle Jr., 7 de agosto de 1911 - 16 de junho de 1979) foi um diretor de cinema, roteirista e ator estadunidense mais conhecido pelo filme filme Rebelde sem causa, de 1955.
	As profissões de Nicholas Ray são diretor, roteirista e ator. Em seguida, preciso pesquisar Elia Kazan e encontrar suas profissões.	Pesquisar [Elia Kazan].	Elia Kazan foi um diretor, produtor, roteirista e ator americano de cinema e teatro.
	As profissões de Elia Kazan são diretor, produtor, roteirista e ator. Portanto, a profissão que Nicholas Ray e Elia Kazan têm em comum é diretor, roteirista e ator.	Finish [diretor, roteirista, ator]
Qual revista foi criada primeiro, a Arthur's Magazine ou a First for Women?	Preciso pesquisar a Arthur's Magazine e a First for Women e descobrir qual foi a primeira a ser criada.	Pesquisar [Arthur's Magazine].	A Arthur's Magazine (1844-1846) foi um periódico literário americano publicado na Filadélfia no século XIX.
	A Arthur's Magazine foi criada em 1844. Preciso pesquisar First for Women em seguida.	Pesquisar [First for Women]	First for Women é uma revista feminina publicada pelo Bauer Media Group nos EUA.[1] A revista foi criada em 1989.
	A First for Women foi iniciada em 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), portanto, a Arthur's Magazine foi iniciada primeiro .	Finalizar [Arthur's Magazine]
Pavel Urysohn e Leonid Levin eram conhecidos pelo mesmo tipo de trabalho?	Preciso pesquisar Pavel Urysohn e Leonid Levin, encontrar seus tipos de trabalho e descobrir se são os mesmos.	Pesquisar [Pavel Urysohn].	Pavel Samuilovich Urysohn (3 de fevereiro de 1898 - 17 de agosto de 1924) foi um matemático soviético mais conhecido por suas contribuições à teoria da dimensão.
	Pavel Urysohn é um matemático. Preciso pesquisar Leonid Levin e encontrar seu tipo de trabalho.	Pesquisar [Leonid Levin].	Leonid Anatolievich Levin é um matemático e cientista da computação soviético-americano.
	Leonid Levin é matemático e cientista da computação. Portanto, Pavel Urysohn e Leonid Levin têm o mesmo tipo de trabalho.	Finalização[sim]

ReAct
problemas	reflexões	ato
Qual é a faixa de elevação da região na qual se estende a seção leste do cinturão orogênico do Colorado?	Preciso pesquisar o cinturão orogênico do Colorado, encontrar a área em que a seção leste se estende e, em seguida, encontrar a faixa de elevação dessa área.	Busca [cinturão orogênico do Colorado].
	Não há menção à seção leste. Portanto, preciso procurar a seção leste.	Localizar [Setor Leste]
	A seção leste do cinturão orogênico do Colorado se estende até as High Plains. Portanto, preciso pesquisar as High Plains e encontrar sua faixa de elevação.	Pesquisar [High Plains].
	A elevação das High Plains vai de aproximadamente 1.800 pés a 7.000 pés, portanto a resposta é 1.800 pés a 7.000 pés.	Conclusão [1800 pés a 7000 pés]

A musicista e satirista Allie Goertz escreveu uma música sobre o personagem Milhouse em "Os Simpsons", em homenagem a quem Matt Groening deu o nome de Milhouse?	A pergunta é simplificada para quem é o nome do personagem Milhouse em "Os Simpsons". Só preciso pesquisar Milhouse e descobrir qual é o nome dele.	Busca [Milhouse]
	O parágrafo não diz qual é o nome do Milhouse, então talvez eu possa procurar "named after...". Nomeado após".	Encontre [nomeado após... Nome]
	Milhouse tem o nome do presidente dos EUA Richard Nixon, portanto a resposta é Richard Nixon.	Terminou [Richard Nixon]
O documentário é sobre a banda de rock finlandesa Adam Clayton Powell ou The Saimaa Gesture?	Preciso pesquisar Adam Clayton Powell e The Saimaa Gesture e descobrir qual documentário é sobre uma banda de rock finlandesa.	Busca [Adam Clayton Powell]
	Para encontrar o documentário, eu pesquisaria Adam Clayton Powell (filme).	Busca [Adam Clayton Powell (filme)]
	Adam Clayton Powell (filme) é um documentário sobre um político afro-americano, não sobre uma banda de rock finlandesa. Portanto, um documentário sobre uma banda de rock finlandesa teria de ser The Saimaa Gesture.	Finalizar [O gesto Saimaa]
Que carreiras Nicholas Ray e Elia Kazan têm em comum?	Preciso pesquisar Nicholas Ray e Elia Kazan, encontrar suas ocupações e, em seguida, descobrir quais ocupações eles têm em comum.	Busca [Nicholas Ray]
	A profissão de Nicholas Ray era diretor, roteirista e ator. Em seguida, preciso pesquisar Elia Kazan e descobrir sua ocupação.	Pesquisar [Elia Kazan].
	A profissão de Elia Kazan é diretor, produtor, roteirista e ator. Portanto, Nicholas Ray e Elia Kazan compartilham a mesma profissão de diretor, roteirista e ator.	Conclusão [diretor, roteirista, ator]
Qual revista foi criada primeiro, a Arthur's Magazine ou a First for Women?	Preciso pesquisar a Arthur's Magazine e a First for Women e descobrir qual delas começou primeiro.	Pesquisar [Arthur's Magazine].
	A Arthur's Magazine foi fundada em 1844. Preciso pesquisar First for Women em seguida.	Pesquisar [First for Women]
	A First for Women foi fundada em 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), portanto, a Arthur's Magazine foi fundada primeiro.	Finalizar [Arthur's Magazine]
Pavel Urysohn e Leonid Levin são conhecidos pelo mesmo tipo de trabalho?	Preciso pesquisar Pavel Urysohn e Leonid Levin para descobrir que tipo de trabalho eles fazem e depois descobrir se são a mesma pessoa.	Pesquisar [Pavel Urysohn].
	Pavel Urysohn é um matemático. Em seguida, preciso pesquisar Leonid Levin e descobrir que tipo de trabalho ele faz.	Pesquisar [Leonid Levin].
	Leonid Levin é matemático e cientista da computação. Portanto, Pavel Urysohn e Leonid Levin têm o mesmo tipo de trabalho.	Concluído [sim]

C.2 Conjunto de dados de extração e validação de fatos/FEVER

Prompts de FEVER

Original
Pergunta: Determine se há uma Observação que APOIE ou REFUTE uma Reivindicação, ou se NÃO HÁ INFORMAÇÕES SUFICIENTES.
Reclamação	Resposta
Nikolaj Coster-Waldau trabalhou com a Fox Broadcasting Company.	APOIOS
Stranger Things se passa em Bloomington, Indiana.	REFUTAS
Beautiful alcançou o segundo lugar na Billboard Hot 100 em 2003.	INFORMAÇÕES INSUFICIENTES

Original
PERGUNTA: Determine se há observações que apóiam ou refutam a afirmação ou se não há informações suficientes.
representações	solução
Nikolaj Coster-Waldau trabalhou com a Fox Broadcasting Co.	apoiar algo
Stranger Things se passa em Bloomington, Indiana.	retorta
A música "Beautiful" alcançou o segundo lugar na Billboard Hot 100 em 2003.	Informações insuficientes

Lei
Pergunta: Determine se há uma Observação que APOIE ou REFUTE uma Reivindicação, ou se NÃO HÁ INFORMAÇÕES SUFICIENTES.
Reclamação	Ação	Observação
Nikolaj Coster-waldau trabalhou com a Fox Broadcasting Company.	Pesquisar [Nikolaj Coster-Waldau].	Nikolaj William Coster-Waldau (nascido em 27 de julho de 1970) é um ator e produtor dinamarquês, formado pela Danish National School of Performing Arts, em Copenhague, em 1993,[1] e teve seu papel de destaque na Dinamarca com o filme Nightwatch (1994). Formou-se na Escola Nacional Dinamarquesa de Artes Cênicas em Copenhague em 1993[1] e teve seu papel de destaque na Dinamarca com o filme Nightwatch (1994). Ele interpretou Jaime Lannister na série dramática de fantasia Game of Thrones, da HBO, pela qual recebeu duas indicações ao prêmio Primetime Emmy por Melhor Ator Coadjuvante em Série Dramática. Ator Coadjuvante em Série Dramática. Coster-Waldau participou de vários filmes em sua Dinamarca natal e na Escandinávia, incluindo Headhunters (2011) e A Thousand Times Good Night (2013). . Nos Estados Unidos, seu primeiro papel no cinema foi no filme de guerra Black Hawk Down (2001), interpretando Gary Gordon, ganhador da Medalha de Honra.[2] Em seguida, interpretou um detetive na série de televisão New York City, da Fox, de curta duração. Nos EUA, seu primeiro papel no cinema foi no filme de guerra Black Hawk Down (2001), interpretando Gary Gordon, que recebeu a Medalha de Honra.[2] Em seguida, interpretou um detetive na curta série de televisão da Fox, New Amsterdam (2008), e apareceu no filme de televisão da Fox de 2009, Virtuality, originalmente planejado como um piloto.
	Acabamento [APOIA]
Stranger Things se passa em Bloomington, Indiana.	Pesquisar [Stranger Things]	Stranger Things é uma série de televisão estadunidense de ficção científica e terror dramático criada pelos irmãos Duffer. Ambientada na década de 1980, principalmente na cidade fictícia de Hawkins, Indiana, a série é centrada em vários mistérios e eventos sobrenaturais que ocorrem na cidade e seu impacto em um conjunto de personagens crianças e adultos. A série é centrada em vários mistérios e eventos sobrenaturais que ocorrem na cidade e seu impacto em um conjunto de personagens infantis e adultos.
	Acabamento [REFUTA]
Beautiful alcançou o segundo lugar na Billboard Hot 100 em 2003.	Pesquisar [Beautiful]	Não foi possível encontrar [Beautiful]. Similar: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (canção de Christina Aguilera)', 'Life Is Beautiful'].
	Busca [Beautiful (música de Christina Aguilera)	"Beautiful" é uma música gravada pela cantora americana Christina Aguilera para seu quarto álbum de estúdio, Stripped (2002).
	Pesquisa [Billboard Hot 100]	(Resultado 1 / 3) A música alcançou o segundo lugar na Billboard Hot 100 nos Estados Unidos, onde foi certificada como Ouro por 500.000 unidades vendidas.
	Finalizar [NOT ENOUGH INFO]

Lei
Problema: Determinar se uma observação apóia ou refuta uma afirmação ou se não há informações suficientes.
representações	ato	prestar atenção
Nikolaj Coster-waldau trabalhou com a Fox Broadcasting Company.	Pesquisar [Nikolaj Coster-Waldau].	Nikolaj William Coster-Waldau (nascido em 27 de julho de 1970) é um ator e produtor dinamarquês. Formou-se na Danish National Academy of Performing Arts em Copenhague em 1993,[1] e conseguiu seu papel de destaque na Dinamarca no filme Night Watch (1994). Recebeu duas indicações ao Primetime Emmy Award de Melhor Ator Coadjuvante em Série Dramática por sua interpretação de Jaime Lannister na série de fantasia da HBO Game of Thrones, pela qual recebeu duas indicações ao Primetime Emmy Award.Coster-Waldau participou de vários filmes em seu país natal, a Dinamarca, e na Escandinávia, incluindo Headhunters (2011) e A Thousand Times Goodnight (2013). Nos Estados Unidos, seu primeiro papel no cinema foi como Gary Gordon, ganhador da Medalha de Honra, no filme de guerra Black Hawk Down (2001).[2] Ele também interpretou um detetive na série de televisão de curta duração da Fox, New Amsterdam (2008), e apareceu no filme de televisão da Fox de 2009, Virtua Fighter, que foi originalmente planejado como um episódio piloto.
	Feito [suportado]
Stranger Things se passa em Bloomington, Indiana.	Pesquisar [Stranger Things]	Stranger Things é uma série dramática americana de ficção científica e terror criada pelos irmãos Duff. Ambientada na década de 1980, os episódios se passam principalmente na cidade fictícia de Hawkins, Indiana, e giram em torno de uma série de eventos misteriosos e sobrenaturais que ocorrem na cidade e seus efeitos em um grupo de crianças e personagens adultos.
	Feito [Rebuttal]
'Beautiful' alcançou o segundo lugar na Billboard Hot 100 em 2003.	Pesquisar [Beautiful]	Nenhum [Beautiful] encontrado. Similar: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (canção de Christina Aguilera)', 'Life Is Beautiful'].
	Pesquisar [Beautiful (música de Christina Aguilera)].	"Beautiful" é uma música gravada pela cantora americana Christina Aguilera para seu quarto álbum de estúdio, Stripped, lançado em 2002.
	Encontrar [Billboard Hot 100]	(Results 1 / 3) A música alcançou o segundo lugar na Billboard Hot 100 nos Estados Unidos e foi certificada como ouro com 500.000 unidades vendidas.
	Concluído [informações insuficientes]

CoT
Pergunta: Determine se há uma Observação que APOIE ou REFUTE uma Reivindicação, ou se NÃO HÁ INFORMAÇÕES SUFICIENTES.
Reclamação	Pensamento	Resposta
Nikolaj Coster-Waldau trabalhou com a Fox Broadcasting Company.	Nikolaj William Coster-Waldau participou do filme para televisão Virtuality, da Fox, em 2009, portanto, ele já trabalhou com a Fox Broadcasting Company.	APOIOS
Stranger Things se passa em Bloomington, Indiana.	Stranger Things se passa na cidade fictícia de Hawkins, Indiana, e não em Bloomington, Indiana.	REFUTAS
Beautiful alcançou o segundo lugar na Billboard Hot 100 em 2003.	A música alcançou o segundo lugar na Billboard Hot 100 nos Estados Unidos, mas não tenho certeza se foi em 2003.	INFORMAÇÕES INSUFICIENTES

COT
Problema: Determinar se há observações que apóiam ou refutam uma afirmação ou se não há informações suficientes.
ponto de vista	reflexões	solução
Nikolaj Coster-Waldau trabalhou com a Fox Broadcasting Co.	Nikolai William Coster-Waldau estrelou o filme da Fox TV de 2009, Virtual Life, portanto, ele já trabalhou com a Fox Broadcasting Company.	apoiar algo
Stranger Things se passa em Bloomington, Indiana.	Stranger Things se passa na cidade fictícia de Hawkins, Indiana, e não em Bloomington, Indiana.	retorta
A música "Beautiful" alcançou o segundo lugar na Billboard Hot 100 em 2003.	A música alcançou o segundo lugar na Billboard Hot 100, mas não se sabe ao certo se foi em 2003.	Informações insuficientes

ReAct
Pergunta: Determine se há uma Observação que APOIE ou REFUTE uma Reivindicação, ou se NÃO HÁ INFORMAÇÕES SUFICIENTES.
Reclamação	Pensamento	Ação	Observação
Nikolaj Coster-Waldau trabalhou com a Fox Broadcasting Company.	Preciso pesquisar Nikolaj Coster-Waldau e descobrir se ele já trabalhou com a Fox Broadcasting Company.	Pesquisar [Nikolaj Coster-Waldau].	Nikolaj William Coster-Waldau (nascido em 27 de julho de 1970) é um ator e produtor dinamarquês, formado pela Danish National School of Performing Arts, em Copenhague, em 1993,[1] e teve seu papel de destaque na Dinamarca com o filme Nightwatch (1994). Formou-se na Escola Nacional Dinamarquesa de Artes Cênicas em Copenhague em 1993[1] e teve seu papel de destaque na Dinamarca com o filme Nightwatch (1994). Ele interpretou Jaime Lannister na série dramática de fantasia Game of Thrones, da HBO, pela qual recebeu duas indicações ao prêmio Primetime Emmy por Melhor Ator Coadjuvante em Série Dramática. Ator Coadjuvante em Série Dramática. Coster-Waldau participou de vários filmes em sua Dinamarca natal e na Escandinávia, incluindo Headhunters (2011) e A Thousand Times Good Night (2013). . Nos Estados Unidos, seu primeiro papel no cinema foi no filme de guerra Black Hawk Down (2001), interpretando Gary Gordon, ganhador da Medalha de Honra.[2] Em seguida, interpretou um detetive na série de televisão New York City, da Fox, de curta duração. Nos EUA, seu primeiro papel no cinema foi no filme de guerra Black Hawk Down (2001), interpretando Gary Gordon, que recebeu a Medalha de Honra.[2] Em seguida, interpretou um detetive na curta série de televisão da Fox, New Amsterdam (2008), e apareceu no filme de televisão da Fox de 2009, Virtuality, originalmente planejado como um piloto.
	Como ele "apareceu no filme de televisão da Fox de 2009, Virtuality", ele deveria ter trabalhado com a Fox Broadcasting Company.	Acabamento [APOIA]
Stranger Things se passa em Bloomington, Indiana.	Eu deveria pesquisar Stranger Things e ver se ele se passa em Bloomington, Indiana.	Pesquisar [Stranger Things]	Stranger Things é uma série de televisão estadunidense de ficção científica e terror dramático criada pelos irmãos Duffer. Ambientada na década de 1980, principalmente na cidade fictícia de Hawkins, Indiana, a série é centrada em vários mistérios e eventos sobrenaturais que ocorrem na cidade e seu impacto em um conjunto de personagens crianças e adultos. A série é centrada em vários mistérios e eventos sobrenaturais que ocorrem na cidade e seu impacto em um conjunto de personagens infantis e adultos.
	A observação diz que ele se passa em uma "cidade fictícia de Hawkins, Indiana", portanto não se passa em Bloomington.	Acabamento [REFUTA]
Beautiful alcançou o segundo lugar na Billboard Hot 100 em 2003.	Preciso pesquisar a música Beautiful e descobrir se ela alcançou o segundo lugar na Billboard Hot 100 em 2003.	Pesquisar [Beautiful]	Não foi possível encontrar [Beautiful]. Similar: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (canção de Christina Aguilera)', 'Life Is Beautiful'].
	De acordo com as sugestões, eu deveria pesquisar "Beautiful (Christina Aguilera song)" para encontrar a música.	Pesquisar [Beautiful (música de Christina Aguilera)].	"Beautiful" é uma música gravada pela cantora americana Christina Aguilera para seu quarto álbum de estúdio, Stripped (2002).
	Não menciona a Billboard, portanto, preciso pesquisar a "Billboard Hot 100" para descobrir se alcançou a segunda posição em 2003.	Pesquisa [Billboard Hot 100]	(Resultado 1 / 3) A música alcançou o segundo lugar na Billboard Hot 100 nos Estados Unidos, onde foi certificada como Ouro por 500.000 unidades vendidas.
	Ele diz apenas que a música alcançou o segundo lugar na Billboard Hot 100, mas não diz se foi em 2003. Não tenho certeza se essa afirmação é verdadeira ou não.	Finalizar [NOT ENOUGH INFO]

ReAct
PERGUNTA: Determine se há observações que apóiam ou refutam uma afirmação ou se não há informações suficientes.
representações	reflexões	ato	prestar atenção
Nikolaj Coster-Waldau trabalhou com a Fox Broadcasting Co.	Preciso pesquisar Nikolaj Coster-Waldau para descobrir se ele trabalhou com a Fox Broadcasting.	Pesquisar [Nikolaj Coster-Waldau].	Nikolaj Wilhelm Koster-Waldau (nascido em 27 de julho de 1970) é um ator e produtor dinamarquês. Ele se formou na Danish National Academy of Performing Arts em Copenhague em 1993,[1] e conseguiu seu papel de destaque na Dinamarca com o filme Night Shift, de 1994. Recebeu duas indicações ao prêmio Primetime Emmy de Melhor Ator Coadjuvante em Série Dramática por seu papel como Jaime Lannister na série de fantasia da HBO Game of Thrones. Koster-Waldau participou de vários filmes em seu país natal, a Dinamarca e a Escandinávia, incluindo Headhunters (2011) e A Thousand Times Goodnight (2013). Nos Estados Unidos, seu primeiro papel no cinema foi como o ganhador da Medalha de Honra Gary Gordon no filme de guerra Black Hawk Down (2001). [2] Ele interpretou um detetive no programa de desenho da Fox, New Amsterdam (2008), e apareceu no filme da Fox de 2009, Virtual Worlds, que foi originalmente produzido como um episódio piloto.
	Como ele estrelou o "2009 Fox TV movie Virtua Fighter", ele teria trabalhado com a Fox Broadcasting.	Feito [suportado]
Stranger Things se passa em Bloomington, Indiana.	Eu deveria pesquisar Stranger Things para ver se ele se passa em Bloomington, Indiana.	Procure por [Stranger Things].	Stranger Things é uma série dramática americana de ficção científica e terror criada pelos irmãos Duff. Ambientada na década de 1980, principalmente na cidade fictícia de Hawkins, Indiana, a série gira em torno de uma série de eventos misteriosos e sobrenaturais que ocorrem na cidade e seus efeitos em um grupo de crianças e personagens adultos.
	As observações indicam que ele se passa na "cidade fictícia de Hawkins, Indiana", portanto não se passa em Bloomington.	Feito [Rebuttal]
Beautiful alcançou o segundo lugar na Billboard Hot 100 em 2003.	Preciso pesquisar a música Beautiful e descobrir se ela alcançou a segunda posição na Billboard Hot 100 em 2003.	Pesquisar [Beautiful]	['Beautiful'] não foi encontrado. Similar: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (filme) ', 'Beautiful (canção de Christina Aguilera)', 'Life Is Beautiful'].
	De acordo com as sugestões, eu deveria ter pesquisado "Beautiful", música de Christina Aguilera, para encontrar essa música.	Pesquise [a música "Beautiful" de Christina Aguilera].	"Beautiful" é uma música gravada pela cantora americana Christina Aguilera para seu quarto álbum de estúdio, Stripped, lançado em 2002.
	Não menciona a Billboard, portanto, eu precisaria pesquisar a "Billboard Hot 100" para ver se ela alcançou a segunda posição em 2003.	Encontrar [Billboard Hot 100]	(Results 1 / 3) A música alcançou o segundo lugar na Billboard Hot 100 nos Estados Unidos, onde foi certificada como ouro por 500.000 unidades.
	Ele menciona apenas que a música alcançou a segunda posição na Billboard Hot 100, mas não se foi em 2003. Não tenho certeza se essa afirmação é verdadeira ou não.	Concluído [informações insuficientes]

C.3 Compras pela Internet

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande-11

Tabela 6: Prompts usados no Capítulo 4 para o experimento da loja on-line. Usamos as dicas à esquerda para ação (Act) e as dicas à direita (adicionando raciocínio) para reação (ReAct).

Instruções:Eu gostaria de um frasco de 3 oz de desodorante com aroma cítrico brilhante para pele sensível por menos de US$ 50,00!
Lei		ReAct
movimento	prestar atenção	movimento	prestar atenção
Procure por [Desodorante com fragrância cítrica brilhante de 3 oz para pele sensível].	[Voltar à pesquisa] Página 1 (Total de resultados: 50) [Próximo][B078GWRC1J] Desodorante cítrico brilhante da Earth Mama \| Natural e para Pele sensível, gravidez e amamentação com produtos orgânicos Marigold Flower 3 oz $10.99 [b078gtkvxy] Desodorante Ginger Fresh da Earth Mama \| Natural e adequado para Pele sensível, gravidez e amamentação com produtos orgânicos Marigold Flower 3 oz $10.99[b08kbvj4xn] Barrel and Oak - Desodorante sem alumínio para homens Aroma à base de óleo essencial, proteção contra odores por 24 horas, Cedarwood As misturas de Patchouli são suaves para peles sensíveis (Mt sage. (2,7 oz, 2 frascos) $15.95	Search Desodorante com aroma cítrico brilhante de 3 oz para pele sensível	[Voltar à pesquisa] Página 1 (Total de resultados: 50) [Próximo][B078GWRC1J] Desodorante cítrico brilhante da Earth Mama \| Natural e para Pele sensível, gravidez e amamentação com produtos orgânicos Marigold Flower 3 oz $10.99 [b078gtkvxy] Desodorante Ginger Fresh da Earth Mama \| Natural e adequado para Pele sensível, gravidez e amamentação com produtos orgânicos Marigold Flower 3 oz $10.99[b08kbvj4xn] Barrel and Oak - Desodorante sem alumínio para homens Aroma à base de óleo essencial, proteção contra odores por 24 horas, Cedarwood As misturas de Patchouli são suaves para peles sensíveis (Mt sage. (2,7 oz, 2 frascos) $15.95
Clique em [B078GWRC1J].	Voltar para a pesquisa na página anterior Fragrância [Vários aromas] [Citrus brilhante] [Lavanda suave] Gengibre [Refrescante] Simplesmente sem perfume] Tamanho [Conjunto de viagem (4 frascos)] [3 oz (1 frasco)] [3 oz (2 frascos) Frasco)]. O desodorante Bright Citrus da Earth Mama é natural e adequado para Pele sensível, gravidez e amamentação com produtos orgânicos Marigold Flower 3 oz Preço: $10.99 Classificação: N.A. [Descrição] [Recursos] [Revisão] [Compre agora]	Considerações [B078GWRC1J e B078GTKVXY são desodorantes com aroma cítrico brilhante por menos de US$ 50. Talvez eu verifique primeiro o B078GWRC1J].	Está bem.
Clique em [bright citrus].	Você clicou em Bright Citrus.	Clique em [B078GWRC1J].	[Voltar à busca][Anterior] Fragrância [Vários aromas] [Citrus brilhante] [Lavanda suave] Gengibre [Refrescante] Simplesmente sem perfume] Tamanho [Conjunto de viagem (4 frascos)] [3 oz (1 frasco)] [3 oz (2 frascos) Frasco)]. O desodorante Bright Citrus da Earth Mama é natural e adequado para Pele sensível, gravidez e amamentação com produtos orgânicos Marigold Flower 3 oz Preço: $10.99 Classificação: N.A. [Descrição] [Recursos] [Revisão] [Compre agora]
Clique em [3 oz (1 frasco)].	Você clicou em 3 oz (1 frasco).	Considerações [Para o frasco de 3 oz do desodorante perfumado Bright Citrus para peles sensíveis, o item está disponível nas opções "Bright Citrus" e "3 oz (1 frasco)", que parece que pode ser comprado].	Está bem.
Clique em [Comprar agora].		Clique em [bright citrus].	Você clicou em Bright Citrus.
		Clique em [3 oz (1 frasco)].	Você clicou em 3 oz (1 frasco).

C.4 ALFWORLD

O simulador ALFWORLD, um ambiente com mais de 25.000 tarefas exclusivas, geradas por procedimentos, que abrangem ambientes reais, como cozinhas, salas de estar, quartos e muito mais.

Você está no meio de uma sala e, olhando rapidamente ao seu redor, vê um armário
13, um gabinete 12, um gabinete 11, um gabinete 10, um gabinete 9, um gabinete 8, um gabinete
7, um gabinete 6, um gabinete 5, um gabinete 4, um gabinete 3, um gabinete 2, um gabinete
1, uma máquina de café 1, uma bancada 1, uma mesa de jantar 1, uma gaveta 1, uma geladeira 1, um
cesto de lixo 1, um micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, uma pia 1, uma
um queimador de fogão 4, um queimador de fogão 3, um queimador de fogão 2, um queimador de fogão 1 e uma torradeira 1.
Sua tarefa é: colocar uma alface limpa na mesa de jantar.
> ir para a geladeira 1
A geladeira 1 está fechada.
> abrir a geladeira 1
Você abre a geladeira 1. A geladeira 1 está aberta. Nela, você vê uma xícara 3, um ovo 2, um
batata 3 e uma batata 2.
> ir para a mesa de jantar 1
Na mesa de jantar 1, você vê uma maçã 1, um pão 1, um canivete 2, uma xícara 2, um
garfo 2, uma faca 2, uma faca 1, uma concha 1, uma alface 1, uma caneca 2, uma caneca 1, uma panela 2, uma
um pimenteiro 1, uma espátula 3, um tomate 2 e um tomate 1.
> pegue a alface 1 da mesa de jantar 1
Você pega a alface 1 da mesa de jantar 1.
> go to sinkbasin 1
Na pia 1, você vê uma maçã 2, uma concha 2, uma colher 1 e um tomate 3.
> limpe a alface 1 com a pia 1
Limpe a alface 1 usando a pia 1.
> Agora eu limpo uma alface (1). Em seguida, preciso colocá-la na/sobre a mesa de jantar 1.
OK.
> ir para a mesa de jantar 1
Na mesa de jantar 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo
2, uma faca 2, uma faca 1, uma concha 1, uma caneca 2, uma caneca 1, uma frigideira 2, um pimenteiro 1, um
espátula 3, um tomate 2 e um tomate 1.
> colocar a alface 1 na/sobre a mesa de jantar 1
Você coloca a alface 1 na/sobre a mesa de jantar 1.

Tabela 7: Dicas de ação para a tarefa de limpeza do ALFWorld. Nenhuma ideia foi fornecida.

Você está no meio de uma sala. Olhando rapidamente ao redor, você vê um armário
13, gabinete 12, gabinete 11, gabinete 10, gabinete 9, gabinete 8, gabinete
7, gabinete 6, gabinete 5, gabinete 4, gabinete 3, gabinete 2, gabinete
1, 1 cafeteira, 1 bancada, 1 mesa de jantar, 1 gaveta, 1 geladeira,
1 lixeira, 1 micro-ondas, 3 prateleiras, 2 racks, 1 prateleira, 1 pia,
Fogão 4, Fogão 3, Fogão 2, Fogão 1 e Torradeira 1.
Sua tarefa: colocar alface limpa sobre a mesa.
> Ir para a geladeira 1
O refrigerador 1 está fechado.
> Abra a geladeira 1
Você abre a geladeira 1. A geladeira 1 está aberta. Nela, você pode ver uma xícara 3, um ovo 2, um
3 batatas, 2 batatas.
> Ir para a tabela 1
Na mesa 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um
Garfo 2, faca 2, faca 1, colher de cabo longo 1, alface 1, xícara 2, caneca 1, panela 2,
1 pimenteiro, 3 espátulas, 2 tomates, 1 tomate.
> Alface 1 da tabela 1
Você pega a alface 1 da mesa 1.
> Ir para o sumidouro 1
Na pia 1, você pode ver uma maçã 2, uma colher de cabo longo 2, uma colher 1 e um tomate 3.
> 1 lavadora de alface, 1 com pia
Você usa a pia 1 para lavar a alface 1.
> Pense: Agora eu lavo uma alface (1). Em seguida, preciso colocá-la na/sobre a Tabela 1.
Está bem.
> Ir para a tabela 1
Na mesa 1, você pode ver a maçã 1, o pão 1, a faca de manteiga 2, a xícara 2, o garfo
2, faca 2, faca 1, colher de cabo longo 1, xícara 2, caneca 1, panela 2, pimenteiro 1,
3 espátulas, 2 tomates, 1 tomate.
> Coloque a alface 1 na/sobre a mesa 1
Você coloca a alface 1 na mesa 1.

Você está no meio de uma sala e, olhando rapidamente ao seu redor, vê um armário
13, um gabinete 12, um gabinete 11, um gabinete 10, um gabinete 9, um gabinete 8, um gabinete
7, um gabinete 6, um gabinete 5, um gabinete 4, um gabinete 3, um gabinete 2, um gabinete
1, uma máquina de café 1, uma bancada 1, uma mesa de jantar 1, uma gaveta 1, uma geladeira 1, um
cesto de lixo 1, um micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, uma pia 1, uma
um queimador de fogão 4, um queimador de fogão 3, um queimador de fogão 2, um queimador de fogão 1 e uma torradeira 1.
Sua tarefa é: colocar uma alface limpa na mesa de jantar.
> Pense: para resolver a tarefa, preciso encontrar e pegar uma alface e, em seguida, limpá-la com
pia e, em seguida, coloque-o na mesa de jantar.
OK.
> Primeiro, preciso encontrar uma alface. É mais provável que uma alface apareça em
geladeira (1), mesa de jantar (1), pia (1), queimador de fogão (1-3), armário (1-13). I
podem ser verificados um a um, começando pela geladeira 1.
OK.
> ir para a geladeira 1
A geladeira 1 está fechada.
> abrir a geladeira 1
Você abre a geladeira 1. A geladeira 1 está aberta. Nela, você vê uma xícara 3, um ovo 2, um
batata 3 e uma batata 2.
> ir para a mesa de jantar 1
Na mesa de jantar 1, você vê uma maçã 1, um pão 1, um canivete 2, uma xícara 2, um
garfo 2, uma faca 2, uma faca 1, uma concha 1, uma alface 1, uma caneca 2, uma caneca 1, uma panela 2, uma
um pimenteiro 1, uma espátula 3, um tomate 2 e um tomate 1.
> Agora encontrei uma alface (1). Em seguida, preciso pegá-la.
OK.
> pegue a alface 1 da mesa de jantar 1
Você pega a alface 1 da mesa de jantar 1.
> Pense: Agora vou pegar uma alface (1). Em seguida, preciso ir até a pia (1) e limpar
Isso.
OK.
> go to sinkbasin 1
Na pia 1, você vê uma maçã 2, uma concha 2, uma colher 1 e um tomate 3.
> limpe a alface 1 com a pia 1
Limpe a alface 1 usando a pia 1.
> Agora eu limpo uma alface (1). Em seguida, preciso colocá-la na/sobre a mesa de jantar 1.
OK.
> ir para a mesa de jantar 1
Na mesa de jantar 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo
2, uma faca 2, uma faca 1, uma concha 1, uma caneca 2, uma caneca 1, uma frigideira 2, um pimenteiro 1, um
espátula 3, um tomate 2 e um tomate 1.
> colocar a alface 1 na/sobre a mesa de jantar 1
Você coloca a alface 1 na/sobre a mesa de jantar 1.

Tabela 8: Alertas de ação do ReAct para a tarefa de limpeza do ALFWorld.

Você está no centro de uma sala. Olhando rapidamente ao redor, você vê um armário 13, um armário 12, um armário 11, um armário 10, um armário 9, um armário 8, um armário 7, um armário 6, um armário 5, um armário 4, um armário 3, um armário 2 e um armário 1, uma cafeteira 1, uma bancada 1, uma mesa de jantar 1, uma cômoda 1, uma geladeira 1 e uma lixeira 1, Um micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, um lavatório 1, um fogão 4, um fogão 3, um fogão 2, um fogão 1 e uma torradeira 1.
Sua tarefa: colocar uma alface limpa sobre a mesa.
> Pense: Para resolver esta tarefa, preciso encontrar e pegar uma alface, depois lavá-la na pia e, por fim, colocá-la na mesa.
Está bem.
> Pense: Primeiro preciso encontrar uma alface. É mais provável que a alface esteja na geladeira (1), na mesa de jantar (1), na pia (1), no fogão (1-3) e nos armários (1-13). Posso verificá-los um a um, começando pela geladeira 1.
Está bem.
> Vá para a geladeira 1
O refrigerador 1 está fechado.
> Abra a geladeira 1
Você abre a geladeira 1. A geladeira 1 está aberta. Dentro dela, você vê uma xícara 3, um ovo 2, uma batata 3 e uma batata 2.
> Ir para a tabela 1
Na mesa 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo 2, uma faca 2, um cortador 1, uma colher 1, uma espátula 1, uma alface 1, uma caneca 2, uma caneca 1, uma panela 2, um pimenteiro 1, uma colher 3, um tomate 2 e um tomate 1.
> Pense: Agora encontrei uma alface (1). Em seguida, preciso levá-la embora.
Está bem.
> Pegue a alface 1 da tabela 1
Você pega a alface 1 da mesa 1.
> Pense: Agora peguei uma alface (1). Em seguida, preciso ir até a pia (1) para lavá-la.
Está bem.
> Ir para o lavatório 1
Na pia 1, você vê uma maçã 2, uma espátula 2, uma colher 1 e um tomate 3.
> Lavar alface em uma pia 1 1
Você lavou a alface 1 na pia 1.
> Pense: Agora limpei uma alface (1). Em seguida, preciso colocá-la na tabela /up.
Está bem.
> Ir para a tabela 1
Na mesa 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo 2, uma faca 2, uma faca 1, uma colher 1, uma caneca 2, uma caneca 1, uma panela 2, um pimenteiro 1, uma colher 3, um tomate 2 e um tomate 1.
> Colocar a alface 1 na mesa ou em cima dela
Você coloca a alface 1 na tabela 1.

Você está no meio de uma sala e, olhando rapidamente ao seu redor, vê um armário
13, um gabinete 12, um gabinete 11, um gabinete 10, um gabinete 9, um gabinete 8, um gabinete
7, um gabinete 6, um gabinete 5, um gabinete 4, um gabinete 3, um gabinete 2, um gabinete
1, uma máquina de café 1, uma bancada 1, uma mesa de jantar 1, uma gaveta 1, uma geladeira 1, um
cesto de lixo 1, um micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, uma pia 1, uma
um queimador de fogão 4, um queimador de fogão 3, um queimador de fogão 2, um queimador de fogão 1 e uma torradeira 1.
Sua tarefa é: colocar uma alface limpa na mesa de jantar.
> Pense: para resolver a tarefa, preciso encontrar e pegar uma alface e, em seguida, limpá-la com
pia e, em seguida, coloque-o na mesa de jantar.
OK.
> Primeiro, preciso encontrar uma alface.
OK.
> ir para a geladeira 1
A geladeira 1 está fechada.
> Primeiro, preciso encontrar uma alface.
OK.
> abrir a geladeira 1
Você abre a geladeira 1. A geladeira 1 está aberta. Nela, você vê uma xícara 3, um ovo 2, um
batata 3 e uma batata 2.
> Primeiro, preciso encontrar uma alface.
OK.
> ir para a mesa de jantar 1
Na mesa de jantar 1, você vê uma maçã 1, um pão 1, um canivete 2, uma xícara 2, um
garfo 2, uma faca 2, uma faca 1, uma concha 1, uma alface 1, uma caneca 2, uma caneca 1, uma panela 2, uma
um pimenteiro 1, uma espátula 3, um tomate 2 e um tomate 1.
> Primeiro, preciso encontrar uma alface.
OK.
> pegue a alface 1 da mesa de jantar 1
Você pega a alface 1 da mesa de jantar 1.
> pense: preciso limpar essa alface (1) usando o lavatório 1.
OK.
> go to sinkbasin 1
Na pia 1, você vê uma maçã 2, uma concha 2, uma colher 1 e um tomate 3.
> pense: preciso limpar essa alface (1) usando o lavatório 1.
OK.
> limpe a alface 1 com a pia 1
Limpe a alface 1 usando a pia 1.
> pense: preciso colocar essa alface limpa (1) na/sobre a mesa de jantar 1.
OK.
> ir para a mesa de jantar 1
Na mesa de jantar 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo
2, uma faca 2, uma faca 1, uma concha 1, uma caneca 2, uma caneca 1, uma frigideira 2, um pimenteiro 1, um
espátula 3, um tomate 2 e um tomate 1.
> pense: preciso colocar essa alface limpa (1) na/sobre a mesa de jantar 1.
OK.
> colocar a alface 1 na/sobre a mesa de jantar 1
Você coloca a alface 1 na/sobre a mesa de jantar 1.

Tabela 9: Prompts de ação do ReAct-IM para a tarefa de limpeza do ALFWorld.

Você está no centro de uma sala. Olhando rapidamente ao redor, você vê um armário 13, um armário 12, um armário 11, um armário 10, um armário 9, um armário 8, um armário 7, um armário 6, um armário 5, um armário 4, um armário 3, um armário 2, um armário 1, uma cafeteira 1, uma bancada 1, uma mesa de jantar 1, uma cômoda 1, uma geladeira 1, uma lixeira 1, o micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, uma pia 1, um queimador de fogão 4, um queimador de fogão 3, um queimador de fogão 2, um queimador de fogão 1 e uma torradeira 1.
Sua tarefa: colocar uma alface limpa sobre a mesa.
> Pense: Para resolver esta tarefa, preciso encontrar e pegar uma alface e depois lavá-la na pia antes de colocá-la na mesa.
Está bem.
> Pense: Primeiro, preciso encontrar uma alface.
Está bem.
> Vá para a geladeira 1
O refrigerador 1 está fechado.
> Pense: Primeiro, preciso encontrar uma alface.
Está bem.
> Abra a geladeira 1
Você abriu a geladeira 1. A geladeira 1 agora está aberta. Na geladeira, você vê uma xícara 3, um ovo 2, uma batata 3 e uma batata 2.
> Pense: Primeiro, preciso encontrar uma alface.
Está bem.
> Ir para a tabela 1
Na mesa 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo 2, uma faca 2, uma faca 1, uma colher 1, uma espátula 1, uma alface 1, uma caneca 2, uma caneca 1, uma panela 2, um pimenteiro 1, uma espátula 3, um tomate 2 e um tomate 1.
> Pense: Primeiro, preciso encontrar uma alface.
Está bem.
> Remover a alface 1 da tabela 1
Você pega a alface 1 da mesa 1.
> Pense: Preciso usar a pia 1 para lavar essa alface (1).
Está bem.
> Ir para o lavatório 1
Na pia 1, você vê uma maçã 2, uma espátula 2, uma colher 1 e um tomate 3.
> Pense: Preciso usar a pia 1 para lavar essa alface (1).
Está bem.
> Uso de bacia sanitária 1 Lavagem de alface 1
Você usou o lavatório 1 para lavar a alface 1.
> PENSAMENTO: Preciso colocar essa alface já lavada (1) sobre a mesa.
Está bem.
> Ir para a tabela 1
Na mesa 1, você vê uma maçã 1, um pão 1, uma faca de manteiga 2, uma xícara 2, um garfo 2, uma faca 2, uma faca 1, uma colher 1, uma caneca 2, uma caneca 1, uma panela 2, um pimenteiro 1, uma espátula 3, um tomate 2 e um tomate 1.
> PENSAMENTO: Preciso colocar essa alface já lavada (1) sobre a mesa.
Está bem.
> Coloque a alface 1 na mesa
Você coloca a alface 1 na mesa.

D Trajetória

D.1 Trajetória da FEVER

Fornecemos algumas trajetórias geradas pelo ReAct, CoT e Act, e abaixo estão alguns exemplos selecionados aleatoriamente do conjunto de desenvolvimento do FEVER. Os resultados da pesquisa foram omitidos para economizar espaço.

Exemplo 2491 (resposta padrão: refutação)

ReAct
Alegação: O Triângulo das Bermudas é uma região vagamente definida no Oceano Pacífico.
Pensamento 1: Preciso pesquisar o Triângulo das Bermudas e descobrir se ele está no Oceano Pacífico.
Ação 1: Search[Triângulo das Bermudas] Observação 1: Locais supostamente assombrados...
Pensamento 2: A observação diz que ela está na parte oeste do Atlântico Norte
Portanto, não está no Oceano Pacífico.
Ação 2: Terminar[REFUTES] Observação 2: Episódio concluído
Lei
Alegação: O Triângulo das Bermudas é uma região vagamente definida no Oceano Pacífico.
Ação 1: Pesquisar o Triângulo das Bermudas Observação 1 : Locais supostamente assombrados:...
Ação 2: Terminar[REFUTES] Observação 2: Episódio concluído
CoT
Alegação: O Triângulo das Bermudas é uma região vagamente definida no Oceano Pacífico.
Pensamento: Vamos pensar passo a passo. O Triângulo das Bermudas é uma região vagamente definida
O Oceano Pacífico não é o Oceano Atlântico.
Resposta: REFUTES

ReAct

Isenção de responsabilidade: O Triângulo das Bermudas é uma área vagamente definida no Oceano Pacífico.

Pense 1: Preciso pesquisar o Triângulo das Bermudas para descobrir se ele está localizado no Oceano Pacífico.

Ação 1: Pesquisar [Triângulo das Bermudas]
Observação 1: Esses são alguns dos locais supostamente assombrados...

Reflexão 2: As observações mostram que ele está localizado na parte oeste do Atlântico Norte, portanto não está no Oceano Pacífico.

Ação 2: Conclusão [refutada]
Observação 2: Fim do episódio

Lei

Isenção de responsabilidade: O Triângulo das Bermudas é uma área vagamente definida no Oceano Pacífico.

Ação 1: Pesquisar [Triângulo das Bermudas]
Observação 1: Estes são alguns dos locais supostamente assombrados:...

Ação 2: Conclusão [refutada]
Observação 2: Fim do episódio

CoT (processo de pensamento)

Isenção de responsabilidade: O Triângulo das Bermudas é uma área vagamente definida no Oceano Pacífico.

Pense: Vamos dar um passo de cada vez. O Triângulo das Bermudas é uma área vagamente definida do Oceano Atlântico. O Oceano Pacífico não é o Oceano Atlântico.

Resposta: refute

Por meio desse processo de raciocínio lógico, podemos concluir que o Triângulo das Bermudas está de fato localizado no Oceano Atlântico, e não no Oceano Pacífico. Essa conclusão se baseia no conhecimento e na confirmação da localização geográfica do Triângulo das Bermudas. O Triângulo das Bermudas é conhecido por seus misteriosos desaparecimentos e lendas, mas a precisão da localização geográfica é igualmente importante para evitar desinformação e confusão.

Exemplo 5908 (Resposta padrão: Suporte)

ReAct
Alegação: Princesa Mononoke é um filme.
Pensamento 1: Preciso pesquisar Princess Mononoke e descobrir se é um filme.
Ação 1: Search[Princess Mononoke] Observação 1: Princesa Mononoke ...
Pensamento 2: Pela observação, diz-se que Princesa Mononoke é um filme.
Ação 2: Terminar[SUPPORTS] Observação 2: Episódio concluído
Lei
Alegação: Princesa Mononoke é um filme.
Ação 1: Search[Princess Mononoke] Observação 1: Princesa Mononoke ...
Ação 2: Terminar[SUPPORTS] Observação 2: Episódio concluído
CoT
Alegação: Princesa Mononoke é um filme.
Pensamento: Vamos pensar passo a passo. Princesa Mononoke é um filme, e filmes são
filmes.
Resposta: SUPPORTS

ReAct
Isenção de responsabilidade: The Princess of Neuzarka é um filme.
Ideia nº 1: Preciso pesquisar The Princess of Neuzarka para ver se é um filme.
Ação 1: Search for [The Princess of Neuzarka] (Procurar a Princesa de Neuzarka) Observação 1: A Princesa de Neuzarka...
Ideia 2: A partir da observação, The Princess of Neuzarka é um filme.
Ação 2: Conclusão [Suporte] Observação 2: Conclusão deste episódio
Lei
Isenção de responsabilidade: The Princess of Neuzarka é um filme.
Ação 1: Search for [The Princess of Neuzarka] (Procurar a Princesa de Neuzarka) Observação 1: A Princesa de Neuzarka...
Ação 2: Conclusão [Suporte] Observação 2: Conclusão deste episódio
CoT
Isenção de responsabilidade: The Princess of Neuzarka é um filme.
Ideia: vamos pensar em um passo de cada vez. A Princesa de Neuzarka é um filme, e um filme é um filme.
Resposta: Suporte

Exemplo 1951 (Resposta padrão: refutação)

ReAct
Alegação: A Soyuz fazia parte do programa espacial americano.
Pensamento 1: Preciso pesquisar a Soyuz e descobrir se ela fazia parte do programa espacial americano
programa.
Ação 1: Search[Soyuz] Observação 1: Soyuz é uma transliteração...
Pensamento 2: Não menciona o programa espacial americano, portanto, preciso pesquisar
"Programa espacial americano" para descobrir se fazia parte dele.
Ação 2: Pesquisar [programa espacial americano] Observação 2: A política espacial...
Conclusão 3: Não menciona a Soyuz, portanto, não tenho certeza se essa afirmação é verdadeira ou não.
Ação 3: Terminar[NOT ENOUGHH INFO] Observação 3: Episódio concluído
Lei
Alegação: A Soyuz fazia parte do programa espacial americano.
Ação 1: Search[Soyuz] Observação 1: Soyuz é uma transliteração...
Ação 2: Terminar[NOT ENOUGH INFO] Observação 2: Episódio concluído
CoT
Alegação: A Soyuz fazia parte do programa espacial americano.
Pensamento: Vamos pensar passo a passo. A Soyuz é uma espaçonave russa.
O programa espacial é da NASA. juntos no
Estação Espacial Internacional.
Resposta: SUPPORTS

ReAct
Isenção de responsabilidade: a Soyuz faz parte do programa espacial dos EUA.
Pensamento 1: Preciso pesquisar a Soyuz para descobrir se ela faz parte do programa espacial dos EUA.
Ação 1: Procurar por [Soyuz]. Observação 1: Soyuz é uma palavra fonética...
Pense 2: Não há menção ao programa espacial dos EUA, portanto, preciso pesquisar "programa espacial dos EUA" para descobrir se ele faz parte do programa.
Ação 2: Pesquisar [Programa Espacial dos EUA] Observação 2: Política espacial...
Conclusão 3: Não há menção à Soyuz, portanto, não tenho certeza se essa afirmação é verdadeira ou não.
Ação 3: Fechar [informações insuficientes] Observação 3: Encerramento
Lei
Isenção de responsabilidade: a Soyuz faz parte do programa espacial dos EUA.
Ação 1: Procurar por [Soyuz]. Observação 1: Soyuz é uma palavra fonética...
Ação 2: Encerramento [informações insuficientes] Observação 2: Encerramento
CoT
Isenção de responsabilidade: a Soyuz faz parte do programa espacial dos EUA.
Pense: Vamos pensar passo a passo. A Soyuz é uma espaçonave russa. O programa espacial dos EUA é da NASA. A NASA e a Rússia cooperam na Estação Espacial Internacional.
Resposta: Suporte

Exemplo 3208 (Resposta padrão: refutação)

ReAct
Alegação: Reign Over Me é um filme estadunidense feito em 2010.
Pensamento 1: Preciso pesquisar Reign Over Me e descobrir se é um filme americano feito
em 2010.
Ação 1: Search[Reign Over Me] Observação 1: Reign Over Me ...
Pensamento 2: A observação diz que é um filme americano feito em 2007, portanto não é
feito em 2010.
Ação 2: Terminar[REFUTES] Observação 2: Episódio concluído
Lei
Alegação: Reign Over Me é um filme estadunidense feito em 2010.
Ação 1: Procurar [Reign Over Me] Ação 2: Terminar[SUPPORTS] Observação 2: Episódio concluído
CoT
Alegação: Reign Over Me é um filme estadunidense feito em 2010.
Vamos pensar passo a passo. Primeiro, Reign Over Me é um filme americano? Sim, é.
Segundo, ele foi feito em 2010? Sim, foi.
Resposta: SUPPORTS

ReAct
Isenção de responsabilidade: Reign Over Me é um filme americano realizado em 2010.
Ideia 1: Preciso pesquisar Reign Over Me para confirmar se é um filme americano feito em 2010.
Ação 1: Search for [Reign Over Me] (Procurar por [Reign Over Me]) Observação 1: Reign Over Me...
Ideia 2: As observações mostram que se trata de um filme americano feito em 2007, portanto não foi feito em 2010.
Ação 2: Fechar [refutado] Observação 2: Fim
Lei
Isenção de responsabilidade: Reign Over Me é um filme americano realizado em 2010.
Ação 1: Search [Reign Over Me] (Procurar [Reinar sobre mim]) Ação 2: Terminar [Support] Observação 2: Finalizar
CoT
Isenção de responsabilidade: Reign Over Me é um filme americano realizado em 2010.
Reflexões: vamos dar um passo de cada vez. Em primeiro lugar, Reign Over Me é um filme americano? Sim, é. Em segundo lugar, ele foi feito em 2010? Sim, foi.
Resposta: Suporte

D.2 Trajetórias do ALFWORLD

Fornecemos exemplos de trajetórias para ReAct, Act e ReAct-IM no mesmo jogo ALFWorld, pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754.

D.2.1 Trajetórias REACT

A ReAct conseguiu localizar corretamente a faca, limpá-la e colocá-la sobre a bancada.

Trajetória do ReAct ALFWorld

Você está no meio de uma sala. Olhando rapidamente ao seu redor, você vê um armário 6, um
gabinete 5, um gabinete 4, um gabinete 3, um gabinete 2, um gabinete 1, uma máquina de café 1, uma
countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a
geladeira 1, um cesto de lixo 1, um micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, um lavatório
1, um queimador de fogão 4, um queimador de fogão 3, um queimador de fogão 2, um queimador de fogão 1 e uma torradeira
1.
Sua tarefa é: colocar uma faca limpa na bancada.
> Pense: para resolver a tarefa, preciso encontrar e pegar uma faca e depois limpá-la com
pia e, em seguida, coloque-o na bancada.
OK.
> Primeiro, preciso encontrar uma faca. É mais provável que uma faca apareça no armário
(1-6), gaveta (1-3), bancada (1-3), geladeira (1), lixeira (1), prateleira (1-3),
pia (1), queimador de fogão (1-4), torradeira (1). Posso verificar um por um, começando com
gabinete 1.
OK.
> ir para o gabinete 1
No gabinete 1, você vê uma tigela 1.
> ir para o gabinete 2
O gabinete 2 está fechado.
> ir para o gabinete 3
No gabinete 3, você vê uma garrafa de vidro 1.
> ir para o gabinete 4
No gabinete 4, você vê uma caneca 1.
> ir para o gabinete 5
O gabinete 5 está fechado.
> ir para o gabinete 6
O gabinete 6 está fechado.
> ir para a gaveta 1
A gaveta 1 está fechada.
> ir para a gaveta 2
A gaveta 2 está fechada.
> ir para a gaveta 3
A gaveta 3 está fechada.
> ir para a bancada 1
Na bancada 1, você vê uma alface 2, uma caneca 2, um pimenteiro 1 e uma colher 2.
> ir para a bancada 2
Na bancada 2, você vê uma xícara 1, um esponja de prato 1, uma garrafa de vidro 3, uma faca 1, um
prato 2, uma batata 3 e uma estátua 1.
> Agora encontrei uma faca (1). Em seguida, preciso pegá-la.
OK.
> pegue a faca 1 da bancada 2
Você pega a faca 1 da bancada 2.
> Agora pego uma faca (1). Em seguida, preciso ir até a pia (1) e limpá-la.
OK.
> go to sinkbasin 1
Na pia 1, você vê um garfo 3, uma alface 3 e uma espátula 2.
> limpar a faca 1 com a pia 1
Limpe a faca 1 usando a pia 1.
> Agora eu limpo uma faca (1). Em seguida, preciso colocá-la na/sobre a bancada 1.
OK.
> ir para a bancada 1
Na bancada 1, você vê uma alface 2, uma caneca 2, um pimenteiro 1 e uma colher 2.
> colocar a faca 1 na/sobre a bancada 1
Você coloca a faca 1 na/sobre a bancada 1.

Você está localizado no centro da sala. Olhando rapidamente ao redor, você vê um armário 6, um armário 5, um armário 4, um armário 3, um armário 2, um armário 1, uma cafeteira 1, um tampo de mesa 3, um tampo de mesa 2, um tampo de mesa 1, uma gaveta 3, uma gaveta 2, uma gaveta 1, uma geladeira 1, uma lixeira 1, um forno de micro-ondas 1, uma prateleira 3, uma prateleira 2, uma prateleira 1, uma pia 1, um fogão 4, um fogão 3, um fogão 2, um fogão 1 e uma torradeira 1. pia 1, um fogão 4, um fogão 3, um fogão 2, um fogão 1 e uma torradeira 1.
Sua tarefa: colocar uma faca limpa sobre a mesa.
> Pense: Para concluir a tarefa, preciso encontrar e pegar uma faca, depois limpá-la na pia e colocá-la sobre a mesa.
Está bem.
> Pense: Primeiro preciso encontrar uma faca. É mais provável que uma faca esteja em um armário (1-6), uma gaveta (1-3), um tampo de mesa (1-3), uma geladeira (1), uma lixeira (1), uma prateleira (1-3), uma pia (1), uma placa de fogão (1-4), uma torradeira (1). Posso verificá-los um a um, começando pelo gabinete 1.
Está bem.
> Ir para o gabinete 1
No gabinete 1, você vê uma tigela 1.
> Ir para o gabinete 2
O gabinete 2 está fechado.
> Ir para o Gabinete 3
No gabinete 3, você vê uma garrafa de vidro 1.
> Ir para o gabinete 4
No gabinete 4, você vê um copo 1.
> Ir para o Gabinete 5
O gabinete 5 está fechado.
> Ir para o Gabinete 6
O gabinete 6 está fechado.
> Ir para a gaveta 1
A gaveta 1 está fechada.
> Ir para a gaveta 2
A gaveta 2 está fechada.
> Ir para a gaveta 3
A gaveta 3 está fechada.
> Ir para a área de trabalho 1
No tampo da mesa 1, você vê um pé de alface 2, uma xícara 2, um saleiro com pimenta preta 1 e duas colheres 2.
> Ir para a área de trabalho 2
No tampo da mesa 2, você vê uma xícara 1, uma ovelha de prato de pincel 1, uma garrafa de vidro 3, uma faca 1, um prato 2, três batatas 3 e uma estátua 1.
> Pense: Agora encontrei uma faca (1). Em seguida, preciso pegá-la.
Está bem.
> Pegue a faca 1 da mesa 2
Você pega a faca 1 do tampo da mesa 2.
> Pense: Agora pego uma faca (1). Em seguida, preciso ir até a pia (1) para limpá-la.
Está bem.
> Ir para o coletor 1
Sobre a pia 1, você vê um garfo 3, um pé de alface 3 e uma espátula de virar 2.
> Faca de limpeza 1 com pia 1
Você usa a pia 1 para limpar a faca 1.
> Pense: Agora eu limpei uma faca (1). Em seguida, preciso colocá-la na mesa 1.
Está bem.
> Ir para a área de trabalho 1
No tampo da mesa 1, você vê um pé de alface 2, uma xícara 2, um saleiro com pimenta preta 1 e duas colheres 2.
> Coloque a faca 1 na mesa 1
Você coloca a faca 1 no tampo da mesa 1.

D.2.2 Trajetórias do ACT

O modelo de ação é capaz de encontrar a faca corretamente, mas tenta limpá-la usando o lavatório da pia antes de realmente ir até o lavatório da pia. Desse ponto em diante, o modelo não consegue se recuperar e acaba repetindo a mesma sequência de comandos. Usando o modelo ReAct, a ideia preexistente identifica especificamente que a faca foi levada e a próxima submeta é ir até a pia para limpá-la.

D.2.3 Trajetória do REACT-IM

O ReAct-IM conseguiu localizar a faca corretamente, mas também não conseguiu limpá-la. Então, o LLM tem problemas ao tentar colocar essa faca no balcão. Um possível problema é a ideia errada: pense: preciso encontrar uma faca limpa. Isso parece ter levado o LLM a acreditar que a faca já havia sido limpa. No ReAct, essa série de submetas será capturada especificamente por meio de cada ideia.

D.3 Trajetória do WEBSHOP

Instruções:Compre para mim um pacote de dezesseis chips de banana liofilizada sabor maçã e canela por menos de US$ 50,00

ReAct: raciocínio e ação trabalhando juntos em um modelo de linguagem grande-12

Tabela 10: Exemplo de trajetórias da loja virtual previstas pelo Act e pelo ReAct. Em contraste com o Act, o ReAct usa inferência para encontrar produtos que satisfaçam todos os atributos de destino.

E Mais análises

E.1 Análise dos modos de sucesso e falha

Fornecemos alguns exemplos correspondentes às análises de padrão de sucesso e erro apresentadas na Seção 3.3. Os resultados da pesquisa e as etapas não representativas foram omitidos para economizar espaço.

Sucesso: Verdadeiramente positivo

ReAct
Pergunta: O autor David Chanoff colaborou com um almirante da Marinha dos EUA que serviu como
o embaixador no Reino Unido sob o comando de qual presidente?
Pensamento 1: Preciso pesquisar David Chanoff e encontrar o almirante da Marinha dos EUA que ele
colaborou com.
Ação 1: Search[David Chanoff] Observação 1: David Chanoff é um autor famoso...
Ação 2: Pesquisar [William J. Crowe] Observação 2: William J. Crowe é...
Reflexão 3: William J. Crowe atuou como embaixador no Reino Unido durante o período de
Portanto, a resposta é Bill Clinton.
Ação 3: Terminar [Bill Clinton] Observação 3: Episódio concluído
CoT
Pergunta: Qual era o nome da equipe que representava uma universidade do Arizona em
a conferência que abrange uma ampla extensão do oeste dos Estados Unidos.
incluindo Arizona, Califórnia e Novo México?
Pensamento: Vamos pensar passo a passo. O nome da equipe que representou o Arizona
universidade na conferência que abrange uma ampla extensão da região oeste do país.
Estados Unidos, incluindo Arizona, Califórnia e Novo México é Arizona
State Sun Devils.
Resposta: Arizona State Sun Devils

ReAct
PERGUNTA: O autor David Charnoff trabalhou com um almirante da Marinha dos EUA que serviu como embaixador britânico sob qual presidente?
Reflexão 1: Preciso pesquisar David Charnoff e descobrir os almirantes da Marinha dos EUA com quem ele trabalhou.
Ação 1: Procurar por [David Charnoff]. Observação 1: David Chanov é um autor famoso...
Ação 2: Procurar por [William J. Crowe]. Observação 2: William J. Crowe foi...
Pense 3: William J. Crowe foi o embaixador britânico durante a presidência de Bill Clinton. Portanto, a resposta é Bill Clinton.
Ação 3: Conclusão [Bill Clinton] Observação 3: Conduzida
CoT
PERGUNTA: Qual equipe, representando uma universidade do Arizona, participou de uma conferência que abrangeu uma grande área do oeste dos Estados Unidos, incluindo Arizona, Califórnia e Novo México?
Para refletir: vamos explicar isso passo a passo. Em uma conferência que abrange uma vasta área do oeste dos Estados Unidos, incluindo Arizona, Califórnia e Novo México, a equipe que representa uma universidade no Arizona é a Arizona State University Sun Devils.
Em resposta a Arizona State University Sun Devils

Erro de previsão/Sucesso: Falso positivo

ReAct
Pergunta: O jogo de tabuleiro San Marco ou About Time foi lançado primeiro?
Pensamento 1: Preciso pesquisar San Marco e About Time, e descobrir qual foi lançado primeiro.
Ação 1: Search[San Marco] Observação 1: San Marco é uma das cidades mais ... O foi construído em Veneza.
Pensamento 2: San Marco é um sestiere de Veneza. Preciso pesquisar sobre o tempo em seguida.
Ação 2: Pesquisar [About Time]. Observação 2: Não foi possível encontrar [About Time]. Similar: [...] .
Pensamento 3: About Time é um filme de 2013, então San Marco foi lançado primeiro.
Ação 3: Terminar [San Marco] Observação 3: Episódio concluído
CoT
Pergunta: A Universidade de Vanderbilt ou a Universidade de Emory foi fundada primeiro?
Pensamento: Vamos pensar passo a passo. A Universidade de Vanderbilt foi fundada em 1873.
A universidade foi fundada em 1836. 1873 (Universidade de Vanderbilt) > 1836 (Emory)
A Universidade de Vanderbilt foi fundada primeiro.
Resposta: Emory University

ReAct
PERGUNTA: Qual dos dois jogos de tabuleiro, St Mark's ou About Time, foi lançado primeiro?
Pensamento 1: Preciso descobrir qual jogo será lançado primeiro, St Mark's ou About Time.
Ação 1: Pesquisar [San Marco]. Observação 1: San Marco é... Foi construído em Veneza.
Pensamento 2: San Marco é um distrito de Veneza. Em seguida, preciso pesquisar About Time
Ação 2: Procurar [aproximadamente o tempo]. Observação 2: Não conseguiu encontrar [sobre o tempo]. Em vez disso, encontrou [...].
Pensamento 3: About Time foi um filme lançado em 2013, então St. Mark's deveria ter sido o primeiro lançamento.
Ação 3: Fim da busca [San Marco] Observação 3: Fim da missão
CoT
P: Qual foi estabelecida primeiro, a Vanderbilt ou a Emory?
Reflexões: primeiro, a Vanderbilt University foi fundada em 1873 e a Emory University foi fundada em 1836; em termos de ordem cronológica, a Vanderbilt (1873) é posterior à Emory (1836), o que significa que a Emory foi fundada antes.
Resposta: primeiro a Universidade de Emory.

Falha: erro de raciocínio / Falha: erro de raciocínio

ReAct
Pergunta: Qual era o nome do meio da atriz que foi escalada para o elenco ao lado de Harvey?
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds e Marissa Jaret Winokur em
Hairspray?
Pensamento 1: Preciso pesquisar Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell.
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds e
Marissa Jaret Winokur, encontre a atriz que foi escalada ao lado deles em
Hairspray, então descubra seu nome do meio.
Ação 1: Pesquisar [Harvey Fierstein] Observação 1: Harvey Forbes Fierstein ...
Pensamento 2: Harvey Fierstein é ator, dramaturgo e roteirista.
procurar Linda Hart em seguida...
Ação 2: Pesquisar [Linda Hart]...
CoT
Pergunta: Quem é mais velho, Danny Green ou James Worthy?
Vamos pensar passo a passo: Danny Green nasceu em 1987 e James Worthy foi membro do Senado dos Estados Unidos.
nascido em 1961. 1987 (Danny Green) > 1961 (James Worthy), portanto Danny Green é
mais antigos.
Resposta: Danny Green

ReAct
PERGUNTA: Em Hairspray, juntamente com Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds e Marissa Qual é o nome do meio da atriz que atuou com Jaret Winokur?
Ideia 1: Preciso procurar Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds e Marissa Jaret Winokur, descobrir a atriz que estava na peça com eles e descobrir seu nome do meio.
Ação 1: Procurar por [Harvey Fierstein] Observação 1: Harvey Forbes Fierstein...
Ideia nº 2: Harvey Fierstein é ator, dramaturgo e roteirista. Em seguida, você precisa procurar por Linda Hart...
Ação 2: Procurar por [Linda Hart]...

CoT
PERGUNTA: Quem é mais velho, Danny Green ou James Worthy?
Pense: Vamos fazer isso em etapas. Danny Green nasceu em 1987 e James Worthy nasceu em 1961. 1987 (Danny Green) > 1961 (James Worthy), portanto Danny Green é mais velho.
Em resposta a Danny Green

Falha: erro de pesquisa / Falha: erro de pesquisa

ReAct
Pergunta: Em que consiste a deusa associada à deusa frigg?
Contos?
Pensamento 1: Preciso pesquisar a deusa frigg e encontrar sua deusa associada.
Ação 1: Search[goddess frigg] Observação 1: Não foi possível encontrar a deusa frigg. Similar: ['Frigg', 'Frigg and Freyja common
hipótese de origem", "Freyja (seção Relação com Frigg e outras deusas
e figuras)', 'Eir (redirecionamento de Eir (deusa))', 'Baldr'].
Pensamento 2: Preciso procurar Frigg em vez disso...

ReAct

PERGUNTA: Que história compreende a deusa Frigg, conforme relacionada à deusa?
Ideia nº 1: Preciso procurar a deusa Frigg e encontrar deusas relacionadas a ela.
Ação 1: Search for [goddess Frigg] Observação 1: A deusa Frigg não foi encontrada. similar: ['Frigg', 'Hypothesis of a common origin of Frigg and Freyja', 'Freyja (in relation to Frigg and other goddesses and characters)', 'Eir (redirected from Eir (goddess))', 'Baldr'].
Ideia nº 2: Preciso pesquisar Frigg de uma maneira diferente...

Falha: Alucinação / Failure: Hallucination

CoT
Pergunta: Qual foi o primeiro ano em que uma revista científica publicada por uma organização
localizado no Bronx foi publicado?
Pensamento: Vamos pensar passo a passo. No primeiro ano, uma revista científica publicada pela
Uma organização localizada no Bronx foi publicada em 1916.
Resposta: 1916 (Etiqueta: 1909)

CoT
PERGUNTA: Qual foi o ano em que a instituição sediada no Bronx publicou pela primeira vez uma revista científica?
PENSAMENTO: Pensamos passo a passo. O ano do primeiro periódico científico publicado pela instituição sediada no Bronx foi 1916.
Resposta: 1916 (Etiqueta: 1909)

Falha: ambiguidade do rótulo / Falha: ambiguidade do rótulo

ReAct
Pergunta: De que nacionalidade é o homem que desenvolveu o jogo do ditador?
Pensamento 1: Preciso pesquisar o jogo do ditador, encontrar o homem que o desenvolveu e, em seguida, encontrar seu
nacionalidade.
Ação 1: Pesquisar [jogo do ditador] Observação 1: O jogo do ditador é um instrumento experimental popular na psicologia social.
e economia...
Ação 3: Pesquisar [Amos Tversky] Observação 3: Amos Nathan Tversky...
Pensamento 4: Amos Tversky é um psicólogo cognitivo e matemático israelense. Portanto, o
O homem que desenvolveu o jogo do ditador é israelense.
Ação 4: Finish[Israeli] (rótulo: Israel-American)
CoT
Pergunta: Kurt Fuller, de Stockton, CA, apareceu em qual comédia policial americana?
Série de televisão dramática criada por Steve Franks?
Pensamento: Vamos pensar passo a passo. Kurt Fuller, de Stockton, CA, apareceu no Psych.
Psych é uma série de televisão americana de comédia dramática e detetivesca criada por
Steve Franks.
Resposta: Psych (rótulo: Psych é uma comédia dramática policial americana)

ReAct
Pergunta: Qual é o país da pessoa que inventou o "Jogo do Ditador"?
Pense 1: Preciso pesquisar "jogo do ditador", encontrar a pessoa que o inventou e descobrir sua nacionalidade.
Ação 1: Pesquisar [Dictator's Game] Observação 1: O Jogo do Ditador é uma ferramenta experimental comum em psicologia social e economia. ......
Ação 3: Pesquisar [Amos Tversky] Assista 3: Amos Nathan Tversky ......
Reflexão 4: Amos Tversky é um psicólogo cognitivo e matemático israelense. Portanto, a pessoa que inventou o "Jogo do Ditador" é israelense.
Ação 4: Conclusão [israelenses] (nota da tag: Israel-EUA)
CoT
PERGUNTA: Qual série de comédia policial americana criada por Steve Frank apresentava Kurt Fuller de Stockton, Califórnia?
Pensamento: vamos fazer isso passo a passo. Kurt Fuller apareceu em Psych. Psych é uma série de televisão americana de comédia policial criada por Steve Frank.
Resposta: "Psych" (Nota da editora: "Psych" é uma comédia policial americana)