ReAct : Raisonner et agir ensemble dans un grand modèle linguistique

Base de connaissances sur l'IAMise à jour il y a 1 an Cercle de partage de l'IA

27.7K 00

Original : https://arxiv.org/pdf/2210.03629.pdf

Vous n'arrivez pas à comprendre le fonctionnement et l'application du ReAct après l'avoir lu ? Consultez leLogique de mise en œuvre de ReAct"avec des exemples pratiques.

résumés

Alors que les modèles de langage à grande échelle (llm) ont démontré des performances impressionnantes dans les tâches de compréhension du langage et de prise de décision interactive, leurs capacités de raisonnement (par exemple, les indices de la chaîne de pensée) et leurs capacités d'action (par exemple, la génération de plans d'action) ont été largement étudiées en tant que sujets distincts. Cet article explore l'utilisation de l'llm pour générer des trajectoires de raisonnement et des actions spécifiques à une tâche de manière intercalée, permettant une plus grande synergie entre les deux : les trajectoires de raisonnement aident le modèle à généraliser, suivre et mettre à jour les plans d'action, ainsi qu'à gérer les exceptions, tandis que les actions lui permettent d'interagir avec des sources externes (par exemple, des bases de connaissances ou des environnements) et de collecter des informations supplémentaires. La méthode proposée, ReAct, est appliquée à un ensemble varié de tâches linguistiques et décisionnelles et son efficacité est démontrée par rapport à une base de référence de pointe, tout en améliorant l'interprétabilité humaine et la fiabilité. Plus précisément, pour la réponse aux questions (HotpotQA) et la vérification des faits (Fever), ReAct surmonte les illusions et les problèmes de propagation d'erreurs qui prévalent dans le raisonnement par chaîne de pensée en interagissant avec une API Wikipédia simple et en générant des trajectoires de résolution de tâches semblables à celles d'un être humain qui sont plus faciles à interpréter que les lignes de base dépourvues de trajectoires de raisonnement. De plus, sur deux benchmarks de prise de décision interactive (ALFWorld et WebShop), ReAct surpasse les approches de mimétisme et d'apprentissage par renforcement avec un taux de réussite absolu de 34% et 10%, respectivement, tout en ne nécessitant qu'un ou deux exemples contextuels.

1 Introduction

L'une des caractéristiques uniques de l'intelligence humaine est la capacité à combiner de manière transparente des actions orientées vers la tâche avec le raisonnement verbal, dont on pense qu'il joue un rôle important dans la cognition humaine, en contribuant à l'autorégulation ou à la formulation de stratégies ainsi qu'à l'entretien de la mémoire de travail. Si l'on prend l'exemple de la préparation d'un plat dans la cuisine, entre deux actions spécifiques, nous pouvons utiliser le raisonnement verbal pour suivre la progression ("Maintenant que tout est coupé, je devrais faire chauffer la casserole d'eau"), pour gérer les anomalies ou ajuster le plan en fonction de la situation ("Je n'ai pas de sel, alors je vais utiliser de la sauce soja et du poivre"), et pour réaliser qu'il n'y a pas de problème avec les aliments. ), et de réaliser quand une information externe est nécessaire ("Comment dois-je préparer la pâte ? Je vais faire une recherche sur internet"). Nous pouvons également agir (ouvrir un livre de recettes pour lire une recette, ouvrir le réfrigérateur, vérifier les ingrédients) pour étayer notre raisonnement et répondre à des questions ("Que puis-je cuisiner tout de suite ?"). Ce type d'"action" ne nous pose pas de problème. Cette étroite synergie entre "action" et "raisonnement" permet aux humains d'apprendre rapidement de nouvelles tâches et de prendre des décisions ou des raisonnements solides dans des environnements inédits ou face à l'incertitude de l'information.

Des résultats récents ont laissé entrevoir la possibilité de combiner le raisonnement verbal avec la prise de décision interactive dans les systèmes autonomes. D'une part, les grands modèles linguistiques (LLM) guidés de manière appropriée ont démontré leur capacité à effectuer plusieurs étapes de raisonnement dans des tâches arithmétiques, de bon sens et de raisonnement symbolique. Cependant, ce raisonnement "en chaîne" est une boîte noire statique, où le modèle utilise sa représentation interne pour générer la pensée et n'est pas basé sur le monde extérieur, ce qui limite sa capacité à raisonner de manière réactive ou à mettre à jour ses connaissances. Cela peut conduire à des illusions factuelles et à la propagation d'erreurs dans le processus de raisonnement (figure 1(1b)). D'autre part, des travaux récents ont exploré l'utilisation de modèles linguistiques pré-entraînés pour la planification et l'action dans des environnements interactifs, en mettant l'accent sur la prédiction de l'action grâce à des antécédents linguistiques. Ces approches convertissent généralement les observations multimodales en texte, utilisent des modèles de langage pour générer des actions ou des plans spécifiques à un domaine, puis utilisent des contrôleurs pour les sélectionner ou les exécuter. Cependant, elles n'utilisent pas de modèles linguistiques pour raisonner abstraitement sur des objectifs de haut niveau ou pour maintenir la mémoire de travail à l'appui des actions, à l'exception de Huang et al. (2022b) qui ont effectué une forme limitée de raisonnement verbal pour réitérer des faits spatiaux sur l'état actuel. Au-delà de cette simple tâche incarnée interagissant avec plusieurs blocs de construction, aucune recherche n'a été menée sur la façon dont le raisonnement et l'action peuvent être combinés de manière synergique pour résoudre des tâches générales, et si une telle combinaison peut apporter des avantages systématiques par rapport au raisonnement ou à l'action seuls.

Figure 1 : (1) Comparaison de quatre méthodes d'incitation, (a) incitation standard, (b) chaîne de pensée (CoT, raisonnement uniquement), (c) action uniquement, et (d) ReAct (raisonnement + action), pour résoudre un problème HotpotQA (Yang et al., 2018). (2) Comparaison entre (a) l'approche action seule et (b) l'approche ReAct pour résoudre un jeu AlfWorld (Shridhar et al., 2020b). Dans les deux domaines, nous omettons les exemples contextuels des invites et montrons uniquement les trajectoires de résolution de problèmes générées par le modèle (action, réflexion) et l'environnement (observation).

ce document présente_ReActReAct invite l'llm à générer des traces de raisonnement verbal et des actions pertinentes pour la tâche de manière transversale, ce qui permet au modèle d'effectuer un raisonnement dynamique pour créer, maintenir et adapter des plans d'action de haut niveau (action raisonnée), tout en interagissant avec des environnements externes (par exemple, Wikipedia) pour incorporer des informations supplémentaires dans le raisonnement (raisonnement par l'action). des informations supplémentaires dans le raisonnement (raisonnement par l'action).

Cet article évalue empiriquement ReAct et les modèles de base les plus récents sur quatre points de référence différents : les quiz, la vérification des faits, les jeux textuels et la navigation sur le web. Pour HotPotQA et Fever, ReAct surpasse les modèles courants de génération d'actions tout en rivalisant avec Chain-of-Thought Reasoning (CoT) en accédant à l'API de Wikipedia où les modèles peuvent interagir. Globalement, la meilleure approche est une combinaison de ReAct et de CoT, qui permet d'utiliser à la fois les connaissances internes et les informations obtenues de l'extérieur dans le processus de raisonnement. Sur ALFWorld et WebShop, deux ou même une invite ReAct peuvent être plus performantes que l'utilisation de 10³∼ 10⁵Les méthodes d'apprentissage par imitation ou par renforcement formées sur des instances de tâches ont entraîné des augmentations absolues des taux de réussite de 34 % et 10 %, respectivement. L'importance d'un raisonnement clairsemé et généralisé dans la prise de décision est démontrée par un avantage constant par rapport à une base de référence contrôlée consistant uniquement à prendre des mesures. Outre l'applicabilité générale et les gains de performance, la combinaison du raisonnement et de l'action contribue à l'interprétabilité, à la fiabilité et au diagnostic du modèle dans tous les domaines, car les humains peuvent facilement faire la distinction entre les informations dérivées des connaissances internes du modèle et l'environnement externe, ainsi qu'examiner les trajectoires d'inférence pour comprendre les fondements décisionnels des actions du modèle.

En résumé, nos principales contributions sont les suivantes.

(1) Proposer ReAct, un nouveau paradigme basé sur les indices pour le raisonnement et l'action collaboratifs dans la modélisation linguistique afin de résoudre des tâches générales.

(2) Des expériences approfondies ont été menées sur différents points de référence afin de démontrer les avantages de ReAct par rapport aux approches précédentes en matière d'inférence ou de génération d'actions dans un contexte d'apprentissage sans échantillon.

(3) proposer des ablations et des analyses systématiques pour comprendre l'importance de l'action dans les tâches de raisonnement, et du raisonnement dans les tâches d'interaction.

(4) Les limites de ReAct dans le cadre de l'apprentissage par coupure (c'est-à-dire le soutien limité à l'inférence et au comportement) sont analysées et des expériences préliminaires de réglage fin sont menées, montrant le potentiel d'amélioration de ReAct avec des données d'entraînement supplémentaires. L'extension de ReAct à la formation et à la manipulation de tâches supplémentaires et sa combinaison avec des paradigmes complémentaires tels que l'apprentissage par renforcement pourraient permettre d'exploiter davantage le potentiel des grands modèles de langage.

2 REACT : Raisonnement collaboratif + Action

Considérons la configuration générale d'un corps intelligent qui interagit avec son environnement pour accomplir une tâche. Au pas de tempstLe , l'agent reçoit une observation de l'environnemento_t∈ O, et selon une certaine stratégieπ(a_t|c_t) Effectuer une opérationa_t∈ A, oùc_t= (o₁,a₁,--- ,o_t_-1,a_t_-1,o_t) est le contexte de l'agent. Lorsque l'on met en correspondancec_t→7 a_tL'apprentissage de stratégies peut s'avérer difficile lorsqu'elles sont très implicites et qu'elles nécessitent une grande quantité de calculs. Par exemple, l'agent de la figure 1 (1c) est incapable de générer l'action finale correcte (Acte 4) pour terminer la tâche d'AQ car elle nécessite un raisonnement complexe sur le contexte de la trajectoire (Question, Acte 1-3, Obs 1-3). De même, l'agent représenté à la figure 1 (2a) est incapable de comprendre, à partir du contexte, que l'évier 1 ne contient pas la poivrière 1, et continue donc à produire des comportements hallucinatoires.

L'idée de ReAct est simple : nous étendons l'espace d'action d'un corps intelligent à Aˆ = A ∪ L, où L est l'espace linguistique. Une action dans l'espace linguistiqueaˆ_t∈ L, que nous appellerons trace de pensée ou de raisonnement, n'affecte pas l'environnement externe et ne conduit donc pas à un retour d'observation. En revanche, une trace de penséeaˆ_tVise à composer des informations utiles en raisonnant sur le contexte actuelc_tet mettre à jour le contextec_t₊₁= (c_t,aˆ_t) pour soutenir le raisonnement ou l'action future. Comme le montre la figure 1, il peut y avoir différents types d'idées utiles, telles que : décomposer les objectifs de la tâche et créer un plan d'action (2b, Acte 1 ; 1d, Pensée 1), injecter des connaissances de bon sens pertinentes pour la résolution de la tâche (2b, Pensée 1), extraire les éléments importants des observations (1d, Pensées 2,4), suivre les progrès et transporter le plan d'action (2b, Pensée 8), traiter les exceptions et ajuster le plan d'action ( 1d, pensée 3), et ainsi de suite.

Cependant, comme l'espace linguistique L est infini, l'apprentissage dans cet espace d'action augmenté est difficile et nécessite des a priori linguistiques forts. Dans cet article, nous nous concentrons sur un grand modèle linguistique gelé PaLM-540B (Chowdhery et al., 2022) dans ce contexte^[1]Les exemples contextuels comportant moins d'échantillons ont été utilisés pour générer des actions spécifiques à un domaine et des pensées linguistiques libres pour la résolution de tâches (Fig. 1 (1d), (2b)). Les exemples dans chaque contexte sont des trajectoires d'actions humaines, de pensées et d'observations environnementales utilisées pour résoudre des instances de tâches (voir l'annexe C). Pour les tâches où le raisonnement est primordial (Fig. 1(1)), nous générons alternativement des pensées et des actions de sorte que la trajectoire de la solution de la tâche se compose de plusieurs étapes pensée-action-observation. En revanche, pour les tâches de prise de décision qui peuvent impliquer un grand nombre d'actions (Fig. 1(2)), les pensées ne doivent apparaître que de manière éparse dans les positions les plus pertinentes de la trajectoire, de sorte que nous laissons le modèle linguistique décider lui-même de l'occurrence asynchrone des pensées et des actions.

En raison de l'intégration des capacités de prise de décision et de raisonnement dans un grand modèle linguistique, ReAct présente plusieurs caractéristiques uniques.

A) Intuitif et facile à concevoir :La conception des messages-guides ReAct est facile car les annotateurs humains expriment simplement leurs pensées par des mots en plus de leurs actions. Ce document n'utilise pas de choix de format spécifiques, de conceptions d'expression orale ou de choix d'exemples. Nous décrivons en détail la conception des messages-guides pour chaque tâche dans les sections 3 et 4.

B) Universel et flexible :Grâce à son espace de réflexion flexible et à son format "penser-agir-générer", ReAct est adapté à diverses tâches avec différents espaces d'action et besoins de raisonnement, y compris, mais sans s'y limiter, l'assurance qualité, la vérification des faits, les jeux textuels et la navigation sur le web.

C) Performances puissantes et robustes :ReAct fait preuve d'une forte généralisation lorsqu'il apprend à partir d'un à six exemples contextuels, dépassant systématiquement la ligne de base du raisonnement ou de l'action dans tous les domaines. Nous montrons également des avantages supplémentaires en permettant un réglage fin dans la section 3, et la robustesse de la performance de ReAct à la sélection des indices dans la section 4.

D) Aligné sur les humains et contrôlable :ReAct promet un processus de prise de décision et de raisonnement séquentiel interprétable dans lequel les humains peuvent facilement vérifier l'exactitude du raisonnement et des faits. En outre, comme le montre la figure 5 de la section 4, les humains peuvent également contrôler ou corriger le comportement du corps intelligent en pensant à l'édition.

3 Tâches de raisonnement à forte intensité de connaissances

En commençant par les tâches de raisonnement à forte intensité de connaissances telles que le quizzing multi-sauts et la vérification des faits. Comme le montre la figure 1 (1d), en interagissant avec l'API Wikipédia, ReAct est capable de récupérer des informations pour étayer le raisonnement et d'utiliser le raisonnement pour déterminer ce qu'il faut récupérer ensuite, démontrant ainsi la synergie du raisonnement et de l'action.

3.1 Paramètres

Domaines Nous examinons deux ensembles de données qui posent des défis à la recherche de connaissances et à l'inférence : (1) HotPotQA , un benchmark de questions-réponses multi-sauts qui nécessite une inférence sur deux articles Wikipedia ou plus, et (2) FEVER , un benchmark de vérification des faits dans lequel chaque déclaration est étiquetée SUPPORTS, REFUTES, ou NOT INFO, selon qu'il existe ou non un article de Wikipédia pour valider l'affirmation. Dans ce travail, nous utilisons un cadre de problème uniquement dans les deux tâches, où le modèle ne reçoit que le problème/l'énoncé comme entrée et n'a pas accès aux passages de soutien et doit s'appuyer sur ses connaissances internes ou récupérer des connaissances en interagissant avec l'environnement externe pour soutenir le raisonnement.

Espace d'action Nous avons conçu une API Web simple pour Wikipédia contenant trois types d'opérations pour soutenir la recherche interactive d'informations :

(1) rechercher qqch. [Entité], qui renvoie les 5 premières phrases de la page wiki de l'entité correspondante si elle existe, sinon suggère les 5 premières entités similaires à partir du moteur de recherche de Wikipédia.

(2) trouver [chaîne], qui renverra la phrase suivante dans la page contenant la chaîne, simulant ainsi la fonction Ctrl+F d'un navigateur.

(3) remplir [answer], terminer la tâche en cours avec la réponse. L'espace d'action ne peut généralement retrouver qu'une petite partie d'un paragraphe en se basant sur le nom exact du paragraphe, ce qui est beaucoup plus faible que les extracteurs lexicaux ou neuronaux les plus récents. L'objectif est de simuler la manière dont les humains interagissent avec Wikipédia et de forcer le modèle à retrouver des informations par le biais d'un raisonnement explicite dans la langue.

3.2 Méthodologie

ReAct Prompting Pour HotpotQA et Fever, nous avons sélectionné au hasard 6 et 3 cas de l'ensemble de formation et rédigé manuellement des trajectoires au format ReAct à utiliser comme échantillons sous-échantillonnés dans les messages-guides. Comme sur la figure 1 (d), chaque trajectoire se compose de plusieurs étapes pensée-action-observation (c'est-à-dire une pensée dense) dans lesquelles des pensées libres sont utilisées à diverses fins. Plus précisément, nous utilisons une combinaison de pensées pour décomposer le problème ("je dois chercher x, trouver y, puis trouver z"), extraire des informations des observations de Wikipédia ("x a commencé en 1844", "le passage ne dit pas x"), faire preuve de bon sens et trouver des solutions pour résoudre le problème. le passage ne dit pas x"), faire preuve de bon sens ("x n'est pas y, donc z doit être ......") ou un raisonnement arithmétique ("1844 < 1989"), orienter la reconstruction de la recherche (""Peut-être que je peux chercher/trouver x"), et synthétiser la réponse finale ("" "...... La réponse est donc x"). Voir l'annexe C pour plus de détails.

Points de repère Nous avons systématiquement supprimé les trajectoires ReAct pour construire de multiples repères de base (dans le format de la figure 1 (1a-1c)).

(a)Invitation standard/Invitation standard(Standard), en supprimant toutes les pensées, actions et observations de la trajectoire du ReAct.

(b)Incitation à la réflexion en chaîne / Incitation à la réflexion en chaîne(CoT), qui supprime les actions et les observations et sert uniquement de base de référence pour le raisonnement. Une référence autoconsistante (CoT-SC) a été établie en échantillonnant des trajectoires avec une température de décodage CoT de 0,7 pendant l'inférence et en utilisant la majorité des réponses, ce qui a permis d'améliorer les performances de façon constante par rapport au CoT.

(c)Invitation à agir uniquement(Act), qui supprime les idées de la trajectoire ReAct, est à peu près analogue à la manière dont WebGPT interagit avec l'internet pour répondre aux questions, bien qu'il opère dans un espace de tâches et d'actions différent et utilise l'imitation et l'apprentissage par renforcement plutôt que des messages-guides.

Combinaison des connaissances internes et externes / Combinaison des connaissances internes et externes Comme nous le détaillerons dans la section 3.3, nous observons queReAct a fait preuve d'un processus de résolution de problèmes plus factuel et fondé, tandis que CoT était plus précis dans la formulation d'une structure de raisonnement, mais avait tendance à avoir des hallucinations.Nous proposons donc de fusionner ReAct et CoT-SC et de laisser le modèle décider du passage à l'autre méthode sur la base de l'heuristique suivante.

a) ReAct→CoT-SCNous avons fixé 7 et 5 étapes pour HotpotQA et FEVER, respectivement, car nous avons constaté qu'un plus grand nombre d'étapes n'améliorait pas les performances de ReAct.

b) CoT-SC→ReAct: : QuandnLa majorité des réponses de l'échantillon CoT-SC apparaissent moins den/Dans deux cas (c'est-à-dire lorsque les connaissances internes ne sont pas en mesure de soutenir la tâche en toute confiance), revenir à ReAct.

Mise au point/Finetuning En raison des difficultés liées à l'étiquetage manuel des trajectoires d'inférence et des actions à grande échelle, le présent document envisage une approche d'auto-assistance similaire à celle de Zelikman et al. (2022), qui utilise 3 000 trajectoires avec des réponses correctes générées par ReAct (également utilisées dans d'autres lignes de base) pour affiner un modèle de langage plus petit (PaLM-8/62B) afin de décoder les trajectoires conditionnées par des questions/déclarations d'entrée (toutes les pensées, actions, observations). Voir l'annexe B.1 pour plus de détails.

3.3 Résultats et observations

ReAct surpasse globalement Act/ReAct surpasse Act de manière constante Le tableau 1 présente les résultats de HotpotQA et Fever en utilisant PaLM-540B comme modèle de base et en utilisant différentes méthodes de repérage. Nous constatons que ReAct surpasse Act dans les deux tâches, ce qui démontre la valeur du raisonnement pour guider les actions, en particulier pour synthétiser les réponses finales, comme le montre la figure 1 (1c-d). Le résultat d'ajustement 3 confirme également les avantages des traces d'inférence pour une action mieux informée.

Tableau 1 : Résultats des repères du PaLM-540B sur HotpotQA et Fever.

ReAct vs. CoT D'autre part, ReAct surpasse CoT pour Fever (60,9 contre 56,3) et est légèrement à la traîne de CoT pour HotpotQA (27,4 contre 29,4). Il se peut qu'il n'y ait que des différences mineures pour les déclarations de ferveur pour ou contre (voir l'annexe D.1), il est donc essentiel de prendre des mesures pour acquérir des connaissances précises et actualisées. Pour mieux comprendre les différences de comportement entre ReAct et CoT sur HotpotQA, nous avons échantillonné au hasard 50 trajectoires avec des réponses correctes et incorrectes (jugements EM) de ReAct et CoT (200 exemples au total), respectivement, et étiqueté manuellement leurs modèles de réussite et d'échec dans le tableau 2. Voici quelques observations clés.

Tableau 2 : Types de modes de réussite et d'échec pour ReAct et CoT sur HotpotQA, et leurs pourcentages dans des exemples choisis au hasard dans des études humaines.

A) Les hallucinations sont un problème sérieux pour les TdCEn revanche, la trajectoire de résolution de problèmes de ReAct est plus pertinente, plus factuelle et plus crédible en raison de sa capacité à accéder à une base de connaissances externe. En revanche, la trajectoire de résolution de problèmes de ReAct est plus pertinente, plus factuelle et plus crédible grâce à sa capacité à accéder à une base de connaissances externe.

B) Si l'imbrication des étapes de raisonnement, d'action et d'observation accroît le caractère pratique et la crédibilité du ReAct, cette contrainte structurelle réduit également sa flexibilité dans la formulation des étapes de raisonnement.Nous notons que ReAct présente un modèle d'erreur spécifique fréquent, où le modèle régénère les pensées et les actions précédentes, que nous classons dans la catégorie des "erreurs de raisonnement" parce que le modèle ne parvient pas à raisonner de manière appropriée sur l'action suivante et sort de la boucle.

C) Pour le ReAct, il est essentiel de réussir à récupérer les connaissances informationnelles par le biais de la recherche.Les recherches non informatives ont représenté 23% des cas d'erreur, faisant dérailler le raisonnement du modèle et rendant difficile la récupération et le recadrage des idées. Il peut s'agir d'un compromis attendu entre la factualité et la flexibilité, ce qui nous a incités à proposer une stratégie combinant les deux approches.

L'annexe E.1 fournit des exemples pour chaque mode de réussite et d'échec. Nous avons également constaté que certaines questions de HotpotQA pouvaient contenir des libellés de réponse obsolètes (voir la figure 4 pour un exemple).

ReAct + CoT-SC a obtenu les meilleurs résultats en ce qui concerne l'incitation aux MLD.Comme le montre le tableau 1, les meilleures méthodes de repérage pour HotpotQA et Fever sont respectivement ReAct → CoT-SC et CoT-SC → ReAct. En outre, la figure 2 montre les performances des différentes méthodes lors de l'utilisation de différents nombres d'échantillons CoT-SC. Bien que les deux méthodes ReAct + CoT-SC présentent des avantages dans leurs tâches respectives, elles surpassent toutes deux de manière significative et constante CoT-SC en utilisant seulement 3 à 5 échantillons parmi un nombre variable d'échantillons, un résultat qui démontre la valeur d'une combinaison appropriée de connaissances internes au modèle avec des connaissances externes à la tâche de raisonnement.

Figure 2 : Résultats du PaLM-540B présentés en fonction du nombre d'échantillons CoT-SC utilisés.

Le ReAct fonctionne de manière optimale en termes de réglage fin.La figure 3 montre les effets étendus des repères et du réglage fin pour les quatre méthodes (Standard, CoT, Act, ReAct) sur HotpotQA. Dans le PaLM-8/62B, l'incitation ReAct est la moins performante des quatre méthodes en raison de la difficulté d'apprendre à raisonner et à agir à partir de scénarios. Cependant, lorsqu'il a été affiné avec seulement 3 000 exemples, ReAct est devenu la meilleure des quatre méthodes, ReAct affiné pour PaLM-8B étant plus performant que toutes les méthodes d'incitation PaLM-62B et ReAct affiné pour PaLM-62B étant plus performant que toutes les méthodes d'incitation 540B. En revanche, le réglage fin de Standard ou CoT a obtenu des résultats nettement moins bons que le réglage fin de ReAct ou Act, dans PaLM8/62B, le premier enseignant principalement au modèle à mémoriser des connaissances (éventuellement fictives), et le second enseignant au modèle comment (raisonner et) agir en obtenant des informations de Wikipédia, ce qui est une compétence plus générale de raisonnement sur les connaissances. Étant donné que toutes les méthodes de repérage sont encore nettement inférieures à l'état de l'art spécifique au domaine (tableau 1), nous pensons qu'une mise au point avec davantage de données écrites par des humains pourrait être un meilleur moyen d'exploiter les capacités du ReAct.

Figure 3 : Résultats étendus pour le repérage et le réglage fin de HotPotQA à l'aide de ReAct (notre méthode) et de lignes de base.

4 Tâches décisionnelles

Nous avons également testé ReAct sur deux tâches interactives de prise de décision basées sur le langage, ALFWorld et WebShop, deux environnements complexes qui demandent aux intelligences d'agir sur de longues périodes de temps avec des récompenses éparses, ce qui demande aux intelligences de raisonner efficacement afin d'agir et d'explorer.

ALFWorld ALFWorld (Figure 1(2)) est un jeu synthétique basé sur du texte conçu pour s'aligner sur le benchmark ALFRED incarné. Il se compose de 6 types de tâches dans lesquelles les intelligences doivent naviguer à travers des actions textuelles (par exemple, aller à la table basse1 , prendre le dossier2 , utiliser la lampe de bureau1 ) et interagir avec une famille simulée pour atteindre des objectifs de haut niveau (par exemple, vérifier le dossier sous la lampe de bureau). Une tâche peut comporter plus de 50 emplacements et nécessiter plus de 50 étapes de stratégie experte pour être résolue, ce qui oblige les intelligences à planifier et à suivre les sous-objectifs ainsi qu'à explorer systématiquement (par exemple, vérifier toutes les tables une par une pour trouver la lampe de bureau). En particulier, l'un des défis intégrés dans ALFWorld est la nécessité de déterminer les emplacements probables d'objets ménagers courants (par exemple, une lampe de table est susceptible de se trouver sur une table, une étagère ou une commode), ce qui rend ce contexte idéal pour que le LLM tire parti de ses connaissances de bon sens pré-entraînées. Pour guider ReAct, nous avons annoté au hasard trois trajectoires dans l'ensemble d'entraînement pour chaque type de tâche, chacune consistant en des idées éparses qui (1) décomposent l'objectif, (2) suivent l'achèvement du sous-objectif, (3) déterminent le sous-objectif suivant, et (4) trouvent l'emplacement de l'objet et ce qu'il faut en faire par le biais du raisonnement de bon sens. Nous présentons les indices utilisés pour ALFWorld à l'annexe C.4. En suivant l'approche de Shridhar et al., nous avons évalué 134 jeux d'évaluation inédits dans le cadre d'une tâche spécifique. Pour des raisons de robustesse, nous avons construit 6 indices pour chaque type de tâche à travers chaque permutation de chacune de nos 3 trajectoires annotées.les indices Act ont été construits en utilisant les mêmes trajectoires, mais sans idées - puisque les instances de tâches ont été sélectionnées aléatoirement à partir de l'ensemble d'entraînement, elles n'étaient pas biaisées vers ReAct ou Act, ce qui a permis une comparaison équitable et contrôlée. Act, ce qui permet une comparaison équitable et contrôlée pour tester l'importance des idées éparses. Comme référence, nous utilisons BUTLER, une intelligence d'apprentissage par imitation entraînée sur 105 trajectoires d'experts pour chaque type de tâche.

Boutique en ligne ReAct peut-il également interagir avec des environnements linguistiques bruyants du monde réel pour des applications pratiques ? Nous avons étudié WebShop, un environnement de site web d'achat en ligne récemment proposé avec 1,18 million de produits du monde réel et 12k instructions humaines. Contrairement à ALFWorld, Webshop contient une grande quantité de texte structuré et non structuré (par exemple, des titres de produits, des descriptions et des options provenant d'Amazon) et demande aux intelligences d'interagir avec lui sur la base des commandes de l'utilisateur (par exemple, "Je cherche une table de nuit avec des tiroirs. Elle doit avoir une finition nickel et coûter moins de 140 dollars") par le biais d'interactions web (par exemple, recherche de "tiroirs de table de nuit" et sélection de boutons tels que "Couleur : moderne nickel blanc" ou "Retourner à la recherche", sélection de boutons tels que "Tiroirs de table de nuit" et sélection de boutons tels que "Tiroirs de table de nuit"). recherche", en sélectionnant des boutons tels que "Couleur : Blanc nickel moderne" ou "Retour") pour acheter le produit. Cette tâche a été évaluée en fonction du score moyen (pourcentage des attributs requis couverts par le produit sélectionné, moyenne calculée sur l'ensemble des épisodes) et du taux de réussite (pourcentage d'épisodes dans lesquels le produit sélectionné répondait à toutes les exigences) sur 500 instructions de test. Nous avons développé des invites Act qui comprenaient des actions de recherche, de sélection de produits, de choix d'options et d'achat, tandis que les invites ReAct raisonnaient en plus pour déterminer ce qu'il fallait explorer, quand acheter et quelles options de produits étaient pertinentes par rapport aux instructions. Voir le tableau 6 pour les exemples d'invites et le tableau 10 en annexe pour les prédictions du modèle. Nous comparons ce modèle à une approche d'apprentissage par imitation entraînée avec 1012 trajectoires annotées personnellement, et à une approche supplémentaire d'apprentissage par imitation + renforcement (IL + RL) entraînée avec 10587 instructions d'entraînement.

en fin de compte Sur ALFWorld, l'expérience ReAct la plus performante atteint un taux de réussite moyen de 711 TP3T, ce qui dépasse largement les meilleures expériences Act (451 TP3T) et BUTLER (371 TP3T). En fait, l'expérience ReAct la moins performante (481 TP3T) a également dépassé les meilleures expériences des deux méthodes. En outre, l'avantage de ReAct sur Act a persisté sur les six expériences contrôlées, avec des gains de performance relatifs allant de 331 TP3T à 901 TP3T, avec une moyenne de 621 TP3T.D'un point de vue qualitatif, nous avons constaté qu'Act ne parvenait pas à décomposer correctement la cible en sous-cibles plus petites ou perdait la trace de l'état actuel de l'environnement en l'absence de toute réflexion. Des exemples de trajectoires comparant ReAct et Act sont présentés dans les annexes D.2.1 et D.2.2.

Tableau 3 : Taux de réussite spécifiques à la tâche d'AlfWorld (%). Les résultats pour BUTLER et BUTLERg sont tirés du tableau 4 de Shridhar et al. 2020b. Toutes les méthodes utilisent le décodage gourmand, à l'exception de BUTLER qui utilise la recherche par faisceau.

Tableau 4 : Scores et taux de réussite (SR) sur Webshop. Les données relatives à l'IL/IL+RL sont tirées de Yao et al. (2022).

Sur Webshop, les indices Act ponctuels ont pu aller de pair avec les méthodes IL et IL+RL. Avec un raisonnement clairsemé supplémentaire, ReAct obtient des performances nettement meilleures, avec une amélioration absolue de 10% par rapport au meilleur taux de réussite précédent. En examinant les exemples, nous avons constaté que ReAct est plus à même de combler le fossé entre les observations bruyantes et les actions en raisonnant pour identifier les produits et les options qui sont pertinents pour l'instruction (par exemple, "Pour le 'tabouret de salon à faible encombrement', l'article a une taille de ' 39x18x18inch' et 'bleu' qui semblent intéressantes à acheter"). . Cependant, les méthodes existantes sont encore bien moins performantes que les experts humains (tableau 4), qui explorent beaucoup plus les produits et reconstruisent les requêtes, ce qui reste un défi pour les méthodes basées sur des indices.

La valeur du raisonnement interne par rapport au retour d'information externe A notre connaissance, ReAct est la première démonstration de LLM appliquée à un système en boucle fermée combinant le raisonnement et l'action dans un environnement interactif. Le travail antérieur le plus proche est peut-être Internal Monologue (IM), de Huang et al. (2022b), dans lequel les actions des agents incarnés sont dirigées par le "monologue interne" éponyme.Toutefois, le "monologue interne" de l'IM se limite à des observations sur l'état de l'environnement et sur les tâches que l'agent doit accomplir pour atteindre ses objectifs.En revanche, le suivi de l'inférence décisionnelle dans ReAct est flexible et peu dense, ce qui permet d'induire divers types d'inférence pour différentes tâches (voir section 2).

Pour démontrer la différence entre ReAct et IM, et pour souligner l'importance du raisonnement interne par rapport aux simples réponses au feedback externe, nous avons mené des expériences d'ablation en utilisant un schéma de pensée composé d'un feedback externe dense de type IM. Comme le montre le tableau 3, ReAct a largement surpassé les invites de type IM (ReAct-IM) (71% contre 53% pour le succès global), avec des avantages constants sur cinq des six tâches. D'un point de vue qualitatif, nous avons observé que ReAct-IM commettait souvent des erreurs pour déterminer quand les sous-objectifs avaient été atteints ou quel devait être le sous-objectif suivant, en raison de l'absence de décomposition des objectifs de haut niveau. En outre, de nombreuses trajectoires de ReAct-IM ont également éprouvé des difficultés à déterminer l'emplacement des éléments dans l'environnement ALFWorld en raison d'un manque de raisonnement fondé sur le bon sens.
Le paradigme ReAct permet de remédier à ces deux lacunes. Des exemples de conseils pour ReAct-IM se trouvent à l'annexe C.4, et des exemples de trajectoires à l'annexe D.2.3.

5 Travaux connexes

Un modèle linguistique de raisonnement Le travail le plus connu sur le raisonnement avec les grands modèles de langage (LLM) est peut-être la chaîne de pensée (CoT), qui a révélé la capacité des LLM à formuler leurs propres "processus de pensée" pour résoudre des problèmes. Plusieurs travaux de suivi ont été menés depuis lors, y compris l'incitation la moins importante possible pour les tâches complexes, la CoT à zéro coup et le raisonnement par autoconsistance. Récemment, (Madaan & Yazdanbakhsh, 2022) ont étudié de manière systématique la construction et la structure des CdT et ont observé que la présence de symboles, de schémas et de textes est essentielle à l'efficacité des CdT.
D'autres travaux se sont également étendus à des architectures de raisonnement plus complexes qui vont au-delà des simples indications. Par exemple, Selection-Inference divise le processus d'inférence en étapes de "sélection" et d'"inférence", et STaR guide le processus d'inférence en affinant le modèle sur la base de l'inférence correcte générée par le modèle lui-même. Processus de raisonnement. Le raisonnement fidèle décompose le raisonnement en plusieurs étapes en trois étapes, chacune d'entre elles étant exécutée par un LM dédié. Des approches similaires, telles que Scratchpad, démontrent également des améliorations dans les problèmes de calcul à plusieurs étapes en affinant le LM sur les étapes de calcul intermédiaires.
Contrairement à ces approches, ReAct va au-delà d'un raisonnement isolé et fixe et intègre les actions du modèle et les observations correspondantes dans un flux d'entrée cohérent afin que le modèle puisse raisonner plus précisément et résoudre des tâches qui vont au-delà du raisonnement (par exemple, la prise de décision interactive).

Utilisation de modèles linguistiques pour la prise de décision. Les capacités des LLM puissants leur permettent d'effectuer des tâches qui vont au-delà de la génération de langage, et il est de plus en plus courant d'utiliser les LLM comme modèle de stratégie pour la prise de décision, en particulier dans les environnements interactifs. WebGPT utilise les LLM pour interagir avec les navigateurs web, pour naviguer dans les pages web et pour déduire des réponses à des questions complexes à partir de l'ELI5 . En revanche, WebGPT ne modélise pas explicitement les processus de réflexion et de raisonnement, mais s'appuie sur un retour d'information humain coûteux pour l'apprentissage par renforcement. Dans la modélisation du dialogue, des systèmes comme BlenderBot et Sparrow et des systèmes de dialogue axés sur les tâches comme SimpleTOD forment également les LM à prendre des décisions concernant les appels d'API. Contrairement au ReAct, ils ne prennent pas explicitement en compte le processus d'inférence et s'appuient sur des ensembles de données et de commentaires humains coûteux pour l'apprentissage des politiques. En revanche, ReAct apprend la politique d'une manière moins coûteuse, car le processus de prise de décision ne nécessite qu'un langage pour décrire le processus de raisonnement.

Les modèles de langage (LLM) sont également de plus en plus appliqués à la planification et à la prise de décision dans des environnements interactifs et incarnés. À cet égard, les modèles les plus pertinents pour le ReAct sont probablement SayCan etMonologue intérieurDans SayCan, les LLM sont invités à prédire directement les actions possibles du robot, qui sont ensuite réorganisées par un modèle de disponibilité basé sur l'environnement visuel pour faire la prédiction finale. Dans SayCan, les LLM sont invités à prédire directement les actions possibles du robot, qui sont ensuite réordonnées par un modèle de disponibilité basé sur l'environnement visuel pour faire la prédiction finale.Inner Monologue est encore amélioré par l'ajout du fameux "monologue intérieur", qui est mis en œuvre comme un feedback injecté depuis l'environnement. Le monologue intérieur est encore amélioré par l'ajout du fameux "monologue intérieur", qui est mis en œuvre sous la forme d'un retour d'information provenant de l'environnement. À notre connaissance, le monologue intérieur est le premier travail à démontrer un tel système en boucle fermée, et ReAct s'appuie sur lui. Cependant, nous soutenons que le monologue intérieur ne contient pas vraiment de pensée intérieure - ce point est détaillé dans la section 4. Nous notons également que l'utilisation du langage en tant qu'entrée sémantiquement riche dans les processus décisionnels interactifs s'est avérée fructueuse dans d'autres contextes. Il devient de plus en plus évident qu'avec les LLM, le langage en tant que mécanisme cognitif fondamental jouera un rôle clé dans l'interaction et la prise de décision. En outre, les progrès réalisés dans le domaine des LLM ont inspiré le développement d'agents polyvalents et à usage général tels que Reed et al.

6 Conclusion

Nous présentons ReAct, une méthode simple mais efficace pour coordonner le raisonnement et l'action dans de grands modèles de langage. Grâce à un ensemble varié d'expériences sur la réponse à des questions multi-sauts, la vérification des faits et les tâches de prise de décision interactives, nous montrons que ReAct permet d'obtenir des performances supérieures avec des chemins de décision analysables. Malgré la simplicité de notre approche, les tâches complexes dans les grands espaces d'action nécessitent plus d'exemples pour bien apprendre, ce qui peut facilement dépasser les limites de longueur d'entrée dans l'apprentissage contextuel. Nous avons testé l'approche affinée sur HotpotQA et les premiers résultats sont encourageants, mais l'apprentissage dans des annotations humaines de plus grande qualité devrait encore améliorer les performances. Le fait de permettre à ReAct de s'adapter à l'apprentissage multitâche, combiné à des paradigmes complémentaires tels que l'apprentissage par renforcement, peut donner lieu à des agents plus puissants qui libèrent le potentiel des LLM pour davantage d'applications.

A Conclusions complémentaires

A.1 Expérience GPT-3

Tableau 5 : Comparaison des résultats pour les invites ReAct utilisant PaLM-540B avec GPT-3 (text-davinci-002, greedy decoding). Pour HotpotQA, nous avons sélectionné au hasard un sous-ensemble de 500 questions de validation. Dans ALFWorld, nous avons utilisé les 134 instances non vues de la tâche de vérification avec le meilleur ensemble d'indices sélectionnés selon PaLM-540B.

Nous avons effectué des expériences supplémentaires avec le GPT-3 (Brown et al., 2020) pour confirmer la généralité des performances des indices du ReAct dans différents modèles de langage de grande taille. Comme le montre le tableau 5, le GPT-3 (text-davinci-002, décodage gourmand) surpasse systématiquement le PaLM-540B sur HotpotQA et ALFWorld, peut-être parce qu'il a été affiné pour suivre les instructions humaines. Cela suggère que l'indice ReAct est efficace dans différentes tâches pour différents grands modèles de langage. Le code de ces expériences est disponible à l'adresse suivante : https://react-lm.github.io/.

A.2 ReActer pour acquérir des connaissances actualisées sur HotpotQA

Figure 4 : Autre exemple de question de quiz sur les plats chauds où les étiquettes originales ne sont plus à jour. Seul ReAct a été en mesure d'obtenir les réponses les plus récentes grâce à des interactions réelles avec le web, associées à un raisonnement.

A.3 Corrections comportementales pour l'implication humaine dans le cycle sur ALFWorld

Nous avons également exploré les interactions de la boucle d'engagement humain avec le ReAct qui ont permis aux humains d'inspecter et de modifier les traces de raisonnement du ReAct. La figure 5 montre qu'en supprimant simplement une phrase hallucinatoire dans l'acte 17 et en ajoutant quelques indices dans l'acte 23, le ReAct peut être amené à modifier considérablement son comportement, à s'aligner sur ces modifications de la pensée humaine et à terminer la tâche avec succès. D'un point de vue humain, la résolution d'une telle tâche devient beaucoup plus facile, passant de la saisie de dizaines d'actions à l'édition de seulement quelques pensées, ce qui permet un nouveau type de collaboration homme-machine. Nous notons qu'une telle édition de stratégie est difficile pour Act et les approches RL précédentes car les humains ne peuvent pas modifier les paramètres du modèle et la modification de quelques actions peut ne pas modifier le reste du comportement du modèle. Ce paradigme va également au-delà du dialogue humain pour mettre à jour les objectifs ou les sousobjectifs, comme décrit dans Huang et al. (2022b) - alors que l'édition des idées ReAct peut faire tout cela, elle peut également modifier toutes les croyances internes du modèle, les styles de raisonnement, ou le soutien de l'espace de pensée flexible pour mieux résoudre la tâche. Nous pensons qu'il s'agit là d'une direction passionnante pour l'alignement humain et nous laissons des recherches plus systématiques pour l'avenir.

Figure 5 : Exemples de corrections comportementales de l'IHM à l'aide de ReAct dans AlfWorld. (a) La trajectoire ReAct échoue en raison d'une pensée hallucinatoire (comportement 17). (b) En modifiant simplement les deux esprits (comportements 17, 23) par un humain, la trajectoire ReAct produit la trajectoire de raisonnement et l'action souhaitées avec succès.

B Détails expérimentaux

B.1 Mise au point des détails du quiz sur les sujets d'actualité

Pour tous les réglages fins, nous utilisons une taille de lot de 64. Sur le PaLM-8B, nous effectuons 4 000 pas de réglage fin pour les méthodes ReAct et Act, et 2 000 pas de réglage fin pour les méthodes Standard et CoT. Sur le PaLM-62B, nous avons affiné les méthodes ReAct et Act de 4 000 pas et les méthodes Standard et CoT de 1 000 pas. Nous constatons que les méthodes ReAct et Act bénéficient généralement d'un plus grand nombre d'étapes d'entraînement (et de données d'entraînement), tandis que les méthodes standard et CoT commencent à se dégrader peu de temps après le réglage fin.

B.2 Détails du style ALFWORLD Instant

Pour les expériences d'ablation immédiate du style, les mêmes trajectoires d'experts utilisées dans le ReAct ont été réannotées, et ces trajectoires contenaient en interne un raisonnement dense de rétroaction externe qui limitait le ReAct-IM à ne considérer que (1) la décomposition de l'objectif actuel et (2) le sous-objectif actuel qui doit être achevé. Plus précisément, ReAct-IM manque de (1) la pensée qui détermine quand un sous-but est terminé (2) la pensée qui détermine quel devrait être le prochain sous-but (3) la pensée qui induit le LLM à se référer à ses connaissances internes pré-entraînées afin d'identifier les emplacements possibles des éléments dans l'environnement.

C PROMPTS

C.1 Quiz sur les sujets d'actualité

Conseils pour les questions-réponses

Original
Question	Réponse
Quelle est l'altitude de la zone dans laquelle s'étend le secteur oriental de l'orogenèse du Colorado ?	1 800 à 7 000 pieds
La musicienne et satiriste Allie Goertz a écrit une chanson sur les Simpsons. caractère Qui Matt Groening a-t-il nommé après Nixon ?	Richard Nixon
Quel documentaire porte sur les groupes de rock finlandais, Adam Clayton Powell ou The Saimaa Gesture ?	Le geste de Saimaa
Quelle profession Nicholas Ray et Elia Kazan ont-ils en commun ?	Réalisateur, scénariste, acteur
Quel magazine a été créé en premier, Arthur's Magazine ou First for Women ?	Magazine d'Arthur
Pavel Urysohn et Leonid Levin sont-ils connus pour le même type de travail ?	Oui

Original
questions	solution
Quelle est l'altitude de l'extension orientale de l'orogenèse du Colorado ?	1 800 à 7 000 pieds
La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage des Simpsons, Milhouse, Matt Groening, qui porte le nom de quel homme de Nixon ?	Richard Nixon.
Quel documentaire porte sur le groupe de rock finlandais Adam Clayton Powell ou sur les actions de Saimaa ?	Opération Saïmaa
Quelles carrières ont en commun Nicholas Ray et Elia Kazan ?	Réalisateur, scénariste, acteur
Quel magazine a été fondé en premier, Arthur's Magazine ou First for Women ?	Magazine d'Arthur
Pavel Urizon et Leonid Levin sont-ils connus pour le même type de travail ?	être

Agir
Question	Action	Observation
Quelle est l'altitude de la région dans laquelle s'étend le secteur oriental de l'orogenèse du Colorado ?	Recherche [Orogénèse du Colorado]	L'orogenèse du Colorado est un épisode de formation de montagnes (orogenèse) au Colorado et dans les régions avoisinantes.
	Recherche [secteur oriental]	(Résultat 1 / i) Le secteur oriental s'étend dans les Hautes Plaines et s'appelle l'orogenèse des Plaines centrales.
	Recherche [High Plains]	Les Hautes Plaines désignent l'une des deux régions terrestres distinctes.
	Recherche[Hautes Plaines (États-Unis)]	Les Hautes Plaines sont une sous-région des Grandes Plaines. D'est en ouest, les Hautes Plaines s'élèvent d'environ 1 800 à 7 000 pieds (550 à 2 130 m)[3]. [3]
	Finition	[1 800 à 7 000 ft]
La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage des Simpsons, Milhouse, que Matt Groening a nommé d'après qui ?	Recherche [Milhouse]	Milhouse Mussolini Van Houten est un personnage récurrent de la série télévisée d'animation de la Fox Les Simpson, interprété par Pamela Hayden et créé par Matt Groening. Les Simpson, interprété par Pamela Hayden et créé par Matt Groening.
	Recherche [nommé d'après]	(Résultat 1 / l) Milhouse a été nommé d'après le président américain Richard Nixon, dont le deuxième prénom était Milhous.
	Finition	[Richard Nixon]
Quel documentaire porte sur les groupes de rock finlandais, Adam Clayton Powell ou The Saimaa Gesture ?	Recherche [Adam clayton Powell]	Impossible de trouver [Adam Clayton Powell]. Similaires : ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State office Building', 'Isabel Washington Powell', 'Adam Clayton Powell (film)', 'Adam Clayton Powell (film)']. Powell", "Adam Clayton Powell (film)", "Giancarlo Esposito"].
	Recherche [Adam clayton Powell (film)]	Adam clayton Powell est un film documentaire américain réalisé en 1989 par Richard Kilberg, sur l'ascension et la chute de l'influent homme politique afro-américain Adam clayton Powell Jr.[3][4] Il a ensuite été diffusé dans le cadre de la série The American Experience. Le film raconte l'ascension et la chute de l'influent homme politique afro-américain Adam Clayton Powell Jr.[3][4] Il a été diffusé plus tard dans le cadre de la série The American Experience.
	Finition	[Le geste de Saimaa]
Quelle profession Nicholas Ray et Elia Kazan ont-ils en commun ?	Recherche [Nicholas Ray]	Nicholas Ray (né Raymond Nicholas Kienzle Jr., ) 7 août 1911 - 16 juin 1979) est un réalisateur, scénariste et acteur américain surtout connu pour le film Rebel Without Cause (1955). film Rebel Without a Cause (1955).
	Recherche [Elia Kazan]	Elia Kazan était un réalisateur, producteur, scénariste et acteur américain de cinéma et de théâtre.
	Finir [réalisateur, scénariste, acteur]
Quel magazine a été créé en premier ? Arthur's Magazine ou First for Women ?	Recherche [Arthur's Magazine]	Arthur's Magazine (1844-1846) était un périodique littéraire américain publié à Philadelphie au XIXe siècle.
	Recherche [Première pour les femmes]	First for Women est un magazine féminin publié par Bauer Media Group aux États-Unis[1]. Le magazine a été lancé en 1989.
	Finir [Arthur's Magazine]
Pavel Urysohn et Leonid Levin étaient-ils connus pour le même type de travail ?	Recherche [Pavel Urysohn]	Pavel Samuilovich Urysohn (3 février 1898 - 17 août 1924) était un mathématicien soviétique principalement connu pour ses contributions à la théorie des dimensions.
	Recherche [Leonid Levin]	Leonid Anatolievich Levin est un mathématicien soviétique et américain. ordinateur scientifique.
	Finir[oui]

Agir
questions	mouvements	tenir compte
Quelle est l'altitude de la zone dans laquelle s'étend la partie orientale de l'orogenèse du Colorado ?	Recherche [Campagne de construction des montagnes du Colorado]	L'orogenèse du Colorado est un mouvement de formation de montagnes (orogenèse) qui s'est produit au Colorado et dans ses environs.
	Trouver [Secteur Est]	(Résultats 1 / i) La partie orientale s'étend dans les Hautes Plaines et est connue sous le nom d'orogenèse des Plaines centrales.
	Recherche [High Plains]	Les Hautes Plaines désignent l'une de deux zones distinctes :
	Recherche [High Plains (USA)]	Les Hautes Plaines sont une sous-région des Grandes Plaines. D'est en ouest, l'altitude des Hautes Plaines passe d'environ 1 800 pieds (550 mètres) à 7 000 pieds (2 130 mètres)[3]. [3]
	remplir	[1 800 à 7 000 pieds].
La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage des Simpsons, Milhouse, d'après qui Matt Groening a nommé le personnage ?	Recherche [Milhouse]	Milhouse Mussolini Van Houten est un personnage résident de la série télévisée animée Les Simpson, diffusée sur la chaîne Fox, dont la voix est interprétée par Pamela Hayden et qui a été créée par Matt Groening.
	Trouver [source nommée]	(Résultats 1 / l) Milhouse a été nommé en l'honneur de Richard Nixon, président des États-Unis, dont le deuxième prénom était Milhous.
	remplir	[Richard Nixon]
Quel documentaire porte sur un groupe de rock finlandais, Adam Clayton Powell ou The Saimaa Gesture ?	Recherche [Adam Clayton Powell]	Aucun [Adam Clayton Powell] n'a été trouvé. Similaires : ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell', 'Adam Clayton Powell (film)', 'Giancarlo Esposito'].
	Recherche [Adam Clayton Powell (film)]	Adam Clayton Powell est un film documentaire américain de 1989 réalisé par Richard Kilberg. Le film retrace l'ascension et la chute de l'influent homme politique afro-américain Adam Clayton Powell Jr. [Il a été diffusé plus tard dans le cadre de la série The American Experience de la chaîne PBS.
	remplir	[Le geste de Saimaa]
Quelles carrières ont en commun Nicholas Ray et Elia Kazan ?	Recherche [Nicholas Ray]	Nicholas Ray (de son vrai nom Raymond Nicholas Kienzle Jr.,) 7 août 1911 - 16 juin 1979) était un réalisateur, scénariste et acteur américain, surtout connu pour le film Rebel Without a Cause (1955).
	Recherche [Elia Kazan]	Elia Kazan est un réalisateur, producteur, scénariste et actrice de cinéma et de théâtre américain.
	Terminé [réalisateur, scénariste, acteur]
Quel magazine a été créé en premier, Arthur's Magazine ou First for Women ?	Recherche [Arthur's Magazine].	Arthur's Magazine (1844-1846) était une revue littéraire américaine publiée à Philadelphie, aux États-Unis, au XIXe siècle.
	Recherche [Première pour les femmes]	First for Women est un magazine féminin publié aux États-Unis par Bauer Media Group[1] et fondé en 1989. [1] Le magazine a été lancé en 1989.
	Finir [Arthur's Magazine]
Pavel Urysohn et Leonid Levin sont-ils connus pour le même type de travail ?	Recherche [Pavel Urysohn]	Pavel Samuilovich Urysohn (3 février 1898 - 17 août 1924) était un mathématicien soviétique surtout connu pour ses contributions à la théorie des nombres dimensionnels.
	Recherche [Leonid Levin]	Leonid Anatolievich Levin était un mathématicien et informaticien soviéto-américain.
	Complété [oui]

CoT
Question	Pensée	Réponse
Quelle est l'altitude de la région dans laquelle s'étend le secteur oriental de l'orogenèse du Colorado ?	Réfléchissons étape par étape. Le secteur oriental de l'orogenèse du Colorado s'étend jusqu'aux Hautes Plaines. Les Hautes Plaines s'élèvent d'environ 1 800 à 7 000 pieds, la réponse est donc 1 800 à 7 000 pieds. Les hautes plaines s'élèvent d'environ 1 800 à 7 000 pieds, la réponse est donc 1 800 à 7 000 pieds.	1 800 à 7 000 pieds
La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage des Simpsons, Milhouse, que Matt Groening a nommé d'après qui ?	Milhouse a été nommé d'après le président américain Richard Nixon, la réponse est donc Richard Nixon.	Richard Nixon
Quel documentaire porte sur les groupes de rock finlandais, Adam Clayton Powell ou The Saimaa Gesture ?	Adam Clayton Powell (film) est un documentaire sur un homme politique afro-américain, pas sur des groupes de rock finlandais. Adam Clayton Powell (film) est un documentaire sur un homme politique afro-américain, et non sur des groupes de rock finlandais.	Le geste de Saimaa
Quelle profession Nicholas Ray et Elia Kazan ont-ils en commun ?	Les professions de Nicholas Ray sont réalisateur, scénariste et acteur. Les professions d'Elia Kazan sont réalisateur, producteur, scénariste et acteur. Les professions d'Elia Kazan sont celles de réalisateur, producteur et acteur.	réalisateur, scénariste, acteur
Quel magazine a été créé en premier ? Arthur's Magazine ou First for Women ?	Réfléchissons étape par étape. Arthur's Magazine a été créé en 1844 et First for Women en 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), donc Arthur's Magazine a été créé en premier.	Magazine d'Arthur
Pavel Urysohn et Leonid Levin étaient-ils connus pour le même type de travail ?	Réfléchissons étape par étape : Pavel Urysohn est mathématicien, Leonid Levin est mathématicien et informaticien. Pavel Urysohn et Leonid Levin ont donc le même type de travail.	Oui

CoT
questions	processus de réflexion	solution
Quelle est l'altitude de la zone dans laquelle s'étend la partie orientale de l'orogenèse du Colorado ?	Examinons cela étape par étape. La partie orientale de l'orogenèse du Colorado s'étend jusqu'aux Hautes Plaines. L'altitude des Hautes Plaines s'élève d'environ 1 800 pieds à 7 000 pieds, la réponse est donc 1 800 à 7 000 pieds.	1 800 à 7 000 pieds
La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage des Simpsons, Milhouse, d'après qui Matt Groening a nommé le personnage ?	Milhouse porte le nom de Richard Nixon, président des États-Unis, la réponse est donc Richard Nixon.	Richard Nixon.
Le documentaire porte-t-il sur le groupe de rock finlandais Adam Clayton Powell ou sur The Semaja Gesture ?	Examinons les choses étape par étape. Adam Clayton Powell (film) est un documentaire sur un homme politique afro-américain, pas sur un groupe de rock finlandais. Un documentaire sur un groupe de rock finlandais serait donc The Semaja Gesture.	Le geste de Semaya
Quelles carrières ont en commun Nicholas Ray et Ilya Kazan ?	Examinons-le pas à pas. Nicholas Ray est réalisateur, scénariste et acteur. La profession d'Ilya Kazan est réalisateur, producteur, scénariste et acteur. Nicholas Ray et Ilya Kazan partagent donc la profession de réalisateur, scénariste et acteur.	Réalisateur, scénariste, acteur
Arthur's Magazine ou First for Women ont-ils été créés en premier ?	Examinons la situation étape par étape. Arthur's Magazine a été fondé en 1844. First for Women a été fondé en 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), donc Arthur's Magazine a été fondé en premier.	Magazine d'Arthur
Pavel Urysohn et Leonid Levin sont-ils connus pour le même type de travail ?	Pavel Urysohn est mathématicien et Leonid Levin est mathématicien et informaticien. Pavel Urysohn et Leonid Levin ont donc le même type de travail.	être

ReAct
Question	Pensée	Action	Observation
Quelle est l'altitude de la région dans laquelle s'étend le secteur oriental de l'orogenèse du Colorado ?	Je dois rechercher l'orogenèse du Colorado, trouver la zone dans laquelle s'étend le secteur oriental de l'orogenèse du Colorado, puis trouver la fourchette d'altitude de cette zone.	Recherche [Orogénèse du Colorado]	L'orogenèse du Colorado est un épisode de formation de montagnes (anorogenèse) au Colorado et dans les régions avoisinantes.
	Il ne mentionne pas le secteur oriental, il faut donc que je cherche à savoir ce qu'est le secteur oriental.	Recherche [secteur oriental]	(Résultat 1 / 1) Le secteur oriental s'étend dans les Hautes Plaines et s'appelle l'orogenèse des Plaines centrales.
	Le secteur oriental de l'orogenèse du Colorado s'étend jusqu'aux Hautes Plaines. Je dois donc rechercher les Hautes Plaines et trouver leur zone d'altitude.	Recherche [High Plains]	Les Hautes Plaines désignent l'une des deux régions terrestres distinctes suivantes
	Je dois plutôt chercher High Plains (États-Unis).	Recherche[Hautes Plaines (États-Unis)]	Les Hautes Plaines sont une sous-région des Grandes Plaines. D'est en ouest, les Hautes Plaines s'élèvent d'environ 1 800 à 7 000 pieds (550 à 2 130 m)[3]. [3]
	Les hautes plaines s'élèvent d'environ 1 800 à 7 000 pieds, ce qui donne la réponse suivante est comprise entre 1 800 et 7 000 pieds.	Finition [1 800 à 7 000 ft]

La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage des Simpsons, Milhouse, que Matt Groening a nommé d'après qui ?	La question se résume à "Milhouse, le personnage des Simpsons, porte le nom de qui". Il me suffit de faire une recherche sur Milhouse et de trouver son nom.	Recherche [Milhouse]	Milhouse Mussolini Van Houten est un personnage récurrent de la série télévisée d'animation de la Fox Les Simpson, interprété par Pamela Hayden et créé par Matt Groening. Les Simpson, interprété par Pamela Hayden et créé par Matt Groening.
	Le paragraphe ne dit pas d'où vient le nom de Milhouse, je peux peut-être chercher "d'où vient le nom".	Recherche [nommé d'après]	(Résultat 1 / 1) Milhouse a été nommé d'après le président américain Richard Nixon, dont le deuxième prénom était Milhous.
	Milhouse a été nommé d'après le président américain Richard Nixon, la réponse est donc Richard Nixon.	Finir [Richard Nixon]
Quel documentaire porte sur les groupes de rock finlandais, Adam Clayton Powell ou The Saimaa Gesture ?	Je dois rechercher Adam Clayton Powell et The Saimaa Gesture, et trouver quel documentaire porte sur les groupes de rock finlandais.	Recherche [Adam Clayton Powell]	Impossible de trouver [Adam Clayton Powell]. Similaires : ['Adam Clayton Powell III', 'Seventh Avenue (Manhattan)', 'Adam Clayton Powell Jr. Clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell ', 'Adam Clayton Powell (film)', 'Giancarlo Esposito'].
	Pour trouver le documentaire, je peux faire une recherche sur Adam Clayton Powell (film).	Recherche [Adam Clayton Powell (film)]	Adam Clayton Powell est un film documentaire américain réalisé en 1989 par Richard Kilberg, qui retrace l'ascension et la chute de l'influent homme politique afro-américain Adam Clayton Powell Jr.[3][4] Il a ensuite été diffusé dans le cadre de la série PBS The American Experience. Le film raconte l'ascension et la chute de l'influent homme politique afro-américain Adam Clayton Powell Jr.[3][4] Il a ensuite été diffusé dans le cadre de la série The American Experience de la chaîne PBS.
	Adam Clayton Powell (film) est un documentaire sur un homme politique afro-américain, et non sur des groupes de rock finlandais. Le documentaire sur les groupes de rock finlandais doit donc être The Saimaa Gesture. Le documentaire sur les groupes de rock finlandais doit donc être The Saimaa Gesture.	Finir [Le geste de Saimaa]
Quelle profession Nicholas Ray et Elia Kazan ont-ils en commun ?	Je dois rechercher Nicholas Ray et Elia Kazan, trouver leurs professions, puis la profession qu'ils ont en commun.	Recherche [Nicholas Ray]	Nicholas Ray (né Raymond Nicholas Kienzle Jr., 7 août 1911 - 16 juin 1979) est un réalisateur, scénariste et acteur américain surtout connu pour le film Rebel Without Cause (1955). film Rebel Without a Cause (1955).
	Les professions de Nicholas Ray sont réalisateur, scénariste et acteur. Je dois ensuite rechercher Elia Kazan et trouver ses professions.	Recherche [Elia Kazan]	Elia Kazan était un réalisateur, producteur, scénariste et acteur américain de cinéma et de théâtre.
	Les professions d'Elia Kazan sont réalisateur, producteur, scénariste et acteur. La profession que Nicholas Ray et Elia Kazan ont en commun est donc celle de réalisateur, de scénariste et d'acteur.	Finir [réalisateur, scénariste, acteur]
Quel magazine a été créé en premier ? Arthur's Magazine ou First for Women ?	Je dois faire une recherche sur Arthur's Magazine et First for Women, et trouver lequel a été lancé en premier.	Recherche [Arthur's Magazine]	Arthur's Magazine (1844-1846) était un périodique littéraire américain publié à Philadelphie au XIXe siècle.
	Le Arthur's Magazine a été créé en 1844. Je dois rechercher First for Women ensuite.	Recherche [Première pour les femmes]	First for Women est un magazine féminin publié par Bauer Media Group aux États-Unis[1]. Le magazine a été lancé en 1989.
	First for Women a été lancé en 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), donc Arthur's Magazine a été lancé en premier. .	Finir [Arthur's Magazine]
Pavel Urysohn et Leonid Levin étaient-ils connus pour le même type de travail ?	Je dois rechercher Pavel Urysohn et Leonid Levin, trouver leurs types de travaux, puis déterminer s'il s'agit des mêmes.	Recherche [Pavel Urysohn]	Pavel Samuilovich Urysohn (3 février 1898 - 17 août 1924) était un mathématicien soviétique principalement connu pour ses contributions à la théorie des dimensions.
	Pavel Urysohn est un mathématicien, il faut que je cherche ensuite Leonid Levin pour trouver son type de travail.	Recherche [Leonid Levin]	Leonid Anatolievich Levin est un mathématicien et informaticien soviéto-américain.
	Leonid Levin est mathématicien et informaticien. Pavel Urysohn et Leonid Levin ont donc le même type de travail.	Finir[oui]

ReAct
questions	réflexions	acte
Quelle est l'altitude de la région dans laquelle s'étend la partie orientale de la ceinture orogénique du Colorado ?	Je dois rechercher la ceinture orogénique du Colorado, trouver la zone dans laquelle s'étend la partie orientale, puis trouver la fourchette d'altitude de cette zone.	Recherche [ceinture orogénique du Colorado]
	Il n'est pas fait mention de la partie orientale. Je dois donc rechercher la section orientale.	Trouver [Secteur Est]
	La partie orientale de la ceinture orogénique du Colorado s'étend jusqu'aux Hautes Plaines. Je dois donc rechercher les Hautes Plaines et trouver leur zone d'altitude.	Recherche [High Plains]
	L'altitude des Hautes Plaines s'élève d'environ 1 800 pieds à 7 000 pieds, la réponse est donc 1 800 pieds à 7 000 pieds.	Achèvement [1800 ft à 7000 ft]

La musicienne et satiriste Allie Goertz a écrit une chanson sur le personnage de Milhouse dans "Les Simpson", d'après qui Matt Groening a-t-il nommé Milhouse ?	La question est simplifiée : de qui le personnage Milhouse porte-t-il le nom dans "Les Simpson" ? Il me suffit de rechercher Milhouse et de trouver son nom.	Recherche [Milhouse]
	Le paragraphe ne dit pas d'après qui Milhouse est nommé, alors je peux peut-être chercher "nommé d'après...". Nommé d'après".	Trouver [nommé d'après... Nom]
	Milhouse porte le nom du président américain Richard Nixon, la réponse est donc Richard Nixon.	Terminé [Richard Nixon]
Le documentaire porte-t-il sur le groupe de rock finlandais Adam Clayton Powell ou sur The Saimaa Gesture ?	Je dois rechercher Adam Clayton Powell et The Saimaa Gesture et découvrir quel documentaire porte sur un groupe de rock finlandais.	Recherche [Adam Clayton Powell]
	Pour trouver le documentaire, je chercherais Adam Clayton Powell (film).	Recherche [Adam Clayton Powell (film)]
	Adam Clayton Powell (film) est un documentaire sur un homme politique afro-américain, pas sur un groupe de rock finlandais. Un documentaire sur un groupe de rock finlandais devrait donc être The Saimaa Gesture.	Finir [Le geste de Saimaa]
Quelles carrières ont en commun Nicholas Ray et Elia Kazan ?	Je dois rechercher Nicholas Ray et Elia Kazan, trouver leurs professions, puis trouver les professions qu'ils ont en commun.	Recherche [Nicholas Ray]
	La profession de Nicholas Ray était réalisateur, scénariste et acteur. Je dois maintenant rechercher Elia Kazan et trouver sa profession.	Recherche [Elia Kazan]
	Elia Kazan est réalisateur, producteur, scénariste et acteur. Nicholas Ray et Elia Kazan partagent donc la même profession de réalisateur, scénariste et acteur.	Achèvement [réalisateur, scénariste, acteur]
Quel magazine a été créé en premier, Arthur's Magazine ou First for Women ?	Il faut que je recherche Arthur's Magazine et First for Women pour savoir lequel a démarré en premier.	Recherche [Arthur's Magazine].
	Arthur's Magazine a été fondé en 1844. Je dois ensuite rechercher "First for Women".	Recherche [Première pour les femmes]
	First for Women a été fondé en 1989. 1844 (Arthur's Magazine) < 1989 (First for Women), donc Arthur's Magazine a été fondé en premier.	Finir [Arthur's Magazine]
Pavel Urysohn et Leonid Levin sont-ils connus pour le même type de travail ?	Je dois faire des recherches sur Pavel Urysohn et Leonid Levin pour savoir quel type de travail ils font et si ce sont les mêmes.	Recherche [Pavel Urysohn]
	Pavel Urysohn est mathématicien. Je dois maintenant rechercher Leonid Levin pour savoir quel type de travail il effectue.	Recherche [Leonid Levin]
	Leonid Levin est mathématicien et informaticien. Pavel Urysohn et Leonid Levin ont donc le même type d'emploi.	Complété [oui]

C.2 Extraction de faits et données de validation/FEVER

FEVER Prompts

Original
Question : Déterminer s'il existe des observations qui appuient ou réfutent une allégation, ou s'il n'y a pas suffisamment d'informations.
Réclamation	Réponse
Nikolaj Coster-Waldau a travaillé avec la Fox Broadcasting Company.	SOUTIEN
Stranger Things se déroule à Bloomington, dans l'Indiana.	REFUS
Beautiful a atteint la deuxième place du Billboard Hot 100 en 2003.	PAS ASSEZ D'INFORMATIONS

Original
QUESTION : Déterminer si des observations appuient ou réfutent l'affirmation, ou si les informations sont insuffisantes.
représentations	solution
Nikolaj Coster-Waldau a travaillé avec Fox Broadcasting Co.	adjuvant
Stranger Things se déroule à Bloomington, dans l'Indiana.	cornue
La chanson "Beautiful" a atteint la deuxième place du Billboard Hot 100 en 2003.	Informations insuffisantes

Agir
Question : Déterminer s'il existe des observations qui appuient ou réfutent une allégation, ou s'il n'y a pas suffisamment d'informations.
Réclamation	Action	Observation
Nikolaj Coster-waldau a travaillé avec la Fox Broadcasting Company.	Rechercher [Nikolaj Coster-Waldau]	Nikolaj William Coster-Waldau (né le 27 juillet 1970) est un acteur et producteur danois. Diplômé de l'École nationale danoise des arts du spectacle de Copenhague en 1993[1], il s'est fait connaître au Danemark avec le film Nightwatch (1994). Il est diplômé de l'École nationale danoise des arts du spectacle de Copenhague en 1993[1] et a joué son premier rôle au Danemark dans le film Nightwatch (1994). Il a joué le rôle de Jaime Lannister dans la série dramatique fantastique de HBO Game of Thrones, pour laquelle il a reçu deux nominations aux Primetime Emmy Awards dans la catégorie "Meilleur second rôle dans un drame". Second rôle dans une série dramatique. Coster-Waldau a joué dans de nombreux films dans son pays natal, le Danemark, et en Scandinavie, notamment Headhunters (2011) et A Thousand Times Good Night (2013). . Aux États-Unis, il a joué son premier rôle dans le film de guerre Black Hawk Down (2001), dans lequel il incarnait Gary Gordon, récipiendaire d'une médaille d'honneur[2], puis dans la série télévisée éphémère de la Fox New York City, dans laquelle il jouait un détective. Aux États-Unis, il a joué son premier rôle dans le film de guerre Black Hawk Down (2001), avec Gary Gordon, récipiendaire d'une médaille d'honneur.[2] Il a ensuite joué un détective dans l'éphémère série télévisée de la Fox New Amsterdam (2008), et est apparu dans le téléfilm de la Fox Virtuality (2009), qui devait à l'origine être un pilote.
	Finir [SUPPORTS]
Stranger Things se déroule à Bloomington, dans l'Indiana.	Rechercher [Stranger Things]	Stranger Things est une série télévisée américaine de science-fiction et d'horreur créée par les frères Duffer. La série se déroule dans les années 1980, principalement dans la ville fictive de Hawkins, dans l'Indiana, et se concentre sur un certain nombre de mystères et d'événements surnaturels qui se produisent autour de la ville et leur impact sur un ensemble de personnages enfants et adultes. La série est composée d'un ensemble de personnages enfants et adultes.
	Finition [REFUTES]
Beautiful a atteint la deuxième place du Billboard Hot 100 en 2003.	Recherche [Belle]	N'a pas trouvé [Beautiful]. Similar : ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	Recherche [Beautiful (chanson de Christina Aguilera)	"Beautiful" est une chanson enregistrée par la chanteuse américaine Christina Aguilera pour son quatrième album studio, Stripped (2002).
	Lookup [Billboard Hot 100]	(Résultat 1 / 3) La chanson a atteint la deuxième place du Billboard Hot 100 aux États-Unis, où elle a été certifiée Or pour 500 000 unités expédiées.
	Finir [PAS ASSEZ D'INFOS]

Agir
Problème : déterminer si une observation soutient ou réfute une affirmation ou si les informations sont insuffisantes.
représentations	acte	tenir compte
Nikolaj Coster-waldau a travaillé avec Fox Broadcasting Company.	Rechercher [Nikolaj Coster-Waldau]	Nikolaj William Coster-Waldau (né le 27 juillet 1970) est un acteur et producteur danois. Diplômé de l'Académie nationale danoise des arts du spectacle de Copenhague en 1993[1], il décroche son premier rôle au Danemark grâce au film Night Watch (1994). Son interprétation de Jaime Lannister dans la série fantastique de HBO Game of Thrones lui vaut deux nominations au Primetime Emmy Award du meilleur acteur dans un second rôle dans une série dramatique.Coster-Waldau est apparu dans de nombreux films dans son pays d'origine, le Danemark, et en Scandinavie, notamment Headhunters (2011) et A Thousand Times Goodnight (2013). Aux États-Unis, son premier rôle au cinéma a été celui du récipiendaire de la médaille d'honneur Gary Gordon dans le film de guerre Black Hawk Down (2001)[2] Il a également joué le rôle d'un détective dans la série télévisée éphémère de la Fox New Amsterdam (2008) et est apparu dans le téléfilm de la Fox Virtua Fighter (2009), qui devait à l'origine être un épisode pilote.
	Fait [supporté]
Stranger Things se déroule à Bloomington, dans l'Indiana.	Rechercher [Stranger Things]	Stranger Things est une série dramatique américaine de science-fiction et d'horreur créée par les frères Duff. Situés dans les années 1980, les épisodes se déroulent principalement dans la ville fictive de Hawkins, dans l'Indiana, et tournent autour d'une série d'événements mystérieux et surnaturels qui se produisent dans la ville et de leurs effets sur un groupe d'enfants et de personnages adultes.
	Fait [Réfutation]
Beautiful" a atteint la deuxième place du Billboard Hot 100 en 2003.	Recherche [Belle]	Pas de [Beautiful] trouvé. Similar : ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	Recherche [Beautiful (Christina Aguilera song)]	"Beautiful" est une chanson enregistrée par la chanteuse américaine Christina Aguilera pour son quatrième album studio Stripped, sorti en 2002.
	Trouver [Billboard Hot 100]	(Résultats 1 / 3) La chanson a atteint la deuxième place du Billboard Hot 100 aux États-Unis et a été certifiée or avec 500 000 unités expédiées.
	Achevé [informations insuffisantes]

CoT
Question : Déterminer s'il existe des observations qui appuient ou réfutent une allégation, ou s'il n'y a pas suffisamment d'informations.
Réclamation	Pensée	Réponse
Nikolaj Coster-Waldau a travaillé avec la Fox Broadcasting Company.	Nikolaj William Coster-Waldau est apparu dans le téléfilm Virtuality, diffusé par la Fox en 2009. Il a donc travaillé avec la Fox Broadcasting Company.	SOUTIEN
Stranger Things se déroule à Bloomington, dans l'Indiana.	Stranger Things se déroule dans la ville fictive de Hawkins, dans l'Indiana, et non à Bloomington, dans l'Indiana.	REFUS
Beautiful a atteint la deuxième place du Billboard Hot 100 en 2003.	La chanson a atteint la deuxième place du Billboard Hot 100 aux États-Unis, mais il n'est pas certain que ce soit en 2003.	PAS ASSEZ D'INFORMATIONS

COT
Problème : déterminer s'il existe des observations qui soutiennent ou réfutent une affirmation, ou si les informations sont insuffisantes.
point de vue	réflexions	solution
Nikolaj Coster-Waldau a travaillé avec Fox Broadcasting Co.	Nikolai William Coster-Waldau a joué dans le téléfilm Virtual Life de la Fox en 2009, il a donc travaillé avec la Fox Broadcasting Company.	adjuvant
Stranger Things se déroule à Bloomington, dans l'Indiana.	Stranger Things se déroule dans la ville fictive de Hawkins, dans l'Indiana, et non à Bloomington, dans l'Indiana.	cornue
La chanson "Beautiful" a atteint la deuxième place du Billboard Hot 100 en 2003.	La chanson a atteint la deuxième place du Billboard Hot 100, mais on ne sait pas si c'était en 2003.	Informations insuffisantes

ReAct
Question : Déterminer s'il existe des observations qui appuient ou réfutent une allégation, ou s'il n'y a pas suffisamment d'informations.
Réclamation	Pensée	Action	Observation
Nikolaj Coster-Waldau a travaillé avec la Fox Broadcasting Company.	Je dois rechercher Nikolaj Coster-Waldau et savoir s'il a travaillé avec la Fox Broadcasting Company.	Rechercher [Nikolaj Coster-Waldau]	Nikolaj William Coster-Waldau (né le 27 juillet 1970) est un acteur et producteur danois. Diplômé de l'École nationale danoise des arts du spectacle de Copenhague en 1993[1], il s'est fait connaître au Danemark avec le film Nightwatch (1994). Il est diplômé de l'École nationale danoise des arts du spectacle de Copenhague en 1993[1] et a joué son premier rôle au Danemark dans le film Nightwatch (1994). Il a joué le rôle de Jaime Lannister dans la série dramatique fantastique de HBO Game of Thrones, pour laquelle il a reçu deux nominations aux Primetime Emmy Awards dans la catégorie "Meilleur second rôle dans un drame". Second rôle dans une série dramatique. Coster-Waldau a joué dans de nombreux films dans son pays natal, le Danemark, et en Scandinavie, notamment Headhunters (2011) et A Thousand Times Good Night (2013). . Aux États-Unis, il a joué son premier rôle dans le film de guerre Black Hawk Down (2001), dans lequel il incarnait Gary Gordon, récipiendaire d'une médaille d'honneur[2], puis dans la série télévisée éphémère de la Fox New York City, dans laquelle il jouait un détective. Aux États-Unis, il a joué son premier rôle dans le film de guerre Black Hawk Down (2001), avec Gary Gordon, récipiendaire d'une médaille d'honneur.[2] Il a ensuite joué un détective dans l'éphémère série télévisée de la Fox New Amsterdam (2008), et est apparu dans le téléfilm de la Fox Virtuality (2009), qui devait à l'origine être un pilote.
	Parce qu'il est "apparu dans le téléfilm Virtuality 2009 de la Fox", il aurait dû travailler avec la Fox Broadcasting Company.	Finir [SUPPORTS]
Stranger Things se déroule à Bloomington, dans l'Indiana.	Je devrais chercher Stranger Things, et voir s'il se déroule à Bloomington, dans l'Indiana.	Rechercher [Stranger Things]	Stranger Things est une série télévisée américaine de science-fiction et d'horreur créée par les frères Duffer. La série se déroule dans les années 1980, principalement dans la ville fictive de Hawkins, dans l'Indiana, et se concentre sur un certain nombre de mystères et d'événements surnaturels qui se produisent autour de la ville et leur impact sur un ensemble de personnages enfants et adultes. La série est composée d'un ensemble de personnages enfants et adultes.
	L'observation indique qu'il se déroule dans une "ville fictive de Hawkins, Indiana", donc pas à Bloomington.	Finition [REFUTES]
Beautiful a atteint la deuxième place du Billboard Hot 100 en 2003.	Je dois rechercher la chanson Beautiful et savoir si elle a atteint la deuxième place du Billboard Hot 100 en 2003.	Recherche [Belle]	N'a pas trouvé [Beautiful]. Similar : ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	D'après les suggestions, je devrais chercher "Beautiful (Christina Aguilera song)" pour trouver la chanson.	Recherche [Beautiful (Christina Aguilera song)]	"Beautiful" est une chanson enregistrée par la chanteuse américaine Christina Aguilera pour son quatrième album studio, Stripped (2002).
	Il ne mentionne pas le Billboard, je dois donc consulter le "Billboard Hot 100" pour savoir s'il a atteint la deuxième place en 2003.	Lookup [Billboard Hot 100]	(Résultat 1 / 3) La chanson a atteint la deuxième place du Billboard Hot 100 aux États-Unis, où elle a été certifiée Or pour 500 000 unités expédiées.
	Il est seulement indiqué que la chanson a atteint la deuxième place du Billboard Hot 100, mais pas si c'était en 2003. Je ne sais pas si cette affirmation est vraie ou non.	Finir [PAS ASSEZ D'INFOS]

ReAct
QUESTION : Déterminer si des observations confirment ou réfutent une affirmation, ou si les informations sont insuffisantes.
représentations	réflexions	acte	tenir compte
Nikolaj Coster-Waldau a travaillé avec Fox Broadcasting Co.	Je dois rechercher Nikolaj Coster-Waldau pour savoir s'il a travaillé avec Fox Broadcasting.	Rechercher [Nikolaj Coster-Waldau]	Nikolaj Wilhelm Koster-Waldau (né le 27 juillet 1970) est un acteur et producteur danois. Diplômé de l'Académie nationale danoise des arts du spectacle de Copenhague en 1993[1], il s'est fait connaître au Danemark avec le film Night Shift en 1994. Il a reçu deux nominations au Primetime Emmy Award du meilleur acteur dans un second rôle dans une série dramatique pour son rôle de Jaime Lannister dans la série fantastique de HBO Game of Thrones. Koster-Waldau est apparu dans de nombreux films dans son pays natal, le Danemark, et en Scandinavie, notamment Headhunters (2011) et A Thousand Times Goodnight (2013). Aux États-Unis, son premier rôle au cinéma est celui du récipiendaire de la médaille d'honneur Gary Gordon dans le film de guerre Black Hawk Down (2001)[2]. [Il a joué le rôle d'un détective dans la série de sketches New Amsterdam (2008), diffusée sur la chaîne Fox, et est apparu dans le téléfilm Virtual Worlds (2009), qui était à l'origine un épisode pilote.
	Puisqu'il a joué dans le téléfilm "Virtua Fighter" de la Fox en 2009, il aurait travaillé avec Fox Broadcasting.	Fait [supporté]
Stranger Things se déroule à Bloomington, dans l'Indiana.	Je devrais chercher Stranger Things pour voir si ça se passe à Bloomington, dans l'Indiana.	Rechercher [Stranger Things].	Stranger Things est une série dramatique américaine de science-fiction et d'horreur créée par les frères Duff. Se déroulant dans les années 1980, principalement dans la ville fictive de Hawkins, dans l'Indiana, la série tourne autour d'une série d'événements mystérieux et surnaturels qui se produisent dans la ville et de leurs effets sur un groupe d'enfants et de personnages adultes.
	Les observations indiquent qu'il se déroule dans la "ville fictive de Hawkins, Indiana", donc pas à Bloomington.	Fait [Réfutation]
Beautiful a atteint la deuxième place du Billboard Hot 100 en 2003.	Je dois rechercher la chanson Beautiful et savoir si elle a atteint la deuxième place du Billboard Hot 100 en 2003.	Recherche [Belle]	['Beautiful'] n'a pas été trouvé. Similar : ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (film) ', 'Beautiful (Christina Aguilera song)', 'Life Is Beautiful'].
	D'après les suggestions, j'aurais dû chercher "Christina Aguilera's song "Beautiful"" pour trouver cette chanson.	Recherchez [la chanson "Beautiful" de Christina Aguilera].	"Beautiful" est une chanson enregistrée par la chanteuse américaine Christina Aguilera pour son quatrième album studio Stripped, sorti en 2002.
	Il ne mentionne pas le Billboard, il faudrait donc que je consulte le "Billboard Hot 100" pour savoir s'il a atteint la deuxième place en 2003.	Trouver [Billboard Hot 100]	(Résultats 1 / 3) La chanson a atteint la deuxième place du Billboard Hot 100 aux États-Unis, où elle a été certifiée disque d'or pour 500 000 unités.
	Elle mentionne seulement que la chanson a atteint la deuxième place du Billboard Hot 100, mais ne précise pas si c'était en 2003. Je ne sais pas si cette affirmation est vraie ou non.	Achevé [informations insuffisantes]

C.3 Achats sur Internet

Tableau 6 : Indices utilisés au chapitre 4 pour l'expérience de la boutique en ligne. Nous avons utilisé les indices de gauche pour l'action (Act) et les indices de droite (en ajoutant le raisonnement) pour la réaction (ReAct).

Instructions :Je voudrais un flacon de 3 oz de déodorant parfumé aux agrumes pour peau sensible pour moins de 50,00 $ !
Agir		ReAct
mouvements	tenir compte	mouvements	tenir compte
Recherche pour [3oz Bright Citrus Fragrance Deodorant for Sensitive Skin] (en anglais)	[Retour à la recherche] Page 1 (Total Results : 50) [Next][B078GWRC1J]Earth Mama's Bright Citrus Deodorant \| Natural & Suitable for Peau sensible, grossesse et allaitement avec des produits biologiques. Fleur de souci 3oz $10.99[B078GTKVXY]Déodorant au gingembre Earth Mama's Ginger Fresh \| Naturel et adapté aux Peau sensible, grossesse et allaitement avec des produits biologiques. Fleur de souci 3oz $10.99[B08KBVJ4XN]Barrel and Oak - Déodorant sans aluminium pour hommes Parfum à base d'huiles essentielles, protection contre les odeurs pendant 24 heures, bois de cèdre & Les mélanges de Patchouli sont doux pour les peaux sensibles (Mt sage. (2.7 oz, 2 bouteilles) $15.95	Search 3oz Bright Citrus Fragrance Deodorant for Sensitive Skin	[Retour à la recherche] Page 1 (Total Results : 50) [Next][B078GWRC1J]Earth Mama's Bright Citrus Deodorant \| Natural & Suitable for Peau sensible, grossesse et allaitement avec des produits biologiques. Fleur de souci 3oz $10.99[B078GTKVXY]Déodorant au gingembre Earth Mama's Ginger Fresh \| Naturel et adapté aux Peau sensible, grossesse et allaitement avec des produits biologiques. Fleur de souci 3oz $10.99[B08KBVJ4XN]Barrel and Oak - Déodorant sans aluminium pour hommes Parfum à base d'huiles essentielles, protection contre les odeurs pendant 24 heures, bois de cèdre & Les mélanges de Patchouli sont doux pour les peaux sensibles (Mt sage. (2.7 oz, 2 bouteilles) $15.95
Cliquez sur [B078GWRC1J].	Retour à la recherche page précédente Parfum [Diverses senteurs] [Agrumes lumineux] [Lavande apaisante] Gingembre [Rafraîchissant] Simplement non parfumé] Format [Ensemble de voyage (4 bouteilles)] [3 oz. Bouteille)] Earth Mama's Bright Citrus Deodorant \| Natural & Suitable for Peau sensible, grossesse et allaitement avec des produits biologiques. Fleur de souci 3oz Prix : $10.99 Note : N.A. [Description][Caractéristiques][Critiques][Acheter]	Réflexions [B078GWRC1J et B078GTKVXY sont des déodorants parfumés aux agrumes pour moins de 50 $. Je vais peut-être commencer par le B078GWRC1J].	D'accord.
Cliquez sur [bright citrus]	Vous avez cliqué sur Bright Citrus.	Cliquez sur [B078GWRC1J].	[Retour à la recherche] [Précédent] Senteur [Diverses senteurs] [Agrumes lumineux] [Lavande apaisante] Gingembre [Rafraîchissant] Simplement non parfumé] Format [Ensemble de voyage (4 bouteilles)] [3 oz. Bouteille)] Earth Mama's Bright Citrus Deodorant \| Natural & Suitable for Peau sensible, grossesse et allaitement avec des produits biologiques. Fleur de souci 3oz Prix : $10.99 Note : N.A. [Description][Caractéristiques][Critiques][Acheter]
Cliquez sur [3 oz (1 bouteille)].	Vous avez cliqué sur 3 oz (1 bouteille).	Réflexions [Pour la bouteille de 3 oz de déodorant parfumé Bright Citrus pour peau sensible, l'article est disponible dans les options 'Bright Citrus' et '3 oz (1 bouteille)', ce qui semble pouvoir être acheté].	D'accord.
Cliquez sur [Acheter]		Cliquez sur [bright citrus]	Vous avez cliqué sur Bright Citrus.
		Cliquez sur [3 oz (1 bouteille)].	Vous avez cliqué sur 3 oz (1 bouteille).

C.4 ALFWORLD

Le simulateur ALFWORLD, un environnement contenant plus de 25 000 tâches uniques, générées de manière procédurale, couvrant des environnements réels tels que des cuisines, des salons, des chambres à coucher, etc.

Vous êtes au milieu d'une pièce. En regardant rapidement autour de vous, vous apercevez une armoire
13, une armoire 12, une armoire 11, une armoire 10, une armoire 9, une armoire 8, une armoire
7, une armoire 6, une armoire 5, une armoire 4, une armoire 3, une armoire 2, une armoire
1, une cafetière 1, un plan de travail 1, une table à manger 1, un tiroir 1, un réfrigérateur 1, une table à manger 1, une table à manger 1
une poubelle 1, un micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un évier 1, un
un fourneau 4, un fourneau 3, un fourneau 2, un fourneau 1 et un grille-pain 1.
Votre tâche consiste à : mettre une salade propre sur la table à manger.
> aller au réfrigérateur 1
Le réfrigérateur 1 est fermé.
> ouvrir le réfrigérateur 1
Vous ouvrez le réfrigérateur 1. Le réfrigérateur 1 est ouvert. Vous y voyez une tasse 3, un œuf 2, un
une pomme de terre 3 et une pomme de terre 2.
> aller à la table à manger 1
Sur la table à manger 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, un gobelet 2, une
une fourchette 2, un couteau 2, un couteau 1, une louche 1, une laitue 1, une tasse 2, une tasse 1, une casserole 2, une casserole 2, un
un poivrier 1, une spatule 3, une tomate 2 et une tomate 1.
> prendre la salade 1 de la table à manger 1
Vous prenez la salade 1 sur la table à manger 1.
> aller au bassin 1
Sur l'évier 1, vous voyez une pomme 2, une louche 2, une cuillère 1 et une tomate 3.
> nettoyer la laitue 1 avec l'évier 1
Vous nettoyez la salade 1 à l'aide de l'évier 1.
> Je nettoie maintenant une salade (1). Ensuite, je dois la mettre sur la table à manger 1.
OK.
> aller à la table à manger 1
Sur la table à manger 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, une tasse 2, une fourchette
2, un couteau 2, un couteau 1, une louche 1, une tasse 2, une tasse 1, une casserole 2, un poivrier 1, un
une spatule 3, une tomate 2 et une tomate 1.
> mettre la laitue 1 dans/sur la table à manger 1
Vous mettez la salade 1 sur la table à manger 1.

Tableau 7 : Conseils d'action pour la tâche de nettoyage d'ALFWorld. Aucune idée n'a été fournie.

Vous êtes au milieu d'une pièce. En regardant rapidement autour de vous, vous apercevez une armoire
13, armoire 12, armoire 11, armoire 10, armoire 9, armoire 8, armoire
7, armoire 6, armoire 5, armoire 4, armoire 3, armoire 2, armoire
1, 1 machine à café, 1 comptoir, 1 table à manger, 1 tiroir, 1 réfrigérateur,
1 bac, 1 micro-ondes, 3 étagères, 2 casiers, 1 étagère, 1 évier,
Cuisinière 4, cuisinière 3, cuisinière 2, cuisinière 1 et grille-pain 1.
Votre tâche : mettre de la salade propre sur la table.
> Aller au réfrigérateur 1
Le réfrigérateur 1 est fermé.
> Ouvrir le réfrigérateur 1
Vous ouvrez le réfrigérateur 1. Le réfrigérateur 1 est ouvert. On y trouve un gobelet 3, un œuf 2, un
3 pommes de terre, 2 pommes de terre.
> Aller au tableau 1
Sur la table 1, vous voyez une pomme 1, une miche de pain 1, un couteau à beurre 2, une tasse 2, un
Fourchette 2, couteau 2, couteau 1, cuillère à long manche 1, laitue 1, tasse 2, mug 1, casserole 2,
1 poivrière, 3 spatules, 2 tomates, 1 tomate.
> Laitue 1 du tableau 1
Vous prenez la laitue 1 sur la table 1.
> Aller à l'évier 1
Sur l'évier 1, on peut voir une pomme 2, une cuillère à long manche 2, une cuillère 1 et une tomate 3.
> 1 laveuse de laitue, 1 avec évier
Vous utilisez l'évier 1 pour laver la laitue 1.
> Réfléchissez : je lave maintenant une laitue (1). Ensuite, je dois la placer dans/sur la table 1.
D'accord.
> Aller au tableau 1
Sur la table 1, vous pouvez voir la pomme 1, le pain 1, le couteau à beurre 2, la tasse 2, la fourchette
2, couteau 2, couteau 1, cuillère à long manche 1, tasse 2, mug 1, casserole 2, poivrière 1,
3 spatules, 2 tomates, 1 tomate.
> Placer la laitue 1 dans/sur la table 1
Vous placez la laitue 1 sur la table 1.

Vous êtes au milieu d'une pièce. En regardant rapidement autour de vous, vous apercevez une armoire
13, une armoire 12, une armoire 11, une armoire 10, une armoire 9, une armoire 8, une armoire
7, une armoire 6, une armoire 5, une armoire 4, une armoire 3, une armoire 2, une armoire
1, une cafetière 1, un plan de travail 1, une table à manger 1, un tiroir 1, un réfrigérateur 1, une table à manger 1, une table à manger 1
une poubelle 1, un micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un évier 1, un
un fourneau 4, un fourneau 3, un fourneau 2, un fourneau 1 et un grille-pain 1.
Votre tâche consiste à : mettre une salade propre sur la table à manger.
> penser : pour résoudre la tâche, je dois trouver et prendre une laitue, puis la nettoyer avec de l'eau.
évier, puis le poser sur la table à manger.
OK.
> Je dois d'abord trouver une laitue. Une laitue a plus de chances d'apparaître en
réfrigérateur (1), table à manger (1), évier (1), brûleur (1-3), armoire (1-13). I
peuvent être vérifiés un par un, en commençant par le réfrigérateur 1.
OK.
> aller au réfrigérateur 1
Le réfrigérateur 1 est fermé.
> ouvrir le réfrigérateur 1
Vous ouvrez le réfrigérateur 1. Le réfrigérateur 1 est ouvert. Vous y voyez une tasse 3, un œuf 2, un
une pomme de terre 3 et une pomme de terre 2.
> aller à la table à manger 1
Sur la table à manger 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, un gobelet 2, une
une fourchette 2, un couteau 2, un couteau 1, une louche 1, une laitue 1, une tasse 2, une tasse 1, une casserole 2, une casserole 2, un
un poivrier 1, une spatule 3, une tomate 2 et une tomate 1.
> Je trouve maintenant une laitue (1). Ensuite, je dois la prendre.
OK.
> prendre la salade 1 de la table à manger 1
Vous prenez la salade 1 sur la table à manger 1.
> penser : Maintenant, je prends une salade (1). Ensuite, je dois aller au lavabo (1) et le nettoyer.
Il.
OK.
> aller au bassin 1
Sur l'évier 1, vous voyez une pomme 2, une louche 2, une cuillère 1 et une tomate 3.
> nettoyer la laitue 1 avec l'évier 1
Vous nettoyez la salade 1 à l'aide de l'évier 1.
> Je nettoie maintenant une salade (1). Ensuite, je dois la mettre sur la table à manger 1.
OK.
> aller à la table à manger 1
Sur la table à manger 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, une tasse 2, une fourchette
2, un couteau 2, un couteau 1, une louche 1, une tasse 2, une tasse 1, une casserole 2, un poivrier 1, un
une spatule 3, une tomate 2 et une tomate 1.
> mettre la laitue 1 dans/sur la table à manger 1
Vous mettez la salade 1 sur la table à manger 1.

Tableau 8 : Alertes d'action ReAct pour la tâche de nettoyage ALFWorld.

Vous êtes au centre d'une pièce. En regardant rapidement autour de vous, vous voyez une armoire 13, une armoire 12, une armoire 11, une armoire 10, une armoire 9, une armoire 8, une armoire 7, une armoire 6, une armoire 5, une armoire 4, une armoire 3, une armoire 2, et une armoire 1, une cafetière 1, un plan de travail 1, une table de salle à manger 1, une commode 1, un réfrigérateur 1, et une poubelle 1, un micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un lavabo 1, une plaque de cuisson 4, une plaque de cuisson 3, une plaque de cuisson 2, une plaque de cuisson 1 et un grille-pain 1.
Votre tâche : poser une salade propre sur la table.
> Réfléchissez : pour résoudre cette tâche, je dois trouver et prendre une salade, puis la laver dans l'évier et enfin la mettre sur la table.
D'accord.
> Réfléchissez : je dois d'abord trouver une laitue. Il est plus probable que la laitue se trouve dans le réfrigérateur (1), la table à manger (1), l'évier (1), la cuisinière (1-3) et les placards (1-13). Je peux les vérifier un par un, en commençant par le réfrigérateur 1.
D'accord.
> Aller au réfrigérateur 1
Le réfrigérateur 1 est fermé.
> Ouvrir le réfrigérateur 1
Vous avez ouvert le réfrigérateur 1. Le réfrigérateur 1 est maintenant ouvert. A l'intérieur, vous voyez une tasse 3, un œuf 2, une pomme de terre 3 et une pomme de terre 2.
> Aller au tableau 1
Sur la table 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, une tasse 2, une fourchette 2, un couteau 2, un cutter 1, une cuillère 1, une spatule 1, une laitue 1, une tasse 2, une tasse 1, une casserole 2, une poivrière 1, une cuillère 3, une tomate 2, et une tomate 1.
> Réfléchissez : j'ai trouvé une laitue (1). Ensuite, je dois l'emporter.
D'accord.
> Prendre la laitue 1 dans le tableau 1
Vous prenez la laitue 1 sur la table 1.
> Réfléchissez : J'ai pris une salade (1). Ensuite, je dois aller à l'évier (1) pour la laver.
D'accord.
> Aller au lavabo 1
Sur le lavabo 1, vous voyez une pomme 2, une spatule 2, une cuillère 1 et une tomate 3.
> Lavage de la laitue dans un lavabo 1 1
Vous avez lavé la laitue 1 dans le lavabo 1.
> Réfléchissez : j'ai nettoyé une laitue (1). Ensuite, je dois la placer sur la table /up.
D'accord.
> Aller au tableau 1
Sur la table 1, vous voyez une pomme 1, une miche de pain 1, un couteau à beurre 2, une tasse 2, une fourchette 2, un couteau 2, un couteau 1, une cuillère 1, une tasse 2, une tasse 1, une casserole 2, une poivrière 1, une cuillère 3, une tomate 2 et une tomate 1.
> Mettre la laitue 1 sur/en haut de la table
Vous placez la laitue 1 sur la table 1.

Vous êtes au milieu d'une pièce. En regardant rapidement autour de vous, vous apercevez une armoire
13, une armoire 12, une armoire 11, une armoire 10, une armoire 9, une armoire 8, une armoire
7, une armoire 6, une armoire 5, une armoire 4, une armoire 3, une armoire 2, une armoire
1, une cafetière 1, un plan de travail 1, une table à manger 1, un tiroir 1, un réfrigérateur 1, une table à manger 1, une table à manger 1
une poubelle 1, un micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un évier 1, un
un fourneau 4, un fourneau 3, un fourneau 2, un fourneau 1 et un grille-pain 1.
Votre tâche consiste à : mettre une salade propre sur la table à manger.
> penser : pour résoudre la tâche, je dois trouver et prendre une laitue, puis la nettoyer avec de l'eau.
évier, puis le poser sur la table à manger.
OK.
> Je dois d'abord trouver une laitue.
OK.
> aller au réfrigérateur 1
Le réfrigérateur 1 est fermé.
> Je dois d'abord trouver une laitue.
OK.
> ouvrir le réfrigérateur 1
Vous ouvrez le réfrigérateur 1. Le réfrigérateur 1 est ouvert. Vous y voyez une tasse 3, un œuf 2, un
une pomme de terre 3 et une pomme de terre 2.
> Je dois d'abord trouver une laitue.
OK.
> aller à la table à manger 1
Sur la table à manger 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, un gobelet 2, une
une fourchette 2, un couteau 2, un couteau 1, une louche 1, une laitue 1, une tasse 2, une tasse 1, une casserole 2, une casserole 2, un
un poivrier 1, une spatule 3, une tomate 2 et une tomate 1.
> Je dois d'abord trouver une laitue.
OK.
> prendre la salade 1 de la table à manger 1
Vous prenez la salade 1 sur la table à manger 1.
> penser : je dois nettoyer cette laitue (1) à l'aide de l'évier 1.
OK.
> aller au bassin 1
Sur l'évier 1, vous voyez une pomme 2, une louche 2, une cuillère 1 et une tomate 3.
> penser : je dois nettoyer cette laitue (1) à l'aide de l'évier 1.
OK.
> nettoyer la laitue 1 avec l'évier 1
Vous nettoyez la salade 1 à l'aide de l'évier 1.
> penser : je dois mettre cette salade nettoyée (1) sur la table à manger 1.
OK.
> aller à la table à manger 1
Sur la table à manger 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, une tasse 2, une fourchette
2, un couteau 2, un couteau 1, une louche 1, une tasse 2, une tasse 1, une casserole 2, un poivrier 1, un
une spatule 3, une tomate 2 et une tomate 1.
> penser : je dois mettre cette salade nettoyée (1) sur la table à manger 1.
OK.
> mettre la laitue 1 dans/sur la table à manger 1
Vous mettez la salade 1 sur la table à manger 1.

Tableau 9 : messages d'action du ReAct-IM pour la tâche de nettoyage d'ALFWorld.

Vous êtes au centre d'une pièce. En regardant rapidement autour de vous, vous voyez un meuble 13, un meuble 12, un meuble 11, un meuble 10, un meuble 9, un meuble 8, un meuble 7, un meuble 6, un meuble 5, un meuble 4, un meuble 3, un meuble 2, un meuble 1, une cafetière 1, un plan de travail 1, une table de salle à manger 1, une commode 1, un réfrigérateur 1, une poubelle 1, le un micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un évier 1, un brûleur de table de cuisson 4, un brûleur de table de cuisson 3, un brûleur de table de cuisson 2, un brûleur de table de cuisson 1, et un grille-pain 1.
Votre tâche : poser une salade propre sur la table.
> Réfléchissez : pour résoudre cette tâche, je dois trouver et prendre une salade, puis la laver dans l'évier avant de la mettre sur la table.
D'accord.
> Réfléchissez : je dois d'abord trouver une laitue.
D'accord.
> Aller au réfrigérateur 1
Le réfrigérateur 1 est fermé.
> Réfléchissez : je dois d'abord trouver une laitue.
D'accord.
> Ouvrir le réfrigérateur 1
Vous avez ouvert le réfrigérateur 1. Le réfrigérateur 1 est maintenant ouvert. Dans le réfrigérateur, vous voyez une tasse 3, un œuf 2, une pomme de terre 3 et une pomme de terre 2.
> Réfléchissez : je dois d'abord trouver une laitue.
D'accord.
> Aller au tableau 1
Sur la table 1, vous voyez une pomme 1, un pain 1, un couteau à beurre 2, une tasse 2, une fourchette 2, un couteau 2, un couteau 1, une cuillère 1, une spatule 1, une laitue 1, une tasse 2, une tasse 1, une casserole 2, une poivrière 1, une spatule 3, une tomate 2, et une tomate 1.
> Réfléchissez : je dois d'abord trouver une laitue.
D'accord.
> Supprimer la laitue 1 du tableau 1
Vous prenez la laitue 1 sur la table 1.
> Pensez : je dois utiliser l'évier 1 pour laver cette salade (1).
D'accord.
> Aller au lavabo 1
Sur le lavabo 1, vous voyez une pomme 2, une spatule 2, une cuillère 1 et une tomate 3.
> Pensez : je dois utiliser l'évier 1 pour laver cette salade (1).
D'accord.
> Utiliser le lavabo1 pour laver la laitue1
Vous avez utilisé le lavabo 1 pour laver la laitue 1.
> PENSER : je dois mettre cette salade déjà lavée (1) sur la table.
D'accord.
> Aller au tableau 1
Sur la table 1, vous voyez une pomme 1, une miche de pain 1, un couteau à beurre 2, une tasse 2, une fourchette 2, un couteau 2, un couteau 1, une cuillère 1, une tasse 2, une tasse 1, une casserole 2, une poivrière 1, une spatule 3, une tomate 2 et une tomate 1.
> PENSER : je dois mettre cette salade déjà lavée (1) sur la table.
D'accord.
> Mettre la laitue 1 sur la table
Vous mettez la laitue 1 sur la table.

D Trajectoire

D.1 Trajectoire FEVER

Nous fournissons quelques trajectoires générées par ReAct, CoT et Act, et ci-dessous quelques exemples choisis au hasard dans l'ensemble de données FEVER. Les résultats de la recherche ont été omis pour gagner de la place.

Exemple 2491 (réponse standard : réfutation)

ReAct
Affirmation : Le triangle des Bermudes est une région mal définie de l'océan Pacifique.
Pensée 1 : Je dois faire une recherche sur le triangle des Bermudes et déterminer s'il se trouve dans l'océan Pacifique.
Action 1 : Recherche [Triangle des Bermudes] Observation 1 : Des lieux réputés hantés...
Pensée 2 : L'observation indique qu'elle se situe dans la partie occidentale de l'Atlantique Nord.
Il ne se trouve donc pas dans l'océan Pacifique.
Action 2 : Terminer [REFUTES]Observation 2 : Épisode terminé
Agir
Affirmation : Le triangle des Bermudes est une région mal définie de l'océan Pacifique.
Action 1 : Recherche [Triangle des Bermudes]Observation 1 : Lieux réputés hantés :...
Action 2 : Terminer [REFUTES]Observation 2 : Épisode terminé
CoT
Affirmation : Le triangle des Bermudes est une région mal définie de l'océan Pacifique.
Réflexion : Réfléchissons étape par étape. Le triangle des Bermudes est une région mal définie.
L'océan Pacifique n'est pas l'océan Atlantique.
Réponse : REFUS

ReAct
Avertissement : Le triangle des Bermudes est une zone vaguement définie dans l'océan Pacifique.
Réflexion 1 : Je dois faire une recherche sur le triangle des Bermudes pour savoir s'il est situé dans l'océan Pacifique.
Action 1 : Recherche [Triangle des Bermudes]
Observation 1 : Voici quelques-uns des lieux les plus hantés...
Réflexion 2 : Les observations montrent qu'il est situé dans la partie ouest de l'Atlantique Nord, il n'est donc pas dans l'océan Pacifique.
Action 2 : Conclusion [réfutée]
Observation 2 : Fin de l'épisode
Agir
Avertissement : Le triangle des Bermudes est une zone vaguement définie dans l'océan Pacifique.
Action 1 : Recherche [Triangle des Bermudes]
Observation 1 : Voici quelques-uns des lieux les plus hantés :...
Action 2 : Conclusion [réfutée]
Observation 2 : Fin de l'épisode
CoT (processus de réflexion)
Avertissement : Le triangle des Bermudes est une zone vaguement définie dans l'océan Pacifique.
Réfléchissez : procédons étape par étape. Le triangle des Bermudes est une zone mal définie de l'océan Atlantique. L'océan Pacifique n'est pas l'océan Atlantique.
Réponse : réfutation
Grâce à ce processus de raisonnement logique, nous pouvons conclure que le triangle des Bermudes est en fait situé dans l'océan Atlantique, et non dans l'océan Pacifique. Cette conclusion repose sur la connaissance et la confirmation de la localisation géographique du triangle des Bermudes. Le triangle des Bermudes est connu pour ses disparitions mystérieuses et ses légendes, mais l'exactitude de la localisation géographique est tout aussi importante pour éviter la désinformation et la confusion.

Exemple 5908 (réponse standard : soutien)

ReAct
Affirmation : Princesse Mononoké est un film.
Pensée 1 : Je dois faire une recherche sur Princesse Mononoké pour savoir s'il s'agit d'un film.
Action 1 : Rechercher [Princesse Mononoke]Observation 1 : Princesse Mononoke ...
Pensée 2 : D'après l'observation, Princesse Mononoké est un film.
Action 2 : Terminer[SUPPORTS]Observation 2 : Épisode terminé
Agir
Affirmation : Princesse Mononoké est un film.
Action 1 : Rechercher [Princesse Mononoke]Observation 1 : Princesse Mononoke ...
Action 2 : Terminer[SUPPORTS]Observation 2 : Épisode terminé
CoT
Affirmation : Princesse Mononoké est un film.
Réflexion : Réfléchissons étape par étape. Princesse Mononoké est un film, et les films sont...
films.
Réponse : SOUTIEN

ReAct
Disclaimer : La princesse de Neuzarka est un film.
Idée n° 1 : je dois faire une recherche sur La princesse de Neuzarka pour voir s'il s'agit d'un film.
Action 1 : Recherche de la [Princesse de Neuzarka] Observation 1 : "Princesse de Neuzarka"...
Idée 2 : D'après l'observation, La princesse de Neuzarka est un film.
Action 2 : Terminer [soutien] Observation 2 : Cet épisode est terminé
Agir
Disclaimer : La princesse de Neuzarka est un film.
Action 1 : Recherche de la [Princesse de Neuzarka] Observation 1 : "Princesse de Neuzarka"...
Action 2 : Terminer [soutien] Observation 2 : Cet épisode est terminé
CoT
Disclaimer : La princesse de Neuzarka est un film.
Idée : pensons étape par étape. La Princesse de Neuzarka est un film, et un film est un film.
Réponse : Soutien

Exemple 1951 (réponse standard : réfutation)

ReAct
Affirmation : Soyouz faisait partie du programme spatial américain.
Réflexion 1 : Il faut que je fasse une recherche sur Soyouz pour savoir s'il faisait partie du programme spatial américain.
programme.
Action 1 : Recherche [Soyuz]Observation 1 : Soyuz est une translittération...
Réflexion 2 : Il n'est pas fait mention du programme spatial américain, je dois donc faire des recherches.
"Programme spatial américain" pour savoir s'il en fait partie.
Action 2 : Recherche [programme spatial américain] Observation 2 : La politique spatiale...
Pensée 3 : Il n'est pas fait mention de Soyouz, donc je ne suis pas sûr que cette affirmation soit vraie ou non.
Action 3 : Finir [PAS ASSEZ D'INFOS]Observation 3 : Épisode terminé
Agir
Affirmation : Soyouz faisait partie du programme spatial américain.
Action 1 : Recherche [Soyuz]Observation 1 : Soyuz est une translittération...
Action 2 : Finir [PAS ASSEZ D'INFOS]Observation 2 : Épisode terminé
CoT
Affirmation : Soyouz faisait partie du programme spatial américain.
Réflexion : Réfléchissons étape par étape. Soyouz est un vaisseau spatial russe.
Le programme spatial est géré par la NASA. ensemble sur le
Station spatiale internationale.
Réponse : SOUTIEN

ReAct
Avertissement : Soyouz fait partie du programme spatial américain.
Réflexion 1 : Je dois faire une recherche sur le Soyouz pour savoir s'il fait partie du programme spatial américain.
Action 1 : Recherche de [Soyuz] Observation 1 : Soyuz est un mot phonétique...
Réflexion 2 : Il n'y a aucune mention du programme spatial américain, je dois donc chercher "programme spatial américain" pour savoir s'il en fait partie.
Action 2 : Recherche [Programme spatial américain] Observation 2 : Politique spatiale...
Pensée 3 : Il n'y a aucune mention du Soyouz, donc je ne suis pas sûr que cette affirmation soit vraie ou non.
Action 3 : Conclusion [informations insuffisantes] Observation 3 : Conclusion
Agir
Avertissement : Soyouz fait partie du programme spatial américain.
Action 1 : Recherche de [Soyuz] Observation 1 : Soyuz est un mot phonétique...
Action 2 : Conclusion [informations insuffisantes] Observation 2 : Conclusion
CoT
Avertissement : Soyouz fait partie du programme spatial américain.
Réfléchissez : réfléchissons étape par étape. Le Soyouz est un vaisseau spatial russe. La NASA et la Russie coopèrent dans le cadre de la Station spatiale internationale.
Réponse : Soutien

Exemple 3208 (réponse standard : réfutation)

ReAct
Claim : Reign Over Me est un film américain réalisé en 2010.
Pensée 1 : Il faut que je cherche Reign Over Me et que je sache si c'est un film américain.
en 2010.
Action 1 : Recherche [Reign Over Me] Observation 1 : Reign Over Me ...
Pensée 2 : L'observation indique qu'il s'agit d'un film américain réalisé en 2007, il ne s'agit donc pas d'un film américain.
en 2010.
Action 2 : Terminer [REFUTES]Observation 2 : Épisode terminé
Agir
Claim : Reign Over Me est un film américain réalisé en 2010.
Action 1 : Recherche [Reign Over Me] Action 2 : Terminer [SUPPORTS] Observation 2 : Épisode terminé
CoT
Claim : Reign Over Me est un film américain réalisé en 2010.
Réfléchissons étape par étape. Tout d'abord, Reign Over Me est-il un film américain ? Oui, il l'est.
Deuxièmement, a-t-il été fabriqué en 2010 ? Oui, il l'a été.
Réponse : SOUTIEN

ReAct
Disclaimer : Reign Over Me est un film américain réalisé en 2010.
Idée 1 : Je dois rechercher Reign Over Me pour confirmer qu'il s'agit d'un film américain réalisé en 2010.
Action 1 : Recherche de [Reign Over Me] Observation 1 : "Reign Over Me"...
Idée 2 : les observations montrent qu'il s'agit d'un film américain réalisé en 2007, qui n'a donc pas été réalisé en 2010.
Action 2 : Fin [réfuté] Observation 2 : Fin
Agir
Disclaimer : Reign Over Me est un film américain réalisé en 2010.
Action 1 : Recherche [Reign Over Me] Action 2 : Fin [Support] Observation 2 : Fin
CoT
Disclaimer : Reign Over Me est un film américain réalisé en 2010.
Réflexions : procédons étape par étape. Tout d'abord, Reign Over Me est-il un film américain ? Oui, c'est un film américain. Deuxièmement, a-t-il été réalisé en 2010 ? Oui, il l'a été.
Réponse : Soutien

D.2 Trajectoires ALFWORLD

Nous fournissons des exemples de trajectoires pour ReAct, Act et ReAct-IM dans le même jeu ALFWorld, pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754.

D.2.1 Trajectoires REACT

ReAct a pu localiser correctement le couteau, le nettoyer et le placer sur le comptoir.

Trajectoire du ReAct ALFWorld

Vous êtes au milieu d'une pièce. En regardant rapidement autour de vous, vous voyez un meuble 6, un
une armoire 5, une armoire 4, une armoire 3, une armoire 2, une armoire 1, une cafetière 1, une
un plan de travail 3, un plan de travail 2, un plan de travail 1, un tiroir 3, un tiroir 2, un tiroir 1, un
un réfrigérateur 1, une poubelle 1, un micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un lavabo
1, un réchaud 4, un réchaud 3, un réchaud 2, un réchaud 1 et un grille-pain
1.
Votre tâche consiste à : poser un couteau propre sur le comptoir.
> penser : pour résoudre la tâche, je dois trouver et prendre un couteau, puis le nettoyer avec de l'eau.
évier, puis le poser sur le plan de travail.
OK.
> Un couteau a plus de chances d'apparaître dans une armoire.
(1-6), tiroir (1-3), comptoir (1-3), réfrigérateur (1), poubelle (1), étagère (1-3),
évier (1), brûleur de poêle (1-4), grille-pain (1). Je peux vérifier un par un, en commençant par
cabinet 1.
OK.
> aller à l'armoire 1
Sur le meuble 1, vous voyez un bol 1.
> aller à l'armoire 2
L'armoire 2 est fermée.
> aller à l'armoire 3
Sur le meuble 3, vous voyez une bouteille en verre 1.
> aller à l'armoire 4
Sur le meuble 4, vous voyez une tasse 1.
> aller à l'armoire 5
L'armoire 5 est fermée.
> aller à l'armoire 6
L'armoire 6 est fermée.
> aller au tiroir 1
Le tiroir 1 est fermé.
> aller au tiroir 2
Le tiroir 2 est fermé.
> aller au tiroir 3
Le tiroir 3 est fermé.
> aller au comptoir 1
Sur le comptoir 1, vous voyez une laitue 2, une tasse 2, un poivrier 1 et une cuillère 2.
> aller au comptoir 2
Sur le plan de travail 2, vous voyez une tasse 1, une lavette 1, une bouteille en verre 3, un couteau 1, un
une assiette 2, une pomme de terre 3 et une statue 1.
> Je trouve maintenant un couteau (1). Ensuite, je dois le prendre.
OK.
> prendre le couteau 1 sur le plan de travail 2
Vous prenez le couteau 1 sur le comptoir 2.
> Je prends maintenant un couteau (1). Ensuite, je dois aller au lavabo (1) et le nettoyer.
OK.
> aller au bassin 1
Sur le lavabo 1, vous voyez une fourchette 3, une salade 3 et une spatule 2.
> nettoyer le couteau 1 avec l'évier 1
Vous nettoyez le couteau 1 à l'aide du lavabo 1.
> Je nettoie maintenant un couteau (1). Ensuite, je dois le placer dans/sur le comptoir 1.
OK.
> aller au comptoir 1
Sur le comptoir 1, vous voyez une laitue 2, une tasse 2, un poivrier 1 et une cuillère 2.
> mettre le couteau 1 dans/sur le comptoir 1
Vous placez le couteau 1 dans/sur le comptoir 1.

Vous vous trouvez au centre de la pièce. En regardant rapidement autour de vous, vous voyez un meuble 6, un meuble 5, un meuble 4, un meuble 3, un meuble 2, un meuble 1, une cafetière 1, un plateau 3, un plateau 2, un plateau 1, un tiroir 3, un tiroir 2, un tiroir 1, un réfrigérateur 1, une poubelle 1, un four à micro-ondes 1, une étagère 3, une étagère 2, une étagère 1, un évier 1, une plaque de cuisson 4, une plaque de cuisson 3, une plaque de cuisson 2, une plaque de cuisson 1, et un grille-pain 1. évier 1, une plaque de cuisson 4, une plaque de cuisson 3, une plaque de cuisson 2, une plaque de cuisson 1 et un grille-pain 1.
Votre tâche : poser un couteau propre sur la table.
> Réfléchissez : pour accomplir la tâche, je dois trouver et ramasser un couteau, le nettoyer dans l'évier et le poser sur la table.
D'accord.
> Réfléchissez : je dois d'abord trouver un couteau. Un couteau a plus de chances de se trouver dans un placard (1-6), un tiroir (1-3), une table (1-3), un réfrigérateur (1), une poubelle (1), une étagère (1-3), un évier (1), une plaque de cuisson (1-4), un grille-pain (1). Je peux les vérifier un par un, en commençant par l'armoire 1.
D'accord.
> Aller au cabinet 1
Sur l'armoire 1, vous voyez un bol 1.
> Aller au cabinet 2
L'armoire 2 est fermée.
> Aller au cabinet 3
Sur le meuble 3, vous voyez une bouteille en verre 1.
> Aller au cabinet 4
Sur l'armoire 4, vous voyez un gobelet 1.
> Aller au cabinet 5
L'armoire 5 est fermée.
> Aller au cabinet 6
L'armoire 6 est fermée.
> Aller au tiroir 1
Le tiroir 1 est fermé.
> Aller au tiroir 2
Le tiroir 2 est fermé.
> Aller au tiroir 3
Le tiroir 3 est fermé.
> Aller au bureau 1
Sur la table 1, vous voyez une tête de laitue 2, une tasse 2, une salière à poivre noir 1 et deux cuillères 2.
> Aller au bureau 2
Sur le plateau 2, vous voyez une tasse 1, un mouton à brosse 1, une bouteille en verre 3, un couteau 1, une assiette 2, trois pommes de terre 3 et une statue 1.
> Réfléchissez : j'ai trouvé un couteau (1). Ensuite, je dois le prendre.
D'accord.
> Prendre le couteau 1 sur la table 2
Vous prenez le couteau 1 sur la table 2.
> Réfléchissez : je prends maintenant un couteau (1). Ensuite, je dois aller à l'évier (1) pour le nettoyer.
D'accord.
> Aller à l'évier 1
Au-dessus de l'évier 1, vous voyez une fourchette 3, une salade 3 et une spatule 2.
> Couteau de nettoyage 1 avec évier 1
Vous utilisez l'évier 1 pour nettoyer le couteau 1.
> Réfléchissez : j'ai nettoyé un couteau (1). Ensuite, je dois le placer sur le plateau de table 1.
D'accord.
> Aller au bureau 1
Sur la table 1, vous voyez une tête de laitue 2, une tasse 2, une salière à poivre noir 1 et deux cuillères 2.
> Placer le couteau 1 sur la table 1
Vous placez le couteau 1 sur le plateau 1.

D.2.2 Trajectoires ACT

Le modèle d'action est capable de trouver le couteau correctement, mais essaie de le nettoyer en utilisant le lavabo de l'évier avant de se rendre au lavabo de l'évier. À partir de ce moment-là, le modèle est incapable de se reprendre et retombe dans la répétition de la même séquence de commandes. Avec le modèle ReAct, l'idée préexistante identifie spécifiquement que le couteau a été volé et que le sous-objectif suivant est de se rendre au lavabo de l'évier pour le nettoyer.

D.2.3 Trajectoire de REACT-IM

Le ReAct-IM a pu localiser correctement le couteau, mais n'a pas pu le nettoyer. Le MLD se retrouve alors en difficulté lorsqu'il essaie de poser ce couteau sur le comptoir. L'un des problèmes possibles est la mauvaise idée : penser : je dois trouver un couteau propre. Cela semble avoir conduit le LLM à croire que le couteau avait déjà été nettoyé. Dans ReAct, cette série de sous-objectifs sera capturée spécifiquement à travers chaque idée.

D.3 Trajectoire WEBSHOP

Instructions :Achetez-moi un paquet de seize chips de bananes lyophilisées aromatisées à la pomme et à la cannelle pour moins de 50,00 $.

Tableau 10 : Exemples de trajectoires de boutiques en ligne prédites par Act et ReAct. Contrairement à Act, ReAct utilise l'inférence pour trouver des produits qui satisfont tous les attributs cibles.

E Plus d'analyses

E.1 Analyse des modes de réussite et d'échec

Nous fournissons quelques exemples correspondant aux analyses des modèles de réussite et d'erreur présentées à la section 3.3. Les résultats de la recherche et les étapes non représentatives ont été omis pour gagner de la place.

Succès : Vrai positif

ReAct
Question : L'auteur David Chanoff a collaboré avec un amiral de la marine américaine qui a été
l'ambassadeur au Royaume-Uni sous quel président ?
Pensée 1 : Je dois chercher David Chanoff et trouver l'amiral de la marine américaine qu'il a tué.
a collaboré avec.
Action 1 : Recherche[David Chanoff]Observation 1 : David Chanoff est un auteur reconnu...
Action 2 : Rechercher [William J. Crowe] Observation 2 : William J. Crowe est...
Pensée 3 : William J. Crowe a été ambassadeur au Royaume-Uni sous la présidence de l'Union européenne.
La réponse est donc Bill Clinton.
Action 3 : Terminer [Bill Clinton]Observation 3 : Épisode terminé
CoT
Question : Quel est le nom de l'équipe qui représentait une université de l'Arizona lors de la Coupe du monde de football ?
la conférence qui couvre une grande partie de l'ouest des États-Unis.
y compris l'Arizona, la Californie et le Nouveau Mexique ?
Réflexion : Réfléchissons étape par étape. Le nom de l'équipe qui représentait une Arizona
université de la conférence qui couvre une grande partie de l'ouest de l'Europe.
États-Unis, y compris l'Arizona, la Californie et le Nouveau Mexique est Arizona
State Sun Devils.
Réponse : Arizona State Sun Devils

ReAct
QUESTION : L'auteur David Charnoff a travaillé avec un amiral de la marine américaine qui a été ambassadeur de Grande-Bretagne sous quel président ?
Réflexion 1 : Je dois faire des recherches sur David Charnoff et découvrir les amiraux de la marine américaine avec lesquels il a travaillé.
Action 1 : Recherche [David Charnoff] Observation 1 : David Charnoff est un auteur célèbre...
Action 2 : Rechercher [William J. Crowe] Observation 2 : William J. Crowe était...
Réfléchissez 3 : William J. Crowe était l'ambassadeur britannique sous la présidence de Bill Clinton. La réponse est donc Bill Clinton.
Action 3 : Conclusion [Bill Clinton] Observation 3 : Conduite achevée
CoT
QUESTION : Quelle équipe représentant une université de l'Arizona a participé à une conférence couvrant une grande partie de l'ouest des États-Unis, notamment l'Arizona, la Californie et le Nouveau-Mexique ?
Pistes de réflexion : décomposons les choses étape par étape. Dans une conférence qui couvre une vaste zone de l'ouest des États-Unis, comprenant l'Arizona, la Californie et le Nouveau Mexique, l'équipe représentant une université de l'Arizona est celle des Sun Devils de l'Arizona State University.
En réponse à Arizona State University Sun Devils

Erreur de prédiction/réussite : faux positif

ReAct
Question : Le jeu de société San Marco ou About Time est-il sorti en premier ?
Pensée 1 : Il faut que je cherche San Marco et About Time, et que je trouve lequel est sorti en premier.
Action 1 : Recherche [San Marco]Observation 1 : San Marco est l'un des ... Il a été construit à Venise.
Pensée 2 : San Marco est un sestiere de Venise. Il faut que je fasse une recherche sur About Time ensuite.
Action 2 : Rechercher [About Time] Observation 2 : Impossible de trouver [About Time]. Similaire : [...] .
Pensée 3 : About Time est un film de 2013, donc San Marco est sorti en premier.
Action 3 : Finir [San Marco]Observation 3 : Épisode terminé
CoT
Question : L'université Vanderbilt ou l'université Emory ont-elles été fondées en premier ?
Réflexion : Réfléchissons étape par étape. L'université Vanderbilt a été fondée en 1873.
L'université a été fondée en 1836. 1873 (Vanderbilt University) > 1836 (Emory)
L'université de Vanderbilt a été fondée en premier.
Réponse : Université Emory

ReAct
QUESTION : Lequel des deux jeux de société, St Mark's ou About Time, est sorti en premier ?
Réflexion 1 : Je dois découvrir quel jeu sort en premier, St Mark's ou About Time.
Action 1 : Recherche de [Saint-Marc] Observation 1 : Saint-Marc était... Elle a été construite à Venise.
Réfléchissez 2 : San Marco est un quartier de Venise. Ensuite, je dois faire une recherche sur About Time
Action 2 : recherche de [à propos de l'heure] Observation 2 : n'a pas trouvé [à propos de l'heure]. Au lieu de cela, il a trouvé [...].
Pensée 3 : About Time est un film sorti en 2013, donc St. Mark's aurait dû être la première sortie.
Action 3 : Fin de la recherche [San Marco] Observation 3 : Fin de la mission
CoT
Q : Lequel a été créé en premier, Vanderbilt ou Emory ?
Réflexions : tout d'abord, l'université Vanderbilt a été fondée en 1873 et l'université Emory en 1836 ; en termes d'ordre chronologique, Vanderbilt (1873) est postérieure à Emory (1836), ce qui signifie qu'Emory a été fondée avant.
Réponse : l'université d'Emory d'abord.

Échec : erreur de raisonnement / Échec : erreur de raisonnement

ReAct
Question : Quel est le deuxième prénom de l'actrice qui a joué aux côtés de Harvey ?
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds, et Marissa Jaret Winokur dans
Hairspray ?
Pensée 1 : Je dois chercher Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell.
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, et
Marissa Jaret Winokur, retrouvez l'actrice qui a joué à leurs côtés dans
Hairspray, puis trouver son deuxième prénom.
Action 1 : Recherche[Harvey Fierstein] Observation 1 : Harvey Forbes Fierstein ...
Pensée 2 : Harvey Fierstein est acteur, dramaturge et scénariste.
rechercher Linda Hart ensuite...
Action 2 : Recherche [Linda Hart]...
CoT
Question : Qui est le plus âgé, Danny Green ou James Worthy ?
Réfléchissons étape par étape. Danny Green est né en 1987. James Worthy a été membre du Sénat des États-Unis.
né en 1961. 1987 (Danny Green) > 1961 (James Worthy), donc Danny Green est
plus anciens.
Réponse : Danny Green

ReAct
QUESTION : Dans Hairspray, avec Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, et Marissa Quel est le deuxième prénom de l'actrice qui a joué avec Jaret Winokur ?
Idée 1 : Je dois rechercher Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds et Marissa Jaret Winokur, trouver l'actrice qui jouait avec eux et trouver son deuxième prénom. Jaret Winokur, trouver l'actrice qui jouait dans la pièce avec eux et trouver son deuxième prénom.
Action 1 : Recherche [Harvey Fierstein] Observation 1 : Harvey Forbes Fierstein...
Idée n°2 : Harvey Fierstein est acteur, dramaturge et scénariste. Vous devez ensuite rechercher Linda Hart...
Action 2 : Recherche de [Linda Hart]...
CoT
QUESTION : Qui est le plus âgé, Danny Green ou James Worthy ?
Danny Green est né en 1987 et James Worthy est né en 1961. 1987 (Danny Green) > 1961 (James Worthy), donc Danny Green est plus âgé.
En réponse à Danny Green

Échec : erreur de recherche / Échec : erreur de recherche

ReAct
Question : La déesse associée à la déesse frigg est composée de quoi ?
Les contes ?
Pensée 1 : Je dois chercher goddess frigg et trouver la déesse qui lui est associée.
Action 1 : Recherche [déesse frigg]Observation 1 : N'a pas trouvé la déesse frigg. Similar : ['Frigg', 'Frigg et Freyja commune
hypothèse d'origine", "Freyja (section Relation avec Frigg et d'autres déesses)
et personnages)", "Eir (redirection de Eir (déesse))", "Baldr"].
Pensée 2 : Il faut que je cherche plutôt Frigg...

ReAct
QUESTION : Quelles sont les histoires de la déesse Frigg en rapport avec la déesse ?
Idée n° 1 : Je dois rechercher la déesse Frigg et trouver des déesses qui lui sont apparentées.
Action 1 : Recherche de [la déesse Frigg] Observation 1 : Impossible de trouver la déesse Frigg. similar : ['Frigg', 'Hypothèse d'une origine commune de Frigg et Freyja', 'Freyja (en relation avec Frigg et d'autres déesses et personnages)', 'Eir (redirigé de Eir (déesse))', 'Baldr'].
Idée n°2 : Je dois chercher Frigg d'une manière différente...

Échec : hallucination / Échec : hallucination

CoT
Question : Quelle a été la première année où un journal scientifique publié par une organisation a été publié ?
situé dans le Bronx a été publié ?
Pensée : Réfléchissons étape par étape. La première année, une revue scientifique publiée par
Une organisation située dans le Bronx a été publiée en 1916.
Réponse : 1916 (Étiquette : 1909)

CoT
QUESTION : En quelle année l'institution basée dans le Bronx a-t-elle publié pour la première fois une revue scientifique ?
PENSER : Nous pensons étape par étape. La première revue scientifique publiée par l'institution du Bronx date de 1916.
Réponse : 1916 (Étiquette : 1909)

Échec : ambiguïté de l'étiquette / Échec : ambiguïté de l'étiquette

ReAct
Question : De quelle nationalité est l'homme qui a développé le jeu du dictateur ?
Pensée 1 : Je dois rechercher le jeu du dictateur, trouver l'homme qui l'a développé, puis trouver sa
nationalité.
Action 1 : Recherche[jeu du dictateur]Observation 1 : Le jeu du dictateur est un instrument expérimental populaire en psychologie sociale.
et l'économie...
Action 3 : Recherche[Amos Tversky] Observation 3 : Amos Nathan Tversky...
Pensée 4 : Amos Tversky est un psychologue israélien spécialisé dans les sciences cognitives et les mathématiques.
L'homme qui a mis au point le jeu du dictateur est israélien.
Action 4 : Finir [Israélien] (label : israélo-américain)
CoT
Question : Kurt Fuller, originaire de Stockton, CA, a joué dans quelle comédie policière américaine ?
Série télévisée dramatique créée par Steve Franks ?
Réflexion : Réfléchissons étape par étape. Kurt Fuller, de Stockton, CA, est apparu dans Psych.
Psych est une série télévisée américaine de type comédie policière et dramatique créée par
Steve Franks.
Réponse : Psych (label : Psych est une comédie policière américaine)

ReAct
Question : Quel est le pays de l'homme qui a inventé le "jeu du dictateur" ?
Réflexion 1 : Je dois chercher "jeu du dictateur", trouver la personne qui l'a inventé, puis trouver sa nationalité.
Action 1 : Recherche [Jeu du dictateur] Observation 1 : Le jeu du dictateur est un outil expérimental courant en psychologie sociale et en économie ......
Action 3 : Recherche [Amos Tversky] Observation 3 : Amos Nathan Tversky ......
Réflexion 4 : Amos Tversky est un psychologue cognitif et mathématique israélien. Par conséquent, la personne qui a inventé le "jeu du dictateur" est israélienne.
Action 4 : Conclusion [Israéliens] (tag note : Israël-USA)
CoT
QUESTION : Quelle série policière américaine créée par Steve Frank mettait en scène Kurt Fuller, originaire de Stockton, en Californie ?
Réflexion : allons-y pas à pas. Kurt Fuller est apparu dans Psych. Psych est une série télévisée policière américaine créée par Steve Frank.
Réponse : "Psych" (Note de l'éditeur : "Psych" est une comédie policière américaine)

Partie sans thèse, facile à comprendre, logique simple à démêler