ReAct: Reasoning und Action arbeiten in einem großen Sprachmodell zusammen

AI-WissensdatenbankAktualisiert vor 12 Monaten AI-Austauschkreis

2.4K 00

Original: https://arxiv.org/pdf/2210.03629.pdf

Sie verstehen auch nach der Lektüre nicht, wie ReAct funktioniert und angewendet wird? Schauen Sie sich dieReAct-Implementierungslogik Hands-on" mit praktischen Beispielen.

Abstracts

Während groß angelegte Sprachmodelle (llm) beeindruckende Leistungen bei Aufgaben des Sprachverständnisses und der interaktiven Entscheidungsfindung gezeigt haben, wurden ihre Denkfähigkeiten (z. B. Hinweise auf Gedankenketten) und Handlungsfähigkeiten (z. B. die Erstellung von Handlungsplänen) weitgehend als separate Themen untersucht. In diesem Beitrag wird die Verwendung von LLL zur Generierung von Argumentationstrajektorien und aufgabenspezifischen Aktionen in einer verschachtelten Art und Weise untersucht, die eine größere Synergie zwischen den beiden ermöglicht: Argumentationstrajektorien helfen dem Modell, Aktionspläne zu verallgemeinern, zu verfolgen und zu aktualisieren sowie mit Ausnahmen umzugehen, während Aktionen es ihm ermöglichen, mit externen Quellen (z. B. Wissensdatenbanken oder Umgebungen) zu interagieren und zusätzliche Informationen zu sammeln. Die vorgeschlagene ReAct-Methode wird auf eine Reihe von Sprach- und Entscheidungsfindungsaufgaben angewandt, und ihre Effektivität wird im Vergleich zum Stand der Technik demonstriert, zusätzlich zur Verbesserung der menschlichen Interpretierbarkeit und Vertrauenswürdigkeit. Insbesondere bei der Beantwortung von Fragen (HotpotQA) und der Überprüfung von Fakten (Fever) überwindet ReAct die Probleme der Täuschung und der Fehlerfortpflanzung, die bei der Gedankenkette vorherrschen, indem es mit einer einfachen Wikipedia-API interagiert und menschenähnliche Lösungswege generiert, die leichter zu interpretieren sind als die Grundlinien ohne Entscheidungswege. Darüber hinaus übertrifft ReAct bei zwei interaktiven Entscheidungsfindungs-Benchmarks (ALFWorld und WebShop) Mimikry- und Reinforcement-Learning-Ansätze mit einer absoluten Erfolgsrate von 34% bzw. 10%, wobei nur ein oder zwei kontextbezogene Beispiele benötigt werden.

1 Einleitung

Ein einzigartiges Merkmal menschlicher Intelligenz ist die Fähigkeit, aufgabenorientierte Handlungen nahtlos mit verbalem Denken zu verbinden. Man geht davon aus, dass dies eine wichtige Rolle in der menschlichen Kognition spielt und zur Selbstregulierung oder Strategieformulierung sowie zur Aufrechterhaltung des Arbeitsgedächtnisses beiträgt. Nehmen wir das Beispiel des Kochens eines Gerichts in der Küche: Zwischen zwei spezifischen Handlungen können wir verbales Denken einsetzen, um den Fortschritt zu verfolgen ("Jetzt, wo alles gehackt ist, sollte ich den Topf mit Wasser erhitzen"), um mit Anomalien umzugehen oder den Plan der Situation anzupassen ("Ich habe kein Salz, dann nehme ich stattdessen Sojasauce und Pfeffer Ich habe kein Salz, dann nehme ich stattdessen Sojasauce und Pfeffer"), und zu erkennen, wann externe Informationen benötigt werden ("Wie bereite ich den Teig zu? Ich werde im Internet recherchieren"). Wir können auch aktiv werden (ein Rezeptbuch aufschlagen, um ein Rezept zu lesen, den Kühlschrank öffnen, die Zutaten überprüfen), um das Denken zu unterstützen und Fragen zu beantworten ("Was kann ich jetzt kochen?"). Diese Art des "Handelns" stellt für uns kein Problem dar. Diese enge Synergie zwischen "Handeln" und "Denken" ermöglicht es dem Menschen, neue Aufgaben schnell zu erlernen und in bisher unbekannten Umgebungen oder bei Informationsunsicherheiten robuste Entscheidungen zu treffen oder zu argumentieren.

Jüngste Ergebnisse deuten auf die Möglichkeit hin, verbales Denken mit interaktiver Entscheidungsfindung in autonomen Systemen zu kombinieren. Einerseits haben entsprechend geführte Large Language Models (LLMs) die Fähigkeit bewiesen, mehrere Schritte des logischen Denkens in arithmetischen, vernünftigen und symbolischen Aufgaben durchzuführen. Allerdings handelt es sich bei dieser "Denkkette" um eine statische Blackbox, bei der das Modell seine interne Repräsentation verwendet, um Gedanken zu generieren, und sich nicht auf die externe Welt stützt, was seine Fähigkeit einschränkt, reaktiv zu denken oder Wissen zu aktualisieren. Dies kann zu faktischen Illusionen und Fehlerfortpflanzung im Denkprozess führen (Abbildung 1(1b)). Andererseits haben neuere Arbeiten die Verwendung von vortrainierten Sprachmodellen für die Planung und Ausführung von Handlungen in interaktiven Umgebungen untersucht, wobei der Schwerpunkt auf der Vorhersage von Handlungen durch linguistische Prioritäten liegt. Diese Ansätze wandeln typischerweise multimodale Beobachtungen in Text um, verwenden Sprachmodelle, um domänenspezifische Aktionen oder Pläne zu generieren, und verwenden dann Controller, um diese auszuwählen oder auszuführen. Sie verwenden jedoch keine linguistischen Modelle, um abstrakt über übergeordnete Ziele nachzudenken oder das Arbeitsgedächtnis zur Unterstützung von Handlungen aufrechtzuerhalten, mit Ausnahme von Huang et al. (2022b), die eine begrenzte Form des verbalen Denkens einsetzten, um räumliche Fakten über den aktuellen Zustand zu wiederholen. Abgesehen von dieser einfachen verkörperten Aufgabe, die mit mehreren Bausteinen interagiert, wurde bisher nicht erforscht, wie logisches Denken und Handeln auf synergetische Weise kombiniert werden können, um allgemeine Aufgaben zu lösen, und ob eine solche Kombination systematische Vorteile gegenüber dem logischen Denken oder dem Handeln allein bieten kann.

Abbildung 1: (1) Vergleich von vier Prompting-Methoden, (a) Standard Prompting, (b) Chain of Thought (CoT, nur Reasoning), (c) nur Action und (d) ReAct (Reasoning + Action), um ein HotpotQA (Yang et al., 2018) Problem zu lösen. (2) Ein Vergleich von (a) Nur-Action- und (b) ReAct-Hinting-Ansätzen zur Lösung eines AlfWorld (Shridhar et al., 2020b) Spiels. In beiden Bereichen lassen wir kontextuelle Beispiele aus den Aufforderungen weg und zeigen nur Problemlösungswege, die durch das Modell (Handeln, Denken) und die Umgebung (Beobachtung) erzeugt werden.

dieses Papier präsentiert_ReActReAct fordert llm auf, aufgabenrelevante verbale Argumentationsspuren und Aktionen in einer übergreifenden Art und Weise zu generieren, die es dem Modell ermöglicht, dynamische Argumentation durchzuführen, um Handlungspläne auf hoher Ebene zu erstellen, aufrechtzuerhalten und anzupassen (schlussfolgerndes Handeln), während es gleichzeitig mit externen Umgebungen (z. B. Wikipedia) interagiert, um zusätzliche Informationen in die Argumentation einzubeziehen (schlussfolgerndes Handeln). zusätzliche Informationen in die Schlussfolgerungen einfließen zu lassen (Schlussfolgerung durch Handlung).

In dieser Arbeit werden ReAct und die modernsten Basismodelle in vier verschiedenen Benchmarks empirisch evaluiert: Quiz, Faktenüberprüfung, Textspiele und Webnavigation. Bei HotPotQA und Fever übertrifft ReAct gängige Modelle zur Handlungsgenerierung und konkurriert mit Chain of Thought Reasoning (CoT), indem es auf die Wikipedia-API zugreift, mit der Modelle interagieren können. Insgesamt ist der beste Ansatz eine Kombination aus ReAct und CoT, die es ermöglicht, sowohl internes Wissen als auch extern gewonnene Informationen in den Schlussfolgerungsprozess einzubeziehen. Bei ALFWorld und WebShop können zwei oder sogar ein ReAct-Prompt die Verwendung von 10³∼ 10⁵Methoden des Imitations- oder Verstärkungslernens, die auf Aufgabeninstanzen trainiert wurden, führten zu absoluten Steigerungen der Erfolgsquoten von 34 % bzw. 10 %. Die Bedeutung des spärlichen, verallgemeinerten Denkens bei der Entscheidungsfindung wird durch einen konsistenten Vorteil gegenüber einer kontrollierten Grundlinie, bei der nur gehandelt wurde, demonstriert. Neben der allgemeinen Anwendbarkeit und den Leistungssteigerungen trägt die Kombination von Schlussfolgerungen und Handlungen zur Interpretierbarkeit, Vertrauenswürdigkeit und Diagnostizierbarkeit des Modells in allen Bereichen bei, da Menschen leicht zwischen Informationen unterscheiden können, die aus dem internen Wissen des Modells und der externen Umgebung abgeleitet wurden, und auch die Inferenzverläufe untersuchen können, um die Entscheidungsgrundlagen der Handlungen des Modells zu verstehen.

Zusammenfassend lassen sich unsere wichtigsten Beiträge wie folgt zusammenfassen.

(1) Vorschlag von ReAct, einem neuen, auf Stichworten basierenden Paradigma für kollaboratives Denken und Handeln bei der Sprachmodellierung zur Lösung allgemeiner Aufgaben.

(2) Es wurden umfangreiche Experimente mit verschiedenen Benchmarks durchgeführt, um die Vorteile von ReAct gegenüber bisherigen Ansätzen zur Inferenz oder zur alleinigen Handlungsgenerierung in einer stichprobenlosen Lernumgebung zu demonstrieren.

(3) systematische Abtragungen und Analysen vorschlagen, um die Bedeutung von Handlungen in Denkaufgaben und von Denkaufgaben in Interaktionsaufgaben zu verstehen.

(4) Die Grenzen von ReAct im cued Setting (d.h. begrenzte Unterstützung für Inferenz und Verhalten) werden analysiert und erste Experimente zur Feinabstimmung durchgeführt, die das Potenzial für eine Verbesserung von ReAct mit zusätzlichen Trainingsdaten zeigen. Die Erweiterung von ReAct, um zusätzliche Aufgaben zu trainieren und zu bearbeiten, und die Kombination mit ergänzenden Paradigmen wie dem Verstärkungslernen könnten das Potenzial großer Sprachmodelle weiter erschließen.

2 REACT: Kollaboratives Denken und Handeln

Betrachten wir den allgemeinen Aufbau eines intelligenten Körpers, der mit seiner Umgebung interagiert, um eine Aufgabe zu lösen. In dem ZeitschritttEin, der Agent erhält eine Beobachtung aus der Umgebungo_t∈ O, und nach einer bestimmten Strategieπ(a_t|c_t) Nehmen Sie eine Operationa_t∈ A, wobeic_t= (o₁,a₁,--- ,o_t_-1,a_t_-1,o_t) ist der Kontext des Agenten. Wenn die Abbildungc_t→7 a_tDas Erlernen von Strategien kann eine Herausforderung darstellen, wenn sie in hohem Maße implizit sind und eine große Menge an Berechnungen erfordern. Zum Beispiel ist der in Abb. 1 (1c) gezeigte Agent nicht in der Lage, die korrekte letzte Aktion (Akt 4) zu generieren, um die QA-Aufgabe abzuschließen, da dies komplexe Schlussfolgerungen über den Kontext der Flugbahn (Frage, Akt 1-3, Beobachtung 1-3) erfordert. In ähnlicher Weise ist der in Abb. 1 (2a) gezeigte Agent nicht in der Lage, aus dem Kontext zu verstehen, dass Spüle 1 keinen Pfefferstreuer 1 enthält, und produziert daher weiterhin halluzinatorische Verhaltensweisen.

Die Idee von ReAct ist einfach: Wir erweitern den Aktionsraum eines intelligenten Körpers zu Aˆ = A ∪ L, wobei L der Sprachraum ist. Eine Aktion im Sprachraumaˆ_t∈ L, das wir als Gedanken- oder Argumentationsspur bezeichnen, wirkt sich nicht auf die äußere Umgebung aus und führt daher nicht zu einem Beobachtungsfeedback. Im Gegensatz dazu, ein Gedankeaˆ_tZiel ist es, nützliche Informationen zusammenzustellen, indem man über den aktuellen Kontext nachdenktc_tund aktualisieren den Kontextc_t₊₁= (c_t,aˆ_t), um zukünftige Überlegungen oder Handlungen zu unterstützen. Wie in Abbildung 1 dargestellt, kann es verschiedene Arten von nützlichen Ideen geben, z. B.: Aufschlüsselung der Aufgabenziele und Erstellung eines Aktionsplans (2b, Handlung 1; 1d, Gedanke 1), Einbringen von für die Aufgabenlösung relevantem Alltagswissen (2b, Gedanke 1), Extrahieren wichtiger Teile aus Beobachtungen (1d, Gedanke 2,4), Verfolgen des Fortschritts und Transportieren des Aktionsplans (2b, Gedanke 8), Umgang mit Ausnahmen und Anpassen des Aktionsplans ( 1d, Gedanke 3), und so weiter.

Da der Sprachraum L jedoch unendlich ist, ist das Lernen in diesem erweiterten Aktionsraum schwierig und erfordert einen starken linguistischen Prior. In dieser Arbeit konzentrieren wir uns auf ein eingefrorenes großes Sprachmodell PaLM-540B (Chowdhery et al., 2022) in dieser Umgebung^[1]Kontextuelle Beispiele mit weniger Stichproben wurden herangezogen, um domänenspezifische Handlungen und freie sprachliche Gedanken zur Aufgabenlösung zu generieren (Abb. 1 (1d), (2b)). Die Beispiele in jedem Kontext sind Trajektorien menschlicher Handlungen, Gedanken und Umweltbeobachtungen, die zur Lösung von Aufgabeninstanzen verwendet werden (siehe Anhang C). Bei Aufgaben, bei denen das Denken im Vordergrund steht (Abb. 1(1)), erzeugen wir Gedanken und Handlungen abwechselnd, so dass die Trajektorie der Aufgabenlösung aus mehreren Gedanken-Handlungs-Beobachtungs-Schritten besteht. Im Gegensatz dazu müssen bei Entscheidungsaufgaben, die eine große Anzahl von Handlungen beinhalten können (Abb. 1(2)), Gedanken nur spärlich an den relevantesten Stellen der Trajektorie erscheinen, so dass wir das Sprachmodell selbst über das asynchrone Auftreten von Gedanken und Handlungen entscheiden lassen.

Durch die Integration von Entscheidungs- und Schlussfolgerungsfähigkeiten in ein großes Sprachmodell verfügt ReAct über mehrere einzigartige Eigenschaften.

A) Intuitiv und einfach zu gestalten:Die Gestaltung von ReAct-Prompts ist einfach, weil menschliche Kommentatoren ihre Gedanken einfach in Worten zusätzlich zu ihren Handlungen ausdrücken. In diesem Dokument werden keine spezifischen Formatwahlen, Think-Aloud-Designs oder Beispielwahlen verwendet. Wir beschreiben das Prompt-Design für jede Aufgabe im Detail in den Abschnitten 3 und 4.

B) Universell und flexibel:Aufgrund des flexiblen Denkraums und des Think-Act-Generate-Formats eignet sich ReAct für verschiedene Aufgaben mit unterschiedlichen Handlungsräumen und Argumentationsanforderungen, einschließlich, aber nicht beschränkt auf QA, Faktenüberprüfung, Textspiele und Webnavigation.

C) Leistungsstarke und robuste Leistung:ReAct zeigt eine starke Generalisierung, wenn es von nur einem bis sechs kontextuellen Beispielen lernt, und geht dabei konsequent über die Basislinie von nur Denken oder Handeln in allen Domänen hinaus. In Abschnitt 3 zeigen wir zusätzliche Vorteile bei der Feinabstimmung und in Abschnitt 4 die Robustheit der ReAct-Leistung bei der Auswahl von Stichwörtern.

D) Auf den Menschen ausgerichtet und kontrollierbar:ReAct verspricht einen interpretierbaren, sequentiellen Entscheidungs- und Argumentationsprozess, bei dem der Mensch die Argumentation und die sachliche Korrektheit leicht überprüfen kann. Darüber hinaus kann der Mensch, wie in Abbildung 5 in Abschnitt 4 gezeigt, das Verhalten des intelligenten Körpers auch durch Nachdenken über die Bearbeitung steuern oder korrigieren.

3 Wissensintensive Argumentationsaufgaben

Angefangen bei wissensintensiven Argumentationsaufgaben wie Multi-Hop-Quiz und Fact-Checking. Wie in Abbildung 1 (1d) zu sehen ist, kann ReAct durch Interaktion mit der Wikipedia-API Informationen abrufen, um die Argumentation zu unterstützen, und auch die Argumentation nutzen, um zu bestimmen, was als Nächstes abgerufen werden soll, was die Synergie von Argumentation und Aktion demonstriert.

3.1 Einstellungen

Domains Wir betrachten zwei Datensätze, die eine Herausforderung für die Wissenssuche und Inferenz darstellen: (1) HotPotQA , ein Multi-Hop-Frage-Antwort-Benchmark, der Inferenz über zwei oder mehr Wikipedia-Artikel erfordert, und (2) FEVER , ein Faktencheck-Benchmark, bei dem jede Aussage mit SUPPORTS, REFUTES oder NOT ENOUGH INFO gekennzeichnet ist, je nachdem, ob ein Wikipedia-Artikel zur Bestätigung der Aussage existiert. In dieser Arbeit verwenden wir bei beiden Aufgaben eine reine Problemstellung, bei der das Modell nur das Problem/die Aussage als Eingabe erhält und keinen Zugang zu den unterstützenden Passagen hat und sich auf sein internes Wissen verlassen oder Wissen durch Interaktion mit der externen Umgebung abrufen muss, um die Argumentation zu unterstützen.

Aktionsraum Wir haben eine einfache Wikipedia-Web-API entwickelt, die drei Arten von Operationen enthält, um die interaktive Suche nach Informationen zu unterstützen:

(1) nach etw. Ausschau halten [Entität], die die ersten 5 Sätze der entsprechenden Wiki-Seite der Entität zurückgibt, wenn sie existiert, andernfalls werden die ersten 5 ähnlichen Entitäten aus der Wikipedia-Suchmaschine vorgeschlagen.

(2) ausfindig machen. [string], was den nächsten Satz in der Seite, die die Zeichenkette enthält, zurückgibt und die Funktion Strg+F eines Browsers simuliert.

(3) erfüllen [Antwort], schließt die aktuelle Aufgabe mit der Antwort ab. Der Aktionsraum kann meist nur einen kleinen Teil eines Absatzes auf der Grundlage des genauen Absatznamens abrufen und ist damit viel schwächer als moderne lexikalische oder neuronale Retriever. Das Ziel ist es, zu simulieren, wie Menschen mit Wikipedia interagieren, und das Modell zu zwingen, durch explizite Schlussfolgerungen in der Sprache zu recherchieren.

3.2 Methodik

ReAct Prompting Bei HotpotQA und Fever wurden 6 bzw. 3 Fälle zufällig aus der Trainingsmenge ausgewählt und manuell Trajektorien im ReAct-Format geschrieben, die als unterdurchschnittliche Stichproben in den Prompts verwendet wurden. Ähnlich wie in Abb. 1 (d) besteht jede Trajektorie aus mehreren Gedanken-Handlungs-Beobachtungs-Schritten (d. h. dichtes Denken), in denen frei geformte Gedanken für verschiedene Zwecke verwendet werden. Insbesondere verwenden wir eine Kombination von Gedanken, um das Problem zu zerlegen ("Ich muss nach x suchen, y finden und dann z finden"), Informationen aus Wikipedia-Beobachtungen zu extrahieren ("x begann im Jahr 1844", "der Text sagt nicht x"), den gesunden Menschenverstand einsetzen ("x ist nicht y, also muss z ...... sein") oder arithmetisches Denken ("1844 < 1989"), Rekonstruktion der Suche (""Vielleicht kann ich x suchen/finden") und Zusammenfassen der endgültigen Antwort (" "...... Die Antwort ist also x"). Siehe Anhang C für weitere Einzelheiten.

Grundlinien Wir entfernten systematisch ReAct-Trajektorien, um mehrere Grundlinien zu konstruieren (im Format von Abb. 1 (1a-1c)).

(a)Standard-Prompting/Standard-Prompting(Standard), wobei alle Gedanken, Handlungen und Beobachtungen aus dem ReAct-Verlauf entfernt werden.

(b)Gedankenketten-Prompting / Gedankenketten-Prompting(CoT), bei der Handlungen und Beobachtungen entfernt werden und die nur als Grundlinie für die Schlussfolgerungen dient. Eine selbstkonsistente Basislinie (CoT-SC) wurde erstellt, indem während der Inferenz Trajektorien mit einer CoT-Dekodierungstemperatur von 0,7 abgetastet und ein Großteil der Antworten verwendet wurde. Es wurde festgestellt, dass sich die Leistung gegenüber der CoT durchgängig verbessert.

(c)Reine Handlungsaufforderung(Act), das Ideen aus dem ReAct-Verlauf entfernt, entspricht in etwa der Art und Weise, wie WebGPT mit dem Internet interagiert, um Fragen zu beantworten, obwohl es auf einem anderen Aufgaben- und Handlungsraum arbeitet und eher Imitations- und Verstärkungslernen als Aufforderungen verwendet.

Kombination von internem und externem Wissen / Combining Internal and External Knowledge Wie wir in Abschnitt 3.3 näher ausführen werden, stellen wir fest, dassReAct zeigte einen sachlicheren und fundierteren Problemlösungsprozess, während CoT eine genauere Argumentationsstruktur formulierte, aber zu Halluzinationen neigte.Daher schlagen wir vor, ReAct und CoT-SC zu verschmelzen und das Modell anhand der folgenden Heuristik entscheiden zu lassen, wann es auf die andere Methode umschaltet.

a) ReAct→CoT-SCWir haben 7 bzw. 5 Schritte für HotpotQA und FEVER festgelegt, weil wir festgestellt haben, dass mehr Schritte die Leistung von ReAct nicht verbessern.

b) CoT-SC→ReAct:: WennnDie Mehrheit der Antworten in der CoT-SC-Stichprobe erscheint weniger alsn/In 2 Fällen (d.h. wenn das interne Wissen nicht ausreicht, um die Aufgabe sicher zu unterstützen), kehren Sie zu ReAct zurück.

Feinabstimmung/Finetuning Aufgrund der Herausforderungen bei der manuellen Kennzeichnung von Inferenz-Trajektorien und Aktionen in großem Umfang wird in diesem Papier ein Selbsthilfeansatz ähnlich dem von Zelikman et al. (2022) betrachtet, der 3000 von ReAct generierte Trajektorien mit korrekten Antworten (die auch in anderen Baselines verwendet werden) zur Feinabstimmung eines kleineren Sprachmodells (PaLM-8/62B) verwendet, um Trajektorien zu dekodieren, die durch Eingabefragen/-aussagen bedingt sind (alle Gedanken, Handlungen, Beobachtungen). Siehe Anhang B.1 für weitere Einzelheiten.

3.3 Ergebnisse und Beobachtungen

ReAct schneidet insgesamt besser ab als Act/ReAct schneidet durchweg besser ab als Act Tabelle 1 zeigt die Ergebnisse von HotpotQA und Fever unter Verwendung von PaLM-540B als Basismodell und unter Verwendung verschiedener Cueing-Methoden. Wir stellen fest, dass ReAct bei beiden Aufgaben besser abschneidet als Act, was den Wert von Schlussfolgerungen zur Steuerung von Handlungen zeigt, insbesondere bei der Synthese der endgültigen Antworten, wie in Abbildung 1 (1c-d) gezeigt. Das Ergebnis der Feinabstimmung (3) bestätigt ebenfalls die Vorteile von Inferenzspuren für fundierteres Handeln.

Tabelle 1: PaLM-540B Cueing-Ergebnisse bei HotpotQA und Fever.

ReAct vs. CoT Andererseits übertrifft ReAct das CoT bei Fieber (60,9 vs. 56,3) und liegt bei HotpotQA leicht hinter dem CoT (27,4 vs. 29,4). Möglicherweise gibt es nur geringfügige Unterschiede bei den Befürwortern und Gegnern von Eiferer-Aussagen (siehe Anhang D.1), so dass es von entscheidender Bedeutung ist, Maßnahmen zu ergreifen, um genaue und aktuelle Erkenntnisse zu gewinnen. Um die Verhaltensunterschiede zwischen ReAct und CoT bei HotpotQA besser zu verstehen, haben wir nach dem Zufallsprinzip jeweils 50 Trajektorien mit richtigen und falschen Antworten (EM-Urteile) aus ReAct und CoT (insgesamt 200 Beispiele) ausgewählt und deren Erfolgs- und Misserfolgsmuster in Tabelle 2 manuell gekennzeichnet. Im Folgenden sind einige wichtige Beobachtungen aufgeführt.

Tabelle 2: Arten von Erfolgs- und Misserfolgsmodi für ReAct und CoT auf HotpotQA und ihre prozentualen Anteile in zufällig ausgewählten Beispielen aus Humanstudien.

A) Halluzinationen sind ein ernstes Problem für CoTsführt im Erfolgsmodus zu einer viel höheren Fehlalarmrate als ReAct (14% vs. 6%) und ist der Hauptausfallmodus (56%). Im Gegensatz dazu ist der Problemlösungsverlauf von ReAct relevanter, faktenorientierter und glaubwürdiger, da es auf eine externe Wissensbasis zugreifen kann.

B) Während die Verschachtelung von Argumentations-, Handlungs- und Beobachtungsschritten die Praktikabilität und Glaubwürdigkeit von ReAct erhöht, reduziert diese strukturelle Einschränkung auch die Flexibilität bei der Formulierung von ArgumentationsschrittenWir stellen fest, dass ReAct ein bestimmtes häufiges Fehlermuster aufweist, bei dem das Modell frühere Gedanken und Handlungen neu generiert, was wir als Teil des "Argumentationsfehlers" einstufen, da das Modell nicht angemessen über die nächste Handlung nachdenken kann und aus der Schleife herausspringt.

C) Für ReAct ist der erfolgreiche Abruf von Informationswissen durch Suche entscheidend.Nicht-informative Suchen machten 23% der Fehlerfälle aus, was die Modellüberlegungen entgleisen ließ und es schwierig machte, Ideen wiederzufinden und neu zu formulieren. Dies könnte ein erwarteter Kompromiss zwischen Faktizität und Flexibilität sein, der uns dazu inspiriert hat, eine Strategie vorzuschlagen, die beide Ansätze kombiniert.

Beispiele für jeden Erfolgs- und Misserfolgsmodus finden Sie in Anhang E.1. Wir haben auch festgestellt, dass einige HotpotQA-Fragen möglicherweise veraltete Antwortbezeichnungen enthalten, siehe Abbildung 4 für ein Beispiel.

ReAct + CoT-SC schnitt bei der Aufforderung zu LLM am besten ab.Wie in Tabelle 1 gezeigt, waren die besten Cueing-Methoden bei HotpotQA und Fever ReAct → CoT-SC bzw. CoT-SC → ReAct. Abbildung 2 zeigt außerdem die Leistung der verschiedenen Methoden bei Verwendung einer unterschiedlichen Anzahl von CoT-SC-Proben. Während die beiden ReAct + CoT-SC-Methoden bei ihren jeweiligen Aufgaben Vorteile haben, übertreffen sie beide CoT-SC signifikant und konsistent, wenn sie nur 3-5 Stichproben über eine unterschiedliche Anzahl von Stichproben hinweg verwenden, ein Ergebnis, das den Wert einer angemessenen Kombination von modellinternem Wissen mit externem Wissen über die Schlussfolgerungsaufgabe demonstriert.

Abbildung 2: PaLM-540B Prompt-Ergebnisse, dargestellt nach der Anzahl der verwendeten CoT-SC-Proben.

ReAct ist optimal für die Feinabstimmung geeignet.Abbildung 3 zeigt die erweiterten Auswirkungen von Cueing/Fine-Tuning für die vier Methoden (Standard, CoT, Act, ReAct) auf HotpotQA. In PaLM-8/62B schnitt die Prompting-Methode ReAct von den vier Methoden am schlechtesten ab, was auf die Schwierigkeit zurückzuführen ist, das Denken und Handeln anhand von Szenarien zu erlernen. Bei einer Feinabstimmung mit nur 3.000 Beispielen wurde ReAct jedoch zur besten der vier Methoden, wobei das feinabgestimmte PaLM-8B ReAct alle PaLM-62B Prompting-Methoden und das feinabgestimmte PaLM-62B ReAct alle 540B Prompting-Methoden übertraf. Im Gegensatz dazu schnitt die Feinabstimmung Standard oder CoT signifikant schlechter ab als die Feinabstimmung ReAct oder Act in PaLM8/62B, wobei erstere dem Modell in erster Linie beibringt, sich (möglicherweise fiktive) Wissensfakten zu merken, während letztere dem Modell beibringt, wie man Informationen aus Wikipedia (schlussfolgert und) handelt, was eine allgemeinere Fähigkeit zum schlussfolgernden Denken ist. Da alle Prompting-Methoden immer noch deutlich unter dem domänenspezifischen Stand der Technik liegen (Tabelle 1), glauben wir, dass eine Feinabstimmung mit mehr von Menschen geschriebenen Daten ein besserer Weg sein könnte, um die Fähigkeiten von ReAct zu entfalten.

Abbildung 3: Erweiterte Ergebnisse für das Cueing und die Feinabstimmung von HotPotQA unter Verwendung von ReAct (unsere Methode) und der Basislinien.

4 Aufgaben der Entscheidungsfindung

Wir haben ReAct auch an zwei interaktiven sprachbasierten Entscheidungsfindungsaufgaben getestet, ALFWorld und WebShop, die beide komplexe Umgebungen haben, die von Intelligenzen verlangen, über lange Zeiträume mit spärlichen Belohnungen zu handeln, was von Intelligenzen verlangt, effektiv zu denken, um zu handeln und zu erkunden.

ALFWorld ALFWorld (Abbildung 1(2)) ist ein synthetisches, textbasiertes Spiel, das auf den verkörperten ALFRED-Benchmark abgestimmt ist. Es besteht aus 6 Aufgabentypen, bei denen Intelligenzen durch textuelle Aktionen navigieren müssen (z. B. zum Kaffeetisch1 gehen, die Akte2 aufheben, die Schreibtischlampe1 benutzen) und mit einer simulierten Familie interagieren müssen, um übergeordnete Ziele zu erreichen (z. B. die Akte unter der Schreibtischlampe überprüfen). Eine Aufgabeninstanz kann mehr als 50 Orte haben und mehr als 50 Schritte der Expertenstrategie zur Lösung erfordern, was die Intelligenzen herausfordert, Teilziele zu planen und zu verfolgen sowie systematisch zu erkunden (z. B. alle Tische einzeln zu überprüfen, um die Schreibtischlampe zu finden). Eine der Herausforderungen in ALFWorld besteht darin, die wahrscheinlichen Standorte von Haushaltsgegenständen zu bestimmen (z. B. befindet sich eine Tischlampe wahrscheinlich auf einem Tisch, einem Regal oder einer Kommode), was diese Umgebung ideal für LLM macht, um sein vortrainiertes Commonsense-Wissen zu nutzen. Um ReAct anzusteuern, haben wir für jeden Aufgabentyp zufällig drei Trajektorien im Trainingsset annotiert, die jeweils aus spärlichen Ideen bestehen, die (1) das Ziel zerlegen, (2) die Erledigung des Teilziels verfolgen, (3) das nächste Teilziel bestimmen und (4) den Ort des Objekts und das, was damit zu tun ist, mit Hilfe von Commonsense-Reasoning finden. Wir zeigen die für ALFWorld verwendeten Hinweise in Anhang C.4. In Anlehnung an den Ansatz von Shridhar et al. haben wir 134 ungesehene Bewertungsspiele in einer spezifischen Aufgabenstellung evaluiert. Um die Robustheit zu gewährleisten, konstruierten wir 6 Hinweise für jeden Aufgabentyp durch jede Permutation der 3 annotierten Trajektorien.Act-Hinweise wurden unter Verwendung der gleichen Trajektorien konstruiert, aber ohne Ideen - da die Aufgabeninstanzen zufällig aus der Trainingsmenge ausgewählt wurden, waren sie weder in Richtung ReAct noch Act voreingenommen, so dass ein fairer und kontrollierter Vergleich möglich ist, um die Bedeutung von spärlichen Ideen zu testen. Als Basis verwenden wir BUTLER, eine nachahmende Lernintelligenz, die auf 105 Experten-Trajektorien für jeden Aufgabentyp trainiert wurde.

WebShop Kann ReAct auch mit verrauschten realen Sprachumgebungen für praktische Anwendungen interagieren? Wir haben WebShop untersucht, eine kürzlich vorgeschlagene Online-Shopping-Website-Umgebung mit 1,18 Millionen realen Produkten und 12k menschlichen Anweisungen. Im Gegensatz zu ALFWorld enthält Webshop eine große Menge an strukturiertem und unstrukturiertem Text (z.B. Produkttitel, Beschreibungen und Optionen, die von Amazon gecrawlt wurden) und bittet Intelligenzen, auf der Grundlage von Benutzerbefehlen damit zu interagieren (z.B. "Ich suche einen Nachttisch mit Schubladen. Es sollte eine Nickeloberfläche haben und weniger als 140 $ kosten") durch Webinteraktionen (z. B. Suche nach "Nachttisch Schubladen" und Auswahl von Schaltflächen wie "Farbe: Modernes Nickelweiß" oder "Zurück zu Suche", Auswahl von Schaltflächen wie "Farbe: Modernes Nickelweiß" oder "Zurück"), um das Produkt zu kaufen. Diese Aufgabe wurde bei 500 Testanweisungen anhand der durchschnittlichen Punktzahl (Prozentsatz der geforderten Attribute, die vom ausgewählten Produkt abgedeckt werden, gemittelt über alle Episoden) und der Erfolgsquote (Prozentsatz der Episoden, in denen das ausgewählte Produkt alle Anforderungen erfüllte) bewertet. Wir haben Act-Prompts entwickelt, die Aktionen für die Suche, die Auswahl von Produkten, die Auswahl von Optionen und den Kauf beinhalten, während ReAct-Prompts zusätzliche Überlegungen anstellen, um zu bestimmen, was zu erkunden ist, wann gekauft werden soll und welche Produktoptionen für die Anweisungen relevant sind. Siehe Tabelle 6 für Beispielaufforderungen und Tabelle 10 im Anhang für Modellvorhersagen. Wir vergleichen dies mit einem Ansatz des Nachahmungslernens, der mit 1012 persönlich annotierten Trajektorien trainiert wurde, und einem zusätzlichen Ansatz des Nachahmungs- und Verstärkungslernens (IL + RL), der mit 10587 Trainingsanweisungen trainiert wurde.

am Ende ReAct übertrifft Act sowohl auf der ALFWorld- (Tabelle 3) als auch auf der Webshop-Plattform (Tabelle 4): Auf der ALFWorld-Plattform erreicht das leistungsstärkste ReAct-Experiment eine durchschnittliche Erfolgsrate von 711 TP3T, was die besten Act- (451 TP3T) und BUTLER-Experimente (371 TP3T) deutlich übertrifft. Tatsächlich übertrifft das schlechteste ReAct-Experiment (481 TP3T) auch die besten Experimente beider Methoden. Darüber hinaus blieb der Vorteil von ReAct gegenüber Act über die sechs kontrollierten Experimente hinweg bestehen, wobei die relativen Leistungssteigerungen von 331 TP3T bis 901 TP3T reichten, mit einem Durchschnitt von 621 TP3T. Aus qualitativer Sicht stellten wir fest, dass Act das Ziel nicht korrekt in kleinere Unterziele zerlegte oder den aktuellen Zustand der Umgebung nicht im Auge behielt, wenn überhaupt kein Denken vorhanden war. Beispiele für Trajektorien, die ReAct und Act vergleichen, finden Sie in Anhang D.2.1 und Anhang D.2.2.

Tabelle 3: AlfWorld aufgabenspezifische Erfolgsquoten (%). Die Ergebnisse für BUTLER und BUTLERg stammen aus Shridhar et al. 2020b Tabelle 4. Alle Methoden verwenden Greedy-Decodierung, mit Ausnahme von BUTLER, das Balkensuche verwendet.

Tabelle 4: Punktzahlen und Erfolgsquoten (SR) im Webshop. IL/IL+RL-Daten entnommen aus Yao et al. (2022).

Im Webshop konnten einmalige Act-Hinweise Hand in Hand mit IL- und IL+RL-Methoden gehen. Mit zusätzlichem Sparse Reasoning erreicht ReAct eine deutlich bessere Leistung, mit einer absoluten Verbesserung von 10% gegenüber der bisher besten Erfolgsrate. Bei der Untersuchung von Beispielen haben wir festgestellt, dass ReAct eher in der Lage ist, die Lücke zwischen verrauschten Beobachtungen und Handlungen zu schließen, indem es Produkte und Optionen identifiziert, die für die Anweisung relevant sind (z. B.: "Für den 'platzsparenden Wohnzimmerhocker' hat der Artikel eine Größe von ' 39x18x18inch' und 'blau' Optionen, die es wert zu sein scheinen, gekauft zu werden") . Allerdings schneiden die vorhandenen Methoden immer noch weit weniger gut ab als menschliche Experten (Tabelle 4), die wesentlich mehr Produktexploration und Rekonstruktion von Suchanfragen durchführen, was eine Herausforderung für cue-basierte Methoden bleibt.

Über den Wert interner Überlegungen gegenüber externem Feedback Soweit wir wissen, ist ReAct die erste Demonstration von LLM, die auf ein geschlossenes System angewendet wird, das Denken und Handeln in einer interaktiven Umgebung kombiniert. Die vielleicht ähnlichste frühere Arbeit ist Internal Monologue (IM) von Huang et al. (2022b), bei der die Handlungen verkörperter Agenten durch den gleichnamigen "internen Monolog" gesteuert werden.Der "interne Monolog" des IM beschränkt sich jedoch auf die Beobachtung des Zustands der Umwelt und der Aufgaben, die der Agent erfüllen muss, um seine Ziele zu erreichen.Im Gegensatz dazu ist die Entscheidungsinferenzverfolgung in ReAct flexibel und spärlich, so dass verschiedene Inferenztypen für unterschiedliche Aufgaben induziert werden können (siehe Abschnitt 2).

Um den Unterschied zwischen ReAct und IM zu demonstrieren und die Bedeutung des internen Denkens im Vergleich zu einfachen Antworten auf externes Feedback zu betonen, führten wir Ablationsexperimente mit einem Denkmuster durch, das aus IM-artigem, dichtem externen Feedback bestand. Wie in Tabelle 3 gezeigt, übertraf ReAct die IM-artigen Aufforderungen (ReAct-IM) bei weitem (71% vs. 53% für den Gesamterfolg), mit konsistenten Vorteilen bei fünf der sechs Aufgaben. Qualitativ stellten wir fest, dass ReAct-IM häufig Fehler bei der Bestimmung des Zeitpunkts der Erledigung von Teilzielen oder der Festlegung des nächsten Teilziels machte, was auf eine fehlende Dekomposition der Ziele auf hoher Ebene zurückzuführen ist. Darüber hinaus hatten viele der ReAct-IM-Trajektorien auch Schwierigkeiten bei der Bestimmung, wo sich Gegenstände in der ALFWorld-Umgebung befinden könnten, da es ihnen an gesundem Menschenverstand mangelte.
Beide Unzulänglichkeiten können mit dem ReAct-Paradigma behoben werden. Weitere Einzelheiten zu ReAct-IM finden Sie in Anhang B.2. Beispielhafte Hinweise zu ReAct-IM finden Sie in Anhang C.4, und Beispieltrajektorien in Anhang D.2.3.

5 Verwandte Arbeiten

Ein linguistisches Modell der Argumentation Die vielleicht bekannteste Arbeit über das schlussfolgernde Denken mit Large Language Models (LLMs) ist Chain-of-Thought (CoT), die die Fähigkeit von LLMs aufzeigte, ihre eigenen "Denkprozesse" zur Lösung von Problemen zu formulieren. Seitdem wurden mehrere Folgearbeiten durchgeführt, darunter Least-to-Most Prompting für komplexe Aufgaben, Zero-Shot CoT und selbstkonsistentes Denken. Kürzlich untersuchten (Madaan & Yazdanbakhsh, 2022) systematisch den Aufbau und die Struktur von CoTs und stellten fest, dass das Vorhandensein von Symbolen, Schemata und Text entscheidend für die Wirksamkeit von CoTs ist.
Andere Arbeiten haben zu komplexeren Schlussfolgerungsarchitekturen geführt, die über einfache Hinweise hinausgehen. Bei Selection-Inference beispielsweise wird der Schlussfolgerungsprozess in "Auswahl"- und "Schlussfolgerungs"-Schritte unterteilt, und STaR leitet den Schlussfolgerungsprozess durch Feinabstimmung des Modells auf der Grundlage der vom Modell selbst erzeugten korrekten Schlussfolgerung. Schlussfolgernder Prozess. Faithful Reasoning zerlegt den mehrstufigen Schlussfolgerungsprozess in drei Schritte, von denen jeder von einem speziellen LM ausgeführt wird. Ähnliche Ansätze, wie z. B. Scratchpad, zeigen ebenfalls Verbesserungen bei mehrstufigen Berechnungsproblemen durch Feinabstimmung des LM auf dazwischen liegenden Berechnungsschritten.
Im Gegensatz zu diesen Ansätzen führt ReAct mehr als isolierte, fixe Schlussfolgerungen durch und integriert Modellaktionen und ihre entsprechenden Beobachtungen in einen kohärenten Eingabestrom, so dass das Modell genauer schlussfolgern und Aufgaben lösen kann, die über das Schlussfolgern hinausgehen (z. B. interaktive Entscheidungsfindung).

Verwendung von Sprachmodellen für die Entscheidungsfindung. Die Fähigkeiten leistungsfähiger LLMs erlauben es ihnen, Aufgaben zu erfüllen, die über die Spracherzeugung hinausgehen, und es wird immer beliebter, LLMs als Strategiemodell für die Entscheidungsfindung zu nutzen, insbesondere in interaktiven Umgebungen.WebGPT verwendet LLMs, um mit Webbrowsern zu interagieren, auf Webseiten zu navigieren und Antworten auf komplexe Fragen aus ELI abzuleiten5 . Im Gegensatz dazu modelliert WebGPT nicht explizit Denk- und Argumentationsprozesse, sondern verlässt sich auf teures menschliches Feedback zum Verstärkungslernen. In der Dialogmodellierung trainieren Systeme wie BlenderBot und Sparrow sowie aufgabenorientierte Dialogsysteme wie SimpleTOD ebenfalls LMs, um Entscheidungen über API-Aufrufe zu treffen. Im Gegensatz zu ReAct berücksichtigen sie nicht explizit den Inferenzprozess und verlassen sich auf teure Datensätze und menschliches Feedback für das Lernen von Richtlinien. Im Gegensatz dazu lernt ReAct Richtlinien auf billigere Art und Weise, da der Entscheidungsfindungsprozess nur Sprache benötigt, um den Argumentationsprozess zu beschreiben.

Sprachmodelle (LLMs) werden auch zunehmend für die Planung und Entscheidungsfindung in interaktiven und verkörperten Umgebungen eingesetzt. In dieser Hinsicht sind die für ReAct relevantesten wahrscheinlich SayCan undInnerer MonologIn SayCan werden LLMs aufgefordert, die möglichen Aktionen des Roboters direkt vorherzusagen, die dann von einem auf der visuellen Umgebung basierenden Verfügbarkeitsmodell neu sortiert werden, um die endgültige Vorhersage zu treffen. In SayCan werden LLMs aufgefordert, die möglichen Aktionen des Roboters direkt vorherzusagen, die dann von einem visuellen, auf der Umgebung basierenden Verfügbarkeitsmodell neu geordnet werden, um die endgültige Vorhersage zu treffen.Inner Monologue wird durch die Hinzufügung des berühmten "inneren Monologs" weiter verbessert, der als Feedback aus der Umgebung implementiert wird. Feedback aus der Umgebung. Unseres Wissens nach ist Inner Monologue die erste Arbeit, die ein solches geschlossenes System demonstriert, und ReAct baut darauf auf. Wir argumentieren jedoch, dass Inner Monologue nicht wirklich inneres Denken enthält - dies wird in Abschnitt 4 näher erläutert. Wir weisen auch darauf hin, dass sich die Verwendung von Sprache als semantisch reichhaltiger Input in interaktiven Entscheidungsprozessen in anderen Bereichen bewährt hat. Es wird immer deutlicher, dass mit LLMs die Sprache als grundlegender kognitiver Mechanismus eine Schlüsselrolle in der Interaktion und Entscheidungsfindung spielen wird. Darüber hinaus haben Fortschritte bei LLMs die Entwicklung vielseitiger und universell einsetzbarer Agenten wie Reed et al.

6 Schlussfolgerung

Wir stellen ReAct vor - einen einfachen, aber effektiven Ansatz zur Koordination von Schlussfolgerungen und Aktionen in großen Sprachmodellen. Anhand einer Reihe von Experimenten zur Beantwortung von Multi-Hop-Fragen, zur Faktenüberprüfung und zu interaktiven Entscheidungsaufgaben zeigen wir, dass ReAct zu einer überlegenen Leistung mit parsierbaren Entscheidungspfaden führt. Trotz der Einfachheit unseres Ansatzes erfordern komplexe Aufgaben in großen Handlungsräumen mehr Beispiele, um gut zu lernen, was die Grenzen der Eingabelänge beim kontextuellen Lernen leicht überschreiten kann. Wir haben den fein abgestimmten Ansatz an HotpotQA ausprobiert und die ersten Ergebnisse sind ermutigend, aber es ist zu erwarten, dass das Lernen mit qualitativ hochwertigeren menschlichen Annotationen die Leistung weiter verbessern wird. Die Skalierbarkeit von ReAct beim Multi-Task-Training in Kombination mit ergänzenden Paradigmen wie dem Verstärkungslernen könnte zu leistungsfähigeren Agenten führen, die das Potenzial von LLMs für weitere Anwendungen erschließen.

A Zusätzliche Schlussfolgerungen

A.1 GPT-3-Versuch

Tabelle 5: Vergleich der Ergebnisse für ReAct-Aufforderungen mit PaLM-540B und GPT-3 (text-davinci-002, greedy decoding). Bei HotpotQA haben wir eine Teilmenge von 500 Validierungsfragen zufällig ausgewählt. In ALFWorld haben wir alle 134 ungesehenen Instanzen der Verifikationsaufgabe mit dem besten Satz von Hints verwendet, der gemäß PaLM-540B ausgewählt wurde.

Wir haben zusätzliche GPT-3-Experimente (Brown et al., 2020) durchgeführt, um die Allgemeingültigkeit der ReAct-Cue-Leistung über verschiedene große Sprachmodelle hinweg zu bestätigen. Wie in Tabelle 5 gezeigt, übertrifft GPT-3 (text-davinci-002, greedy decoding) durchweg PaLM-540B bei HotpotQA und ALFWorld, möglicherweise weil es fein abgestimmt wurde, um menschlichen Anweisungen zu folgen. Dies deutet darauf hin, dass der ReAct-Hinweis bei verschiedenen Aufgaben für verschiedene große Sprachmodelle effektiv ist. Der Code für diese Experimente ist unter https://react-lm.github.io/ zu finden.

A.2 ReAct zum Erwerb aktueller Kenntnisse über HotpotQA

Abbildung 4: Ein weiteres Beispiel für eine Hotpot-Quizfrage, bei der die ursprünglichen Beschriftungen nicht mehr aktuell sind. Nur ReAct war in der Lage, die aktuellsten Antworten durch tatsächliche Web-Interaktionen in Verbindung mit Schlussfolgerungen zu erhalten.

A.3 Verhaltenskorrekturen für die menschliche Beteiligung am Kreislauf auf ALFWorld

Wir haben auch menschliche Interaktionen mit ReAct untersucht, die es dem Menschen ermöglichten, ReActs Gedankenspuren zu überprüfen und zu bearbeiten. Abbildung 5 zeigt, dass ReAct durch einfaches Entfernen eines halluzinatorischen Satzes in Akt 17 und Hinzufügen einiger Hinweise in Akt 23 dazu gebracht werden kann, sein Verhalten erheblich zu ändern, sich an diese menschlichen Gedankenänderungen anzupassen und die Aufgabe erfolgreich zu lösen. Aus menschlicher Sicht wird die Lösung einer solchen Aufgabe viel einfacher, da nicht mehr Dutzende von Aktionen eingegeben werden müssen, sondern nur noch einige wenige Gedanken, was eine neue Art der Zusammenarbeit zwischen Mensch und Maschine ermöglicht. Wir weisen darauf hin, dass eine solche Bearbeitung von Richtlinien für Act und frühere RL-Ansätze schwierig ist, da der Mensch die Modellparameter nicht ändern kann und die Änderung einiger weniger Aktionen das restliche Verhalten des Modells nicht beeinflussen kann. Dieses Paradigma geht auch über den menschlichen Dialog hinaus, um Ziele oder Unterziele zu aktualisieren, wie in Huang et al. (2022b) beschrieben - während die Bearbeitung von ReAct-Ideen all dies tun kann, kann sie auch die internen Überzeugungen des Modells, den Denkstil oder die flexible Gedankenraumunterstützung ändern, um die Aufgabe besser zu lösen. Wir glauben, dass dies eine spannende Richtung für die menschliche Ausrichtung ist, und sehen systematischere Forschung als zukünftige Arbeit an.

Abbildung 5: Beispiele für HCI-Verhaltenskorrekturen mit ReAct in AlfWorld. (a) Die ReAct-Trajektorie scheitert aufgrund von halluzinatorischem Denken (Verhalten 17). (b) Durch einfaches Editieren der beiden Gedanken (Verhalten 17, 23) durch einen Menschen erzeugt die ReAct-Trajektorie mit Erfolg die gewünschte Denk-Trajektorie und Handlung.

B Experimentelle Einzelheiten

B.1 Feinabstimmung der Details des Hot-Topics-Quiz

Für alle Feinabstimmungen wird eine Losgröße von 64 verwendet. Auf dem PaLM-8B führen wir für die ReAct- und Act-Methoden eine Feinabstimmung um 4.000 Schritte und für die Standard- und CoT-Methoden eine Feinabstimmung um 2.000 Schritte durch. Auf dem PaLM-62B haben wir die ReAct- und Act-Methoden um 4.000 Schritte und die Standard- und CoT-Methoden um 1.000 Schritte feinabgestimmt. Wir stellen fest, dass die ReAct- und Act-Methoden in der Regel von mehr Trainingsschritten (und mehr Trainingsdaten) profitieren, während die Standard- und CoT-Methoden schon bald nach der Feinabstimmung zu schwächeln beginnen.

B.2 ALFWORLD Instant Style Details

Für die Experimente zur unmittelbaren Stilablation wurden dieselben Expertentrajektorien, die in ReAct verwendet wurden, erneut annotiert, und diese Trajektorien enthielten intern ein dichtes externes Feedback-Denken, das ReAct-IM darauf beschränkte, nur (1) die Zerlegung des aktuellen Ziels und (2) das aktuelle Teilziel zu berücksichtigen, das abgeschlossen werden muss. Insbesondere fehlt ReAct-IM (1) das Denken, das bestimmt, wann ein Teilziel abgeschlossen ist, (2) das Denken, das bestimmt, was das nächste Teilziel sein sollte, (3) das Denken, das das LLM dazu veranlasst, sich auf sein internes, vortrainiertes Wissen zu beziehen, um die möglichen Standorte von Objekten in der Umgebung zu identifizieren.

C PROMPTE

C.1 Quiz zu aktuellen Themen

Heiße Q&A-Tipps

Original
Frage	Antwort
Wie groß ist der Höhenunterschied in dem Gebiet, in das sich der östliche Teil der Colorado-Orogenese erstreckt?	1.800 bis 7.000 Fuß
Die Musikerin und Satirikerin Allie Goertz hat einen Song über die "Simpsons" geschrieben. Zeichen Wen hat Matt Groening nach Nixon benannt?	Richard Nixon
Welcher Dokumentarfilm handelt von finnischen Rockgruppen, Adam Clayton Powell oder The Saimaa Gesture?	Die Saimaa-Geste
Welchen Beruf haben Nicholas Ray und Elia Kazan gemeinsam?	Regisseur, Drehbuchautor, Schauspieler
Welche Zeitschrift wurde zuerst gegründet, Arthur's Magazine oder First for Women?	Arthurs Magazin
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Ja

Original
Ausgaben	Lösung
Wie hoch ist der Höhenbereich der östlichen Ausdehnung der Colorado-Orogenese?	1.800 bis 7.000 ft.
Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die Simpsons-Figur Milhouse, Matt Groening, benannt nach welchem Nixon-Mann?	Richard Nixon.
Was ist der Dokumentarfilm über die finnische Rockband Adam Clayton Powell oder die Aktionen von Saimaa?	Operation Saïmaa
Welche Berufe haben Nicholas Ray und Elia Kazan gemeinsam?	Regisseur, Drehbuchautor, Schauspieler
Welche Zeitschrift wurde früher gegründet, Arthur's Magazine oder First for Women?	Arthurs Magazin
Sind Pavel Urizon und Leonid Levin für dieselbe Art von Arbeit bekannt?	sein

Gesetz
Frage	Aktion	Beobachtung
Wie groß ist der Höhenunterschied in dem Gebiet, in das sich der östliche Sektor der Colorado-Orogenese erstreckt?	Suche [Colorado-Orogenese]	Die Colorado-Orogenese war eine Episode der Gebirgsbildung (eine Orogenese) in Colorado und den umliegenden Gebieten.
	Nachschlagen [Ostsektor]	(Ergebnis 1 / i) Der östliche Sektor reicht bis in die High Plains und wird als Central Plains Orogenese bezeichnet.
	Suche [High Plains]	High Plains bezeichnet eine von zwei unterschiedlichen Landregionen.
	Suche [High Plains (Vereinigte Staaten)]	Die High Plains sind eine Unterregion der Great Plains und steigen von Osten nach Westen in einer Höhe von etwa 550 bis 2.130 m an. [3]
	Oberfläche	[1.800 bis 7.000 ft]
Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die "Simpsons"-Figur Milhouse, die Matt Groening nach wem benannt hat?	Suche [Milhouse]	Milhouse Mussolini Van Houten ist eine wiederkehrende Figur in der Fox-Zeichentrickserie Die Simpsons, gesprochen von Pamela Hayden und erstellt von Matt Die Simpsons, gesprochen von Pamela Hayden und kreiert von Matt Groening.
	Nachschlagen [benannt nach]	(Ergebnis 1 / l) Milhouse wurde nach dem US-amerikanischen Präsidenten Richard Nixon benannt, dessen zweiter Vorname Milhous war.
	Oberfläche	[Richard Nixon]
Welcher Dokumentarfilm handelt von finnischen Rockgruppen, Adam clayton Powell oder The Saimaa Gesture?	Suche [Adam clayton Powell]	Konnte [Adam clayton Powell] nicht finden. Ähnlich: ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State office Building', 'Isabel Washington Powell', 'Adam Clayton Powell (Film)', 'Adam Clayton Powell (Film)']. Powell', 'Adam Clayton Powell (Film)', 'Giancarlo Esposito'].
	Suche [Adam clayton Powell (Film)]	Adam clayton Powell ist ein amerikanischer Dokumentarfilm von Richard Kilberg aus dem Jahr 1989 über den Aufstieg und Fall des einflussreichen afroamerikanischen Politikers Adam clayton Powell Jr.[3][4] Er wurde später im Rahmen der PB-Reihe The American Experience ausgestrahlt. Der Film handelt vom Aufstieg und Fall des einflussreichen afroamerikanischen Politikers Adam clayton Powell Jr.[3][4] Er wurde später als Teil der PB-Reihe The American Experience ausgestrahlt.
	Oberfläche	[Die Saimaa-Geste]
Welchen Beruf haben Nicholas Ray und Elia Kazan gemeinsam?	Suche [Nicholas Ray]	Nicholas Ray (geboren als Raymond Nicholas Kienzle Jr., 7. August 1911 - 16. Juni 1979) war ein amerikanischer Filmregisseur, Drehbuchautor und Schauspieler, der vor allem durch den Film Film Rebel Without a Cause von 1955 bekannt.
	Suche [Elia Kazan]	Elia Kazan war ein amerikanischer Film- und Theaterregisseur, Produzent, Drehbuchautor und Schauspieler.
	Fertigstellung [Regisseur, Drehbuchautor, Schauspieler]
Welche Zeitschrift wurde zuerst gegründet: Arthur's Magazine oder First for Women?	Suche [Arthur's Magazine]	Arthur's Magazine (1844-1846) war eine amerikanische Literaturzeitschrift, die im 19. Jahrhundert in Philadelphia erschien.
	Suche [First for Women]	First for Women ist eine Frauenzeitschrift, die von der Bauer Media Group in den USA herausgegeben wird.[1] Die Zeitschrift wurde 1989 gegründet.
	Beenden [Arthurs Magazin]
Waren Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Suche [Pavel Urysohn]	Pavel Samuilovich Urysohn (3. Februar 1898 - 17. August 1924) war ein sowjetischer Mathematiker, der vor allem für seine Beiträge zur Dimensionstheorie bekannt ist.
	Suche [Leonid Levin]	Leonid Anatolievich Levin ist ein sowjetisch-amerikanischer Mathematiker und Computer Wissenschaftlerin.
	Beenden [ja]

Gesetz
Ausgaben	Bewegung	beachten Sie
Wie groß ist der Höhenbereich des Gebiets, in das sich der östliche Abschnitt der Colorado-Orogenese erstreckt?	Suche [Colorado Mountain Building Campaign]	Die Colorado-Orogenese ist eine Gebirgsbildungsbewegung (Orogenese), die in und um Colorado stattfand.
	Suche nach [Östlicher Sektor]	(Ergebnisse 1 / i) Der östliche Abschnitt erstreckt sich bis in die High Plains und wird als Central Plains Orogenese bezeichnet.
	Suche [High Plains]	Die High Plains sind eine von zwei unterschiedlichen Regionen:
	Suche [High Plains (USA)]	Die High Plains sind eine Unterregion der Great Plains. Von Osten nach Westen steigt die Höhe der High Plains von etwa 550 Metern (1.800 Fuß) auf 2.130 Meter (7.000 Fuß) an. [3]
	erfüllen	[1.800 bis 7.000 Fuß]
Die Musikerin und Satirikerin Allie Goertz hat einen Song über die Simpsons-Figur Milhouse geschrieben. Nach wem hat Matt Groening die Figur benannt?	Suche [Milhouse]	Milhouse Mussolini Van Houten ist eine Figur in der Fox-Zeichentrickserie Die Simpsons, die von Pamela Hayden gesprochen und von Matt Groening geschaffen wird.
	Suche nach [benannte Quelle]	(Ergebnisse 1 / l) Milhouse wurde nach Richard Nixon, dem Präsidenten der Vereinigten Staaten, benannt, dessen zweiter Vorname Milhous war.
	erfüllen	[Richard Nixon]
Welcher Dokumentarfilm handelt von einer finnischen Rockband, Adam Clayton Powell oder The Saimaa Gesture?	Suche [Adam Clayton Powell]	Es wurde kein [Adam Clayton Powell] gefunden. Ähnlich: ['Adam Clayton Powel III', 'Seventh Avenue (Manhattan)', 'Adam clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell', 'Adam Clayton Powell (Film)', 'Giancarlo Esposito'].
	Suche [Adam Clayton Powell (Film)]	Adam Clayton Powell ist ein amerikanischer Dokumentarfilm aus dem Jahr 1989 unter der Regie von Richard Kilberg. Der Film verfolgt den Aufstieg und Fall des einflussreichen afroamerikanischen Politikers Adam Clayton Powell Jr. [3][4] Er wurde später als Teil der PBS-Serie The American Experience ausgestrahlt.
	erfüllen	[Die Saimaa-Geste]
Welche Berufe haben Nicholas Ray und Elia Kazan gemeinsam?	Suche [Nicholas Ray]	Nicholas Ray (eigentlich Raymond Nicholas Kienzle Jr.,) 7. August 1911 - 16. Juni 1979) war ein amerikanischer Filmregisseur, Drehbuchautor und Schauspieler, der vor allem durch den Film Rebel Without a Cause von 1955 bekannt wurde.
	Suche [Elia Kazan]	Elia Kazan ist ein amerikanischer Film- und Theaterregisseur, Produzent, Drehbuchautor und Schauspielerin.
	Abgeschlossen [Regisseur, Drehbuchautor, Schauspieler]
Welche Zeitschrift wurde zuerst gegründet, Arthur's Magazine oder First for Women?	Suche in [Arthurs Magazin].	Arthur's Magazine (1844-1846) war eine amerikanische Literaturzeitschrift, die im 19. Jahrhundert in Philadelphia, USA, erschien.
	Suche [First for Women]	First for Women ist eine Frauenzeitschrift, die in den Vereinigten Staaten von der Bauer Media Group herausgegeben wird.[1] Sie wurde 1989 gegründet. [1] Die Zeitschrift wurde 1989 eingeführt.
	Beenden [Arthurs Magazin]
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Suche [Pavel Urysohn]	Pawel Samuilowitsch Urysohn (3. Februar 1898 - 17. August 1924) war ein sowjetischer Mathematiker, der vor allem für seine Beiträge zur dimensionalen Zahlentheorie bekannt ist.
	Suche [Leonid Levin]	Leonid Anatolievich Levin war ein sowjetisch-amerikanischer Mathematiker und Computerwissenschaftler.
	Abgeschlossen [ja]

CoT
Frage	Gedanke	Antwort
Wie groß ist der Höhenunterschied in dem Gebiet, in das sich der östliche Sektor der Colorado-Orogenese erstreckt?	Denken wir Schritt für Schritt: Der östliche Teil der Colorado-Orogenese erstreckt sich bis in die High Plains. Die High Plains erheben sich in einer Höhe von etwa 1.800 bis 7.000 Fuß, die Antwort lautet also 1.800 bis 7.000 Fuß. Die High Plains erheben sich in einer Höhe von ca. 1.800 bis 7.000 Fuß, also lautet die Antwort 1.800 bis 7.000 Fuß.	1.800 bis 7.000 Fuß
Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die "Simpsons"-Figur Milhouse, die Matt Groening nach wem benannt hat?	Milhouse wurde nach dem US-Präsidenten Richard Nixon benannt, die Antwort lautet also Richard Nixon.	Richard Nixon
Welcher Dokumentarfilm handelt von finnischen Rockgruppen, Adam Clayton Powell oder The Saimaa Gesture?	Denken wir Schritt für Schritt: Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afroamerikanischen Politiker, nicht über finnische Rockgruppen. Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afro-amerikanischen Politiker, nicht über finnische Rockgruppen.	Die Saimaa-Geste
Welchen Beruf haben Nicholas Ray und Elia Kazan gemeinsam?	Die Berufe von Nicholas Ray sind Regisseur, Drehbuchautor und Schauspieler. Die Berufe von Elia Kazan sind Regisseur, Produzent, Drehbuchautor und Schauspieler. Berufe von Elia Kazan sind Regisseur, Produzent und Schauspieler.	Regisseur, Drehbuchautor, Schauspieler
Welche Zeitschrift wurde zuerst gegründet: Arthur's Magazine oder First for Women?	Denken wir Schritt für Schritt. Arthur's Magazine wurde 1844 gegründet. First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also Arthur's Magazine wurde zuerst gegründet.	Arthurs Magazin
Waren Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Denken wir Schritt für Schritt: Pavel Urysohn ist Mathematiker, Leonid Levin ist Mathematiker und Computerwissenschaftler. Pavel Urysohn und Leonid Levin haben also die gleiche Art von Arbeit.	Ja

CoT
Ausgaben	Denkprozess	Lösung
Wie groß ist der Höhenbereich des Gebiets, in das sich der östliche Abschnitt der Colorado-Orogenese erstreckt?	Lassen Sie uns dies Schritt für Schritt betrachten. Der östliche Abschnitt der Colorado-Orogenese reicht bis in die High Plains. Die Höhe der High Plains steigt von etwa 1.800 Fuß auf 7.000 Fuß an, also lautet die Antwort 1.800 bis 7.000 Fuß.	1.800 bis 7.000 ft.
Die Musikerin und Satirikerin Allie Goertz hat einen Song über die Simpsons-Figur Milhouse geschrieben. Nach wem hat Matt Groening die Figur benannt?	Milhouse ist nach Richard Nixon, dem Präsidenten der Vereinigten Staaten, benannt, die Antwort lautet also Richard Nixon.	Richard Nixon.
Handelt der Dokumentarfilm von der finnischen Rockband Adam Clayton Powell oder von The Semaja Gesture?	Betrachten wir es Schritt für Schritt. Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afro-amerikanischen Politiker, nicht über eine finnische Rockband. Ein Dokumentarfilm über eine finnische Rockband wäre also The Semaja Gesture.	Die Semaya-Geste
Welche Berufe haben Nicholas Ray und Ilya Kazan gemeinsam?	Betrachten wir es Schritt für Schritt. Nicholas Rays Beruf ist Regisseur, Drehbuchautor und Schauspieler. Der Beruf von Ilya Kazan ist Regisseur, Produzent, Drehbuchautor und Schauspieler. Nicholas Ray und Ilya Kazan teilen sich also den Beruf des Regisseurs, Drehbuchautors und Schauspielers.	Regisseur, Drehbuchautor, Schauspieler
Wurde Arthur's Magazine oder First for Women zuerst gegründet?	Betrachten wir dies Schritt für Schritt. Arthur's Magazine wurde 1844 gegründet. First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also wurde Arthur's Magazine zuerst gegründet.	Arthurs Magazin
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Betrachten wir dies Schritt für Schritt: Pavel Urysohn ist Mathematiker, Leonid Levin ist Mathematiker und Computerwissenschaftler. Pavel Urysohn und Leonid Levin haben also die gleiche Art von Beruf.	sein

ReAct
Frage	Gedanke	Aktion	Beobachtung
Wie groß ist der Höhenunterschied in dem Gebiet, in das sich der östliche Sektor der Colorado-Orogenese erstreckt?	Ich muss nach Colorado-Orogenese suchen, das Gebiet finden, in das sich der östliche Sektor der Colorado-Orogenese erstreckt, und dann den Höhenbereich des Gebiets ermitteln.	Suche [Colorado-Orogenese]	Die Colorado-Orogenese war eine Episode der Gebirgsbildung (Anorogenese) in Colorado und den umliegenden Gebieten.
	Der Ostsektor wird nicht erwähnt, ich muss also den Ostsektor nachschlagen.	Nachschlagen [Ostsektor]	(Ergebnis 1 / 1) Der östliche Sektor reicht bis in die High Plains und wird als Central Plains Orogenese bezeichnet.
	Der östliche Sektor der Colorado-Orogenese erstreckt sich bis in die High Plains, so dass ich die High Plains durchsuchen und ihren Höhenbereich finden muss.	Suche [High Plains]	High Plains bezieht sich auf eine von zwei unterschiedlichen Landregionen
	Ich muss stattdessen nach High Plains (Vereinigte Staaten) suchen.	Suche [High Plains (Vereinigte Staaten)]	Die High Plains sind eine Unterregion der Great Plains und steigen von Osten nach Westen in einer Höhe von etwa 550 bis 2.130 m an. [3]
	Die High Plains steigen in der Höhe von etwa 1.800 bis 7.000 Fuß an, so dass die Antwort liegt zwischen 1.800 und 7.000 Fuß.	Zieleinlauf [1.800 bis 7.000 ft]

Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die "Simpsons"-Figur Milhouse, die Matt Groening nach wem benannt hat?	Die Frage lautet einfach: "Nach wem ist die Simpsons-Figur Milhouse benannt?" Ich brauche nur nach Milhouse zu suchen, um herauszufinden, nach wem sie benannt ist.	Suche [Milhouse]	Milhouse Mussolini Van Houten ist eine wiederkehrende Figur in der Fox-Zeichentrickserie Die Simpsons, gesprochen von Pamela Hayden und erstellt von Matt Die Simpsons, gesprochen von Pamela Hayden und geschaffen von Matt Groening.
	Aus dem Absatz geht nicht hervor, nach wem Milhouse benannt ist, vielleicht kann ich "benannt nach" nachschlagen.	Nachschlagen [benannt nach]	(Ergebnis 1 / 1) Milhouse wurde nach dem US-amerikanischen Präsidenten Richard Nixon benannt, dessen zweiter Vorname Milhous war.
	Milhouse wurde nach dem US-Präsidenten Richard Nixon benannt, die Antwort lautet also Richard Nixon.	Beenden Sie [Richard Nixon]
Welcher Dokumentarfilm handelt von finnischen Rockgruppen, Adam Clayton Powell oder The Saimaa Gesture?	Ich muss Adam Clayton Powell und The Saimaa Gesture suchen und herausfinden, welcher Dokumentarfilm über finnische Rockgruppen handelt.	Suche [Adam Clayton Powell]	Konnte [Adam Clayton Powell] nicht finden. Ähnlich: ['Adam Clayton Powell III', 'Seventh Avenue (Manhattan)', 'Adam Clayton Powell Jr. Clayton Powell Jr. State Office Building', 'Isabel Washington Powell', 'Adam Powell ', 'Adam Clayton Powell (Film)', 'Giancarlo Esposito'].
	Um den Dokumentarfilm zu finden, kann ich nach Adam Clayton Powell (Film) suchen.	Suche [Adam Clayton Powell (Film)]	Adam Clayton Powell ist ein amerikanischer Dokumentarfilm von Richard Kilberg aus dem Jahr 1989 über den Aufstieg und Fall des einflussreichen afroamerikanischen Politikers Adam Clayton Powell Jr.[3][4] Er wurde später im Rahmen der PBS-Serie The American Experience ausgestrahlt. Der Film handelt vom Aufstieg und Fall des einflussreichen afroamerikanischen Politikers Adam Clayton Powell Jr.[3][4] Er wurde später im Rahmen der PBS-Serie The American Experience ausgestrahlt.
	Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afroamerikanischen Politiker, nicht über finnische Rockgruppen. Der Dokumentarfilm über finnische Rockgruppen muss also stattdessen The Saimaa Gesture heißen. Der Dokumentarfilm über finnische Rockgruppen muss also stattdessen The Saimaa Gesture (Die Saimaa-Geste) heißen.	Beenden [Die Saimaa-Geste]
Welchen Beruf haben Nicholas Ray und Elia Kazan gemeinsam?	Ich muss Nicholas Ray und Elia Kazan suchen, ihre Berufe finden und dann den Beruf, den sie gemeinsam haben.	Suche [Nicholas Ray]	Nicholas Ray (geboren als Raymond Nicholas Kienzle Jr., 7. August 1911 - 16. Juni 1979) war ein amerikanischer Filmregisseur, Drehbuchautor und Schauspieler, der vor allem durch den Film Film Rebel Without a Cause von 1955 bekannt.
	Die Berufe von Nicholas Ray sind Regisseur, Drehbuchautor und Schauspieler. Als Nächstes muss ich Elia Kazan suchen und seine Berufe finden.	Suche [Elia Kazan]	Elia Kazan war ein amerikanischer Film- und Theaterregisseur, Produzent, Drehbuchautor und Schauspieler.
	Die Berufe von Elia Kazan sind Regisseur, Produzent, Drehbuchautor und Schauspieler. Nicholas Ray und Elia Kazan haben also den Beruf des Regisseurs, Drehbuchautors und Schauspielers gemeinsam.	Fertigstellung [Regisseur, Drehbuchautor, Schauspieler]
Welche Zeitschrift wurde zuerst gegründet: Arthur's Magazine oder First for Women?	Ich muss Arthur's Magazine und First for Women durchsuchen, um herauszufinden, welche Zeitschrift zuerst gegründet wurde.	Suche [Arthur's Magazine]	Arthur's Magazine (1844-1846) war eine amerikanische Literaturzeitschrift, die im 19. Jahrhundert in Philadelphia erschien.
	Arthur's Magazine wurde 1844 gegründet. Ich muss als nächstes First for Women durchsuchen.	Suche [First for Women]	First for Women ist eine Frauenzeitschrift, die von der Bauer Media Group in den USA herausgegeben wird.[1] Die Zeitschrift wurde 1989 gegründet.
	First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also wurde Arthur's Magazine zuerst gegründet .	Beenden [Arthurs Magazin]
Waren Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Ich muss nach Pavel Urysohn und Leonid Levin suchen, die Art ihrer Arbeiten herausfinden und dann feststellen, ob sie identisch sind.	Suche [Pavel Urysohn]	Pavel Samuilovich Urysohn (3. Februar 1898 - 17. August 1924) war ein sowjetischer Mathematiker, der vor allem für seine Beiträge zur Dimensionstheorie bekannt ist.
	Pavel Urysohn ist Mathematiker, ich muss als Nächstes nach Leonid Levin suchen und seine Art von Arbeit finden.	Suche [Leonid Levin]	Leonid Anatolievich Levin ist ein sowjetisch-amerikanischer Mathematiker und Computerwissenschaftler.
	Leonid Levin ist Mathematiker und Informatiker. Pavel Urysohn und Leonid Levin haben also die gleiche Art von Arbeit.	Beenden [ja]

ReAct
Ausgaben	Reflexionen	handeln
Wie hoch ist die Region, in die sich der östliche Teil des orogenen Gürtels von Colorado erstreckt?	Ich muss den orogenen Gürtel von Colorado durchsuchen, das Gebiet finden, in das der östliche Abschnitt hineinreicht, und dann den Höhenbereich dieses Gebiets ermitteln.	Suche [Colorado orogenic belt]
	Der Ostteil wird nicht erwähnt. Ich muss also den Ostteil nachschlagen.	Suche nach [Östlicher Sektor]
	Der östliche Teil des orogenen Gürtels von Colorado reicht bis in die High Plains. Ich muss also die High Plains durchsuchen und ihren Höhenbereich finden.	Suche [High Plains]
	Die Höhe der High Plains steigt von etwa 1.800 Fuß auf 7.000 Fuß an, also lautet die Antwort 1.800 Fuß bis 7.000 Fuß.	Fertigstellung [1800 ft bis 7000 ft]

Die Musikerin und Satirikerin Allie Goertz schrieb einen Song über die Figur Milhouse in der Serie "Die Simpsons". Nach wem hat Matt Groening Milhouse benannt?	Die Frage lautet vereinfacht, nach wem die Figur Milhouse in "Die Simpsons" benannt ist. Ich muss nur nach Milhouse suchen und herausfinden, nach wem er benannt ist.	Suche [Milhouse]
	Der Absatz sagt nicht, nach wem Milhouse benannt ist, also kann ich vielleicht "benannt nach..." nachschlagen. Benannt nach".	Finde [benannt nach... Name]
	Milhouse ist nach dem US-Präsidenten Richard Nixon benannt, die Antwort lautet also Richard Nixon.	Beendet [Richard Nixon]
Handelt der Dokumentarfilm von der finnischen Rockband Adam Clayton Powell oder von The Saimaa Gesture?	Ich muss nach Adam Clayton Powell und The Saimaa Gesture suchen und herausfinden, welcher Dokumentarfilm über eine finnische Rockband handelt.	Suche [Adam Clayton Powell]
	Um den Dokumentarfilm zu finden, würde ich nach Adam Clayton Powell (Film) suchen.	Suche [Adam Clayton Powell (Film)]
	Adam Clayton Powell (Film) ist ein Dokumentarfilm über einen afro-amerikanischen Politiker, nicht über eine finnische Rockband. Ein Dokumentarfilm über eine finnische Rockband müsste also The Saimaa Gesture sein.	Beenden [Die Saimaa-Geste]
Welche Berufe haben Nicholas Ray und Elia Kazan gemeinsam?	Ich muss nach Nicholas Ray und Elia Kazan suchen, ihre Berufe herausfinden und dann herausfinden, welche Berufe sie gemeinsam haben.	Suche [Nicholas Ray]
	Nicholas Rays Beruf war Regisseur, Drehbuchautor und Schauspieler. Als nächstes muss ich nach Elia Kazan suchen und seinen Beruf herausfinden.	Suche [Elia Kazan]
	Elia Kazan ist von Beruf Regisseur, Produzent, Drehbuchautor und Schauspieler. Nicholas Ray und Elia Kazan haben also denselben Beruf als Regisseur, Drehbuchautor und Schauspieler.	Fertigstellung [Regisseur, Drehbuchautor, Schauspieler]
Welche Zeitschrift wurde zuerst gegründet, Arthur's Magazine oder First for Women?	Ich muss nach "Arthur's Magazine" und "First for Women" suchen und herausfinden, welche Zeitschrift zuerst gegründet wurde.	Suche in [Arthurs Magazin].
	Das Arthur's Magazine wurde 1844 gegründet. Als nächstes muss ich First for Women durchsuchen.	Suche [First for Women]
	First for Women wurde 1989 gegründet. 1844 (Arthur's Magazine) < 1989 (First for Women), also wurde Arthur's Magazine zuerst gegründet.	Beenden [Arthurs Magazin]
Sind Pavel Urysohn und Leonid Levin für dieselbe Art von Arbeit bekannt?	Ich muss nach Pavel Urysohn und Leonid Levin suchen, um herauszufinden, welche Art von Arbeit sie verrichten, und dann herausfinden, ob sie dieselben sind.	Suche [Pavel Urysohn]
	Pavel Urysohn ist ein Mathematiker. Als Nächstes muss ich nach Leonid Levin suchen und herausfinden, welche Art von Arbeit er macht.	Suche [Leonid Levin]
	Leonid Levin ist ein Mathematiker und Informatiker. Pavel Urysohn und Leonid Levin haben also dieselbe Art von Beruf.	Abgeschlossen [ja]

C.2 Faktenextraktion und Validierungsdatensatz/FEVER

FEVER Aufforderungen

Original
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Anspruch	Antwort
Nikolaj Coster-Waldau arbeitete mit der Fox Broadcasting Company zusammen.	UNTERSTÜTZT
Stranger Things spielt in Bloomington, Indiana.	REFUTES
Beautiful erreichte 2003 Platz zwei der Billboard Hot 100.	NICHT GENÜGEND INFORMATIONEN

Original
FRAGE: Stellen Sie fest, ob es Beobachtungen gibt, die die Aussage unterstützen oder widerlegen, oder ob die Informationen unzureichend sind.
Vertretungen	Lösung
Nikolaj Coster-Waldau hat mit Fox Broadcasting Co.	etw. unterstützen
Stranger Things spielt in Bloomington, Indiana.	Retorte
Der Song "Beautiful" erreichte 2003 Platz zwei der Billboard Hot 100.	Unzureichende Informationen

Gesetz
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Anspruch	Aktion	Beobachtung
Nikolaj Coster-Waldau arbeitete mit der Fox Broadcasting Company zusammen.	Suche [Nikolaj Coster-Waldau]	Nikolaj William Coster-Waldau (geboren am 27. Juli 1970) ist ein dänischer Schauspieler und Produzent. 1993 machte er seinen Abschluss an der Danish National School of Performing Arts in Kopenhagen[1] und hatte seinen Durchbruch in Dänemark mit dem Film Nightwatch (1994). Er schloss 1993 in Kopenhagen ab,[1] und hatte seinen Durchbruch in Dänemark mit dem Film Nightwatch (1994). Er spielte Jaime Lannister in der HBO-Fantasy-Dramaserie Game of Thrones, für die er zwei Nominierungen für den Primetime Emmy Award als Outstanding Nebendarsteller in einer Dramaserie. Coster-Waldau hat in zahlreichen Filmen in seiner Heimat Dänemark und Skandinavien mitgewirkt, darunter Headhunters (2011) und Tausendmal gute Nacht (2013). . In den USA gab er sein Filmdebüt in dem Kriegsfilm Black Hawk Down (2001), in dem er den mit der Ehrenmedaille ausgezeichneten Gary Gordon spielte.[2] Anschließend spielte er einen Detektiv in der kurzlebigen Fox-Fernsehserie New York City. In den USA gab er sein Filmdebüt in dem Kriegsfilm Black Hawk Down (2001), in dem er den mit der Ehrenmedaille ausgezeichneten Gary Gordon spielte.[2] Danach spielte er einen Detektiv in der kurzlebigen Fox-Fernsehserie New Amsterdam (2008) und trat 2009 in dem Fox-Fernsehfilm Virtuality auf, der ursprünglich als Pilotfilm gedacht war.
	Finish[SUPPORTS]
Stranger Things spielt in Bloomington, Indiana.	Suche [Stranger Things]	Stranger Things ist eine US-amerikanische Science-Fiction-Horror-Drama-Fernsehserie der Gebrüder Duffer, die in den 1980er Jahren spielt, hauptsächlich in der Die Serie spielt in den 1980er Jahren, hauptsächlich in der fiktiven Stadt Hawkins, Indiana, und dreht sich um eine Reihe von Mysterien und übernatürlichen Ereignissen, die sich in der Stadt ereignen, und deren Auswirkungen auf ein Ensemble aus Kindern und Erwachsenen. Ensemble von Kindern und Erwachsenen.
	Beenden [REFUTES]
Beautiful erreichte 2003 Platz zwei der Billboard Hot 100.	Suche [Schön]	Konnte [Beautiful] nicht finden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
	Suche [Beautiful (Christina Aguilera Song)	"Beautiful" ist ein Lied, das die amerikanische Sängerin Christina Aguilera für ihr viertes Studioalbum Stripped (2002) aufgenommen hat.
	Nachschlagen [Billboard Hot 100]	(Ergebnis 1 / 3) Der Song erreichte in den Vereinigten Staaten Platz zwei der Billboard Hot 100, wo er für 500.000 verkaufte Einheiten mit Gold ausgezeichnet wurde.
	Beenden [NOT ENOUGH INFO]

Gesetz
Problem: Feststellen, ob eine Beobachtung eine Aussage stützt oder widerlegt oder ob die Informationen unzureichend sind.
Vertretungen	handeln	beachten Sie
Nikolaj Coster-Waldau hat für die Fox Broadcasting Company gearbeitet.	Suche [Nikolaj Coster-Waldau]	Nikolaj William Coster-Waldau (geboren am 27. Juli 1970) ist ein dänischer Schauspieler und Produzent. Er machte 1993 seinen Abschluss an der Danish National Academy of Performing Arts in Kopenhagen[1] und erlangte seinen Durchbruch in Dänemark durch den Film Night Watch (1994). Für seine Darstellung des Jaime Lannister in der HBO-Fantasyserie Game of Thrones erhielt er zwei Primetime-Emmy-Award-Nominierungen als Bester Nebendarsteller in einer Dramaserie.Coster-Waldau hat in seinem Heimatland Dänemark und in Skandinavien in zahlreichen Filmen mitgewirkt, darunter Headhunters (2011) und A Thousand Times Goodnight (2013). In den Vereinigten Staaten war seine erste Filmrolle die des mit der Ehrenmedaille ausgezeichneten Gary Gordon in dem Kriegsfilm Black Hawk Down (2001).[2] Außerdem spielte er einen Detektiv in der kurzlebigen Fox-Fernsehserie New Amsterdam (2008) und trat 2009 in dem Fox-Fernsehfilm Virtua Fighter auf, der ursprünglich als Pilotfolge gedacht war.
	Erledigt [unterstützt]
Stranger Things spielt in Bloomington, Indiana.	Suche [Stranger Things]	Stranger Things ist eine amerikanische Science-Fiction-Horror-Dramaserie, die von den Duff-Brüdern entwickelt wurde. Die Episoden spielen in den 1980er Jahren in der fiktiven Stadt Hawkins, Indiana, und drehen sich um eine Reihe von mysteriösen und übernatürlichen Ereignissen, die sich in der Stadt ereignen, und deren Auswirkungen auf eine Gruppe von Kindern und erwachsenen Personen.
	Erledigt [Gegendarstellung]
Beautiful" erreichte 2003 Platz zwei der Billboard Hot 100.	Suche [Schön]	Keine [Beautiful] gefunden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
	Suche [Beautiful (Christina Aguilera song)]	"Beautiful" ist ein Song, den die amerikanische Sängerin Christina Aguilera für ihr viertes Studioalbum Stripped aufgenommen hat, das 2002 erschien.
	Finden Sie [Billboard Hot 100]	(Ergebnis 1 / 3) Der Song erreichte in den USA Platz zwei der Billboard Hot 100 und wurde mit 500.000 verkauften Einheiten mit Gold ausgezeichnet.
	Abgeschlossen [unzureichende Informationen]

CoT
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Anspruch	Gedanke	Antwort
Nikolaj Coster-Waldau arbeitete mit der Fox Broadcasting Company zusammen.	Nikolaj William Coster-Waldau spielte 2009 in dem Fox-Fernsehfilm Virtuality mit, hat also mit der Fox Broadcasting Company zusammengearbeitet.	UNTERSTÜTZT
Stranger Things spielt in Bloomington, Indiana.	Stranger Things spielt in der fiktiven Stadt Hawkins, Indiana, und nicht in Bloomington, Indiana.	REFUTES
Beautiful erreichte 2003 Platz zwei der Billboard Hot 100.	Der Song erreichte in den Vereinigten Staaten Platz zwei der Billboard Hot 100, aber ich bin mir nicht sicher, ob es 2003 war.	NICHT GENÜGEND INFORMATIONEN

COT
Problem: Feststellen, ob es Beobachtungen gibt, die eine Behauptung stützen oder widerlegen, oder ob die Informationen unzureichend sind.
Standpunkt	Reflexionen	Lösung
Nikolaj Coster-Waldau hat mit Fox Broadcasting Co.	Nikolai William Coster-Waldau spielte 2009 die Hauptrolle in dem Fox-Fernsehfilm Virtual Life, er hat also schon mit der Fox Broadcasting Company zusammengearbeitet.	etw. unterstützen
Stranger Things findet in Bloomington, Indiana, statt.	Stranger Things spielt in der fiktiven Stadt Hawkins, Indiana, und nicht in Bloomington, Indiana.	Retorte
Der Song "Beautiful" erreichte 2003 Platz zwei der Billboard Hot 100.	Der Song erreichte Platz zwei der Billboard Hot 100, aber es ist ungewiss, ob dies im Jahr 2003 der Fall war.	Unzureichende Informationen

ReAct
Frage: Bestimmen Sie, ob es eine Beobachtung gibt, die eine Behauptung UNTERSTÜTZT oder widerlegt, oder ob es NICHT GENÜGEND INFORMATIONEN gibt.
Anspruch	Gedanke	Aktion	Beobachtung
Nikolaj Coster-Waldau arbeitete mit der Fox Broadcasting Company zusammen.	Ich muss Nikolaj Coster-Waldau suchen und herausfinden, ob er mit der Fox Broadcasting Company zusammengearbeitet hat.	Suche [Nikolaj Coster-Waldau]	Nikolaj William Coster-Waldau (geboren am 27. Juli 1970) ist ein dänischer Schauspieler und Produzent. 1993 machte er seinen Abschluss an der Danish National School of Performing Arts in Kopenhagen[1] und hatte seinen Durchbruch in Dänemark mit dem Film Nightwatch (1994). Er schloss 1993 in Kopenhagen ab,[1] und hatte seinen Durchbruch in Dänemark mit dem Film Nightwatch (1994). Er spielte Jaime Lannister in der HBO-Fantasy-Dramaserie Game of Thrones, für die er zwei Nominierungen für den Primetime Emmy Award als Outstanding Nebendarsteller in einer Dramaserie. Coster-Waldau hat in zahlreichen Filmen in seiner Heimat Dänemark und Skandinavien mitgewirkt, darunter Headhunters (2011) und Tausendmal gute Nacht (2013). . In den USA gab er sein Filmdebüt in dem Kriegsfilm Black Hawk Down (2001), in dem er den mit der Ehrenmedaille ausgezeichneten Gary Gordon spielte.[2] Anschließend spielte er einen Detektiv in der kurzlebigen Fox-Fernsehserie New York City. In den USA gab er sein Filmdebüt in dem Kriegsfilm Black Hawk Down (2001), in dem er den mit der Ehrenmedaille ausgezeichneten Gary Gordon spielte.[2] Danach spielte er einen Detektiv in der kurzlebigen Fox-Fernsehserie New Amsterdam (2008) und trat 2009 in dem Fox-Fernsehfilm Virtuality auf, der ursprünglich als Pilotfilm gedacht war.
	Da er "2009 in dem Fox-Fernsehfilm Virtuality" auftrat, sollte er mit der Fox Broadcasting Company zusammenarbeiten.	Finish[SUPPORTS]
Stranger Things spielt in Bloomington, Indiana.	Ich sollte nach "Stranger Things" suchen und sehen, ob es in Bloomington, Indiana, spielt.	Suche [Stranger Things]	Stranger Things ist eine US-amerikanische Science-Fiction-Horror-Drama-Fernsehserie der Gebrüder Duffer, die in den 1980er Jahren spielt, hauptsächlich in der Die Serie spielt in den 1980er Jahren, hauptsächlich in der fiktiven Stadt Hawkins, Indiana, und dreht sich um eine Reihe von Mysterien und übernatürlichen Ereignissen, die sich in der Stadt ereignen, und deren Auswirkungen auf ein Ensemble aus Kindern und Erwachsenen. Ensemble von Kindern und Erwachsenen.
	Die Beobachtung sagt, dass es in einer "fiktiven Stadt Hawkins, Indiana" spielt, also nicht in Bloomington.	Beenden [REFUTES]
Beautiful erreichte 2003 Platz zwei der Billboard Hot 100.	Ich muss den Song Beautiful suchen und herausfinden, ob er 2003 die Nummer zwei der Billboard Hot 100 war.	Suche [Schön]	Konnte [Beautiful] nicht finden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
	Nach den Vorschlägen sollte ich nach "Beautiful (Christina Aguilera song)" suchen, um das Lied zu finden.	Suche [Beautiful (Christina Aguilera song)]	"Beautiful" ist ein Lied, das die amerikanische Sängerin Christina Aguilera für ihr viertes Studioalbum Stripped (2002) aufgenommen hat.
	Da Billboard nicht erwähnt wird, muss ich die "Billboard Hot 100" nachschlagen, um herauszufinden, ob der Song im Jahr 2003 auf Platz zwei stand.	Nachschlagen [Billboard Hot 100]	(Ergebnis 1 / 3) Der Song erreichte in den Vereinigten Staaten Platz zwei der Billboard Hot 100, wo er für 500.000 verkaufte Einheiten mit Gold ausgezeichnet wurde.
	Hier steht nur, dass der Song auf Platz zwei der Billboard Hot 100 stand, aber nicht, ob das 2003 war. Ich bin mir nicht sicher, ob diese Behauptung stimmt oder nicht.	Beenden [NOT ENOUGH INFO]

ReAct
FRAGE: Bestimmen Sie, ob es Beobachtungen gibt, die eine Aussage stützen oder widerlegen, oder ob die Informationen unzureichend sind.
Vertretungen	Reflexionen	handeln	beachten Sie
Nikolaj Coster-Waldau hat mit Fox Broadcasting Co.	Ich muss nach Nikolaj Coster-Waldau suchen, um herauszufinden, ob er mit Fox Broadcasting zusammengearbeitet hat.	Suche [Nikolaj Coster-Waldau]	Nikolaj Wilhelm Koster-Waldau (geboren am 27. Juli 1970) ist ein dänischer Schauspieler und Produzent. Er schloss 1993 sein Studium an der Danish National Academy of Performing Arts in Kopenhagen ab[1] und erzielte seinen Durchbruch in Dänemark mit dem Film Night Shift von 1994. Für seine Rolle als Jaime Lannister in der HBO-Fantasyserie Game of Thrones erhielt er zwei Nominierungen für den Primetime Emmy Award als bester Nebendarsteller in einer Dramaserie. In seiner Heimat Dänemark und Skandinavien hat Koster-Waldau in zahlreichen Filmen mitgewirkt, darunter Headhunters (2011) und A Thousand Times Goodnight (2013). In den Vereinigten Staaten war seine erste Filmrolle die des mit der Ehrenmedaille ausgezeichneten Gary Gordon in dem Kriegsfilm Black Hawk Down (2001). [2] Er spielte einen Detektiv in der Fox-Fernseh-Sketch-Show New Amsterdam (2008) und trat 2009 in dem Fox-Fernsehfilm Virtual Worlds auf, der ursprünglich als Pilotfolge produziert wurde.
	Da er 2009 in dem Fox-Fernsehfilm Virtua Fighter" die Hauptrolle spielte, hätte er mit Fox Broadcasting zusammengearbeitet.	Erledigt [unterstützt]
Stranger Things findet in Bloomington, Indiana, statt.	Ich sollte nach Stranger Things suchen, um zu sehen, ob es in Bloomington, Indiana, spielt.	Suche nach [Stranger Things].	Stranger Things ist eine amerikanische Science-Fiction-Horror-Dramaserie, die von den Duff-Brüdern entwickelt wurde. Die Serie spielt in den 1980er Jahren, hauptsächlich in der fiktiven Stadt Hawkins, Indiana, und dreht sich um eine Reihe von mysteriösen und übernatürlichen Ereignissen, die sich in der Stadt ereignen, und deren Auswirkungen auf eine Gruppe von Kindern und erwachsenen Personen.
	Die Beobachtungen deuten darauf hin, dass der Film in der "fiktiven Stadt Hawkins, Indiana" spielt, also nicht in Bloomington angesiedelt ist.	Erledigt [Gegendarstellung]
Beautiful erreichte 2003 Platz zwei der Billboard Hot 100.	Ich muss nach dem Song Beautiful suchen und herausfinden, ob er 2003 auf Platz 2 der Billboard Hot 100 stand.	Suche [Schön]	['Beautiful'] wurde nicht gefunden. Ähnlich: ['Beautiful', 'Beautiful, Beautiful', 'A Beautiful Mind (Film) ', 'Beautiful (Christina Aguilera Song)', 'Life Is Beautiful'].
	Nach den Vorschlägen hätte ich nach "Christina Aguileras Song "Beautiful"" suchen müssen, um diesen Song zu finden.	Suchen Sie nach [Christina Aguileras Lied "Beautiful"].	"Beautiful" ist ein Song, den die amerikanische Sängerin Christina Aguilera für ihr viertes Studioalbum Stripped aufgenommen hat, das 2002 erschien.
	Billboard wird nicht erwähnt, also müsste ich die "Billboard Hot 100" nachschlagen, um zu sehen, ob es 2003 Platz 2 erreichte.	Finden Sie [Billboard Hot 100]	(Ergebnis 1 / 3) Der Song erreichte in den Vereinigten Staaten Platz zwei der Billboard Hot 100, wo er für 500.000 Einheiten mit Gold ausgezeichnet wurde.
	Es wird nur erwähnt, dass der Song Platz 2 der Billboard Hot 100 erreicht hat, aber nicht, ob dies im Jahr 2003 war. Ich bin nicht sicher, ob diese Aussage wahr ist oder nicht.	Abgeschlossen [unzureichende Informationen]

C.3 Einkaufen im Internet

Tabelle 6: In Kapitel 4 verwendete Aufforderungen für das Webshop-Experiment. Wir haben die Hinweise auf der linken Seite für die Aktion (Act) und die Hinweise auf der rechten Seite (mit Argumenten) für die Reaktion (ReAct) verwendet.

Anweisungen:Ich möchte eine 3oz Flasche hellen Zitrus duftenden Deodorant für empfindliche Haut für unter $ 50,00!
Gesetz		ReAct
Bewegung	beachten Sie	Bewegung	beachten Sie
Suche nach [3oz Bright Citrus Fragrance Deodorant for Sensitive Skin]	[返回搜索]第1页 (总结果数：50)[下一页][B078GWRC1J]Earth Mama的亮柑橘除臭剂 \| 天然且适用于 Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio Ringelblume Blume 3oz $10.99[B078GTKVXY]Earth Mama的姜味清新除臭剂 \| 天然且适用于 Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio Ringelblume Blume 3oz $10.99[B08KBVJ4XN]Barrel and Oak - 无铝除臭剂，男士用 Duft auf Basis ätherischer Öle, 24 Stunden Geruchsschutz, Zedernholz & Patchouli-Mischungen sind sanft für empfindliche Haut (Mt Salbei. (2,7 Unzen, 2 Flaschen) $15.95	Suche 3oz Bright Citrus Scented Deodorant für empfindliche Haut	[返回搜索]第1页 (总结果数：50)[下一页][B078GWRC1J]Earth Mama的亮柑橘除臭剂 \| 天然且适用于 Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio Ringelblume Blume 3oz $10.99[B078GTKVXY]Earth Mama的姜味清新除臭剂 \| 天然且适用于 Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio Ringelblume Blume 3oz $10.99[B08KBVJ4XN]Barrel and Oak - 无铝除臭剂，男士用 Duft auf Basis ätherischer Öle, 24 Stunden Geruchsschutz, Zedernholz & Patchouli-Mischungen sind sanft für empfindliche Haut (Mt Salbei. (2,7 Unzen, 2 Flaschen) $15.95
Klicken Sie auf [B078GWRC1J].	Zurück zur Suche vorherige Seite Duft [verschiedene Düfte] [leuchtende Zitrusfrüchte] [beruhigender Lavendel] Ingwer [清新] 简单无香]尺寸 [旅行套装 (4瓶装)][3盎司 (1瓶装)][3盎司 (2 瓶装)]Earth Mama的亮柑橘除臭剂 \| 天然且适用于 Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio Ringelblume Blume 3oz Preis: $10.99 Bewertung: N.A. [描述][特点][评论][立即购买]	Gedanken [B078GWRC1J und B078GTKVXY sind nach Zitrusfrüchten duftende Deodorants für unter 50 $. Ich werde vielleicht zuerst B078GWRC1J ausprobieren].	Ja.
Klicken Sie auf [bright citrus]	Sie haben auf Bright Citrus geklickt.	Klicken Sie auf [B078GWRC1J].	[返回搜索][上一页]香味 [多种香味][亮柑橘][安抚薰衣草]姜 [清新] 简单无香]尺寸 [旅行套装 (4瓶装)][3盎司 (1瓶装)][3盎司 (2 瓶装)]Earth Mama的亮柑橘除臭剂 \| 天然且适用于 Empfindliche Haut, Schwangerschaft und Stillzeit mit Bio Ringelblume Blume 3oz Preis: $10.99 Bewertung: N.A. [描述][特点][评论][立即购买]
Klicken Sie auf [3 oz (1 Flasche)].	Sie haben auf 3 oz (1 Flasche) geklickt.	Gedanken [Für die 3 oz Flasche Bright Citrus parfümiertes Deodorant für empfindliche Haut ist der Artikel in den Optionen 'Bright Citrus' und '3 oz (1 Flasche)' erhältlich, was so aussieht, als könnte man es kaufen].	Ja.
Klicken Sie auf [Jetzt kaufen]		Klicken Sie auf [bright citrus]	Sie haben auf Bright Citrus geklickt.
		Klicken Sie auf [3 oz (1 Flasche)].	Sie haben auf 3 oz (1 Flasche) geklickt.

C.4 ALFWORLD

Der ALFWORLD-Simulator, eine Umgebung mit mehr als 25.000 einzigartigen, prozedural generierten Aufgaben in realen Umgebungen wie Küchen, Wohnzimmern, Schlafzimmern und mehr.

Sie befinden sich in der Mitte eines Raumes und sehen einen Schrank, in dem Sie sich schnell umschauen.
13, ein Schrank 12, ein Schrank 11, ein Schrank 10, ein Schrank 9, ein Schrank 8, ein Schrank
7, ein Schrank 6, ein Schrank 5, ein Schrank 4, ein Schrank 3, ein Schrank 2, ein Schrank
1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Schublade 1, einen Kühlschrank 1, eine
Mülltonne 1, Mikrowelle 1, Regal 3, Regal 2, Regal 1, Spüle 1, Spülbecken 1
einen Ofen 4, einen Ofen 3, einen Ofen 2, einen Ofen 1 und einen Toaster 1.
Deine Aufgabe ist es: einen sauberen Salat auf den Esstisch zu legen.
> zum Kühlschrank 1 gehen
Der Kühlschrank 1 ist geschlossen.
> Kühlschrank 1 öffnen
Du öffnest den Kühlschrank 1. Der Kühlschrank 1 ist offen. Darin siehst du eine Tasse 3, ein Ei 2, eine
Kartoffel 3, und eine Kartoffel 2.
> Zum Esstisch 1 gehen
Auf dem Esstisch 1 liegen ein Apfel 1, ein Brot 1, ein Buttermesser 2, eine Tasse 2, eine
eine Gabel 2, ein Messer 2, ein Messer 1, eine Schöpfkelle 1, ein Salat 1, ein Becher 2, ein Becher 1, ein Topf 2, ein
Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> Nimm Salat 1 vom Esstisch 1
Du nimmst den Salat 1 vom Esstisch 1.
> zum Spülbecken 1 gehen
Auf dem Spülbecken 1 liegen ein Apfel 2, eine Schöpfkelle 2, ein Löffel 1 und eine Tomate 3.
> sauberer Salat 1 mit Spülbecken 1
Sie reinigen den Salat 1 mit Hilfe des Spülbeckens 1.
> Jetzt putze ich einen Salat (1). Dann muss ich ihn in/auf den Esstisch 1 legen.
GUT.
> Zum Esstisch 1 gehen
Auf dem Esstisch 1 liegen ein Apfel 1, ein Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel
2, ein Messer 2, ein Messer 1, eine Schöpfkelle 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein
Spatel 3, eine Tomate 2 und eine Tomate 1.
> Salat 1 in/auf Esstisch 1 legen
Sie legen den Salat 1 in/auf den Esstisch 1.

Tabelle 7: Aktionstipps für die ALFWorld-Reinigungsaufgabe. Keine Ideen vorhanden.

Sie befinden sich in der Mitte eines Raumes. Wenn du dich schnell umsiehst, siehst du einen Schrank
13, Schrank 12, Schrank 11, Schrank 10, Schrank 9, Schrank 8, Schrank
7, Schrank 6, Schrank 5, Schrank 4, Schrank 3, Schrank 2, Schrank
1, 1 Kaffeemaschine, 1 Arbeitsplatte, 1 Esstisch, 1 Schublade, 1 Kühlschrank,
1 Behälter, 1 Mikrowelle, 3 Regale, 2 Regale, 1 Regal, 1 Spüle,
Herd 4, Herd 3, Herd 2, Herd 1 und Toaster 1.
Deine Aufgabe: Lege sauberen Salat auf den Tisch.
> Gehe zu Kühlschrank 1
Kühlschrank 1 ist geschlossen.
> Öffnen Sie den Kühlschrank 1
Du öffnest Kühlschrank 1. Kühlschrank 1 ist offen. Darin sehen Sie eine Tasse 3, ein Ei 2, eine
3 Kartoffeln, 2 Kartoffeln.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, ein
Gabel 2, Messer 2, Messer 1, langstieliger Löffel 1, Salat 1, Tasse 2, Becher 1, Pfanne 2,
1 Pfefferstreuer, 3 Spatel, 2 Tomaten, 1 Tomate.
> Kopfsalat 1 aus Tabelle 1
Sie nehmen den Salat 1 von Tisch 1.
> Gehe zu Senke 1
Auf der Spüle 1 sind ein Apfel 2, ein langstieliger Löffel 2, ein Löffel 1 und eine Tomate 3 zu sehen.
> 1 Salatwaschmaschine, 1 mit Waschbecken
Sie benutzen Waschbecken 1, um Salat 1 zu waschen.
> Überlege: Jetzt wasche ich einen Salat (1). Dann muss ich ihn in/auf Tisch 1 legen.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 sind zu sehen: Apfel 1, Brot 1, Buttermesser 2, Tasse 2, Gabel
2, Messer 2, Messer 1, langstieliger Löffel 1, Tasse 2, Becher 1, Pfanne 2, Pfefferstreuer 1,
3 Spatel, 2 Tomaten, 1 Tomate.
> Legen Sie Salat 1 in/auf Tisch 1
Sie legen den Kopfsalat 1 auf/in Tisch 1.

Sie befinden sich in der Mitte eines Raumes und sehen einen Schrank, in dem Sie sich schnell umschauen.
13, ein Schrank 12, ein Schrank 11, ein Schrank 10, ein Schrank 9, ein Schrank 8, ein Schrank
7, ein Schrank 6, ein Schrank 5, ein Schrank 4, ein Schrank 3, ein Schrank 2, ein Schrank
1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Schublade 1, einen Kühlschrank 1, eine
Mülltonne 1, Mikrowelle 1, Regal 3, Regal 2, Regal 1, Spüle 1, Spülbecken 1
einen Ofen 4, einen Ofen 3, einen Ofen 2, einen Ofen 1 und einen Toaster 1.
Deine Aufgabe ist es: einen sauberen Salat auf den Esstisch zu legen.
> Denke: Um die Aufgabe zu lösen, muss ich einen Salat finden und nehmen, dann säubere ich ihn mit
Spülbecken, dann auf den Esstisch stellen.
GUT.
> Zuerst muss ich einen Kopfsalat finden. Ein Kopfsalat ist wahrscheinlicher in
Kühlschrank (1), Esstisch (1), Spülbecken (1), Herdplatte (1-3), Schrank (1-13). I
können nacheinander überprüft werden, beginnend mit Kühlschrank 1.
GUT.
> zum Kühlschrank 1 gehen
Der Kühlschrank 1 ist geschlossen.
> Kühlschrank 1 öffnen
Du öffnest den Kühlschrank 1. Der Kühlschrank 1 ist offen. Darin siehst du eine Tasse 3, ein Ei 2, eine
Kartoffel 3, und eine Kartoffel 2.
> Zum Esstisch 1 gehen
Auf dem Esstisch 1 liegen ein Apfel 1, ein Brot 1, ein Buttermesser 2, eine Tasse 2, eine
eine Gabel 2, ein Messer 2, ein Messer 1, eine Schöpfkelle 1, ein Salat 1, ein Becher 2, ein Becher 1, ein Topf 2, ein
Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> Jetzt finde ich einen Salat (1). Als nächstes muss ich ihn mitnehmen.
GUT.
> Nimm Salat 1 vom Esstisch 1
Du nimmst den Salat 1 vom Esstisch 1.
> denke: Jetzt nehme ich einen Salat (1). Als Nächstes muss ich zum Waschbecken (1) gehen und es reinigen.
Es.
GUT.
> zum Spülbecken 1 gehen
Auf dem Spülbecken 1 liegen ein Apfel 2, eine Schöpfkelle 2, ein Löffel 1 und eine Tomate 3.
> sauberer Salat 1 mit Spülbecken 1
Sie reinigen den Salat 1 mit Hilfe des Spülbeckens 1.
> Jetzt putze ich einen Salat (1). Dann muss ich ihn in/auf den Esstisch 1 legen.
GUT.
> Zum Esstisch 1 gehen
Auf dem Esstisch 1 liegen ein Apfel 1, ein Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel
2, ein Messer 2, ein Messer 1, eine Schöpfkelle 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein
Spatel 3, eine Tomate 2 und eine Tomate 1.
> Salat 1 in/auf Esstisch 1 legen
Sie legen den Salat 1 in/auf den Esstisch 1.

Tabelle 8: ReAct-Aktionswarnungen für die ALFWorld-Reinigungsaufgabe.

Sie befinden sich in der Mitte eines Raumes. Wenn Sie sich schnell umschauen, sehen Sie einen Schrank 13, einen Schrank 12, einen Schrank 11, einen Schrank 10, einen Schrank 9, einen Schrank 8, einen Schrank 7, einen Schrank 6, einen Schrank 5, einen Schrank 4, einen Schrank 3, einen Schrank 2 und einen Schrank 1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Kommode 1, einen Kühlschrank 1 und einen Mülleimer 1, eine Mikrowelle 1, ein Regal 3, ein Regal 2, ein Regal 1, ein Waschbecken 1, ein Kochfeld 4, ein Kochfeld 3, ein Kochfeld 2, ein Kochfeld 1 und ein Toaster 1.
Ihre Aufgabe: Legen Sie einen sauberen Kopfsalat auf den Tisch.
> Überlege: Um diese Aufgabe zu lösen, muss ich einen Salat finden und nehmen, ihn dann in der Spüle waschen und ihn schließlich auf den Tisch legen.
Ja.
> Überlege: Zuerst muss ich einen Salat finden. Der Salat befindet sich wahrscheinlich im Kühlschrank (1), auf dem Esstisch (1), in der Spüle (1), auf der Herdplatte (1-3) und in den Schränken (1-13). Ich kann die Schränke nacheinander überprüfen, beginnend mit Kühlschrank 1.
Ja.
> Zum Kühlschrank gehen 1
Kühlschrank 1 ist geschlossen.
> Kühlschrank 1 öffnen
Du öffnest Kühlschrank 1. Der Kühlschrank 1 ist jetzt offen. Darin siehst du eine Tasse 3, ein Ei 2, eine Kartoffel 3 und eine Kartoffel 2.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Spatel 1, ein Salat 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Löffel 3, eine Tomate 2 und eine Tomate 1.
> Überlege: Jetzt habe ich einen Salat gefunden (1). Als nächstes muss ich ihn wegbringen.
Ja.
> Nimm den Salat 1 aus Tabelle 1
Sie nehmen den Salat 1 von Tisch 1.
> Denken Sie: Jetzt habe ich einen Salat genommen (1). Als nächstes muss ich zum Waschbecken gehen (1), um ihn zu waschen.
Ja.
> Zum Waschbecken 1 gehen
Auf dem Waschbecken 1 liegen ein Apfel 2, ein Spatel 2, ein Löffel 1 und eine Tomate 3.
> Waschen von Salat in einem Waschbecken 1 1
Du hast Salat 1 in Waschbecken 1 gewaschen.
> Überlege: Jetzt habe ich einen Salat gereinigt (1). Als nächstes muss ich ihn auf den /up-Tisch legen.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Löffel 3, eine Tomate 2 und eine Tomate 1.
> Salat 1 auf den Tisch legen
Sie legen den Salat 1 auf Tisch 1.

Sie befinden sich in der Mitte eines Raumes und sehen einen Schrank, in dem Sie sich schnell umschauen.
13, ein Schrank 12, ein Schrank 11, ein Schrank 10, ein Schrank 9, ein Schrank 8, ein Schrank
7, ein Schrank 6, ein Schrank 5, ein Schrank 4, ein Schrank 3, ein Schrank 2, ein Schrank
1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Schublade 1, einen Kühlschrank 1, eine
Mülltonne 1, Mikrowelle 1, Regal 3, Regal 2, Regal 1, Spüle 1, Spülbecken 1
einen Ofen 4, einen Ofen 3, einen Ofen 2, einen Ofen 1 und einen Toaster 1.
Deine Aufgabe ist es: einen sauberen Salat auf den Esstisch zu legen.
> Denke: Um die Aufgabe zu lösen, muss ich einen Salat finden und nehmen, dann säubere ich ihn mit
Spülbecken, dann auf den Esstisch stellen.
GUT.
> Zuerst muss ich einen Kopfsalat finden.
GUT.
> zum Kühlschrank 1 gehen
Der Kühlschrank 1 ist geschlossen.
> Zuerst muss ich einen Kopfsalat finden.
GUT.
> Kühlschrank 1 öffnen
Du öffnest den Kühlschrank 1. Der Kühlschrank 1 ist offen. Darin siehst du eine Tasse 3, ein Ei 2, eine
Kartoffel 3, und eine Kartoffel 2.
> Zuerst muss ich einen Kopfsalat finden.
GUT.
> Zum Esstisch 1 gehen
Auf dem Esstisch 1 liegen ein Apfel 1, ein Brot 1, ein Buttermesser 2, eine Tasse 2, eine
eine Gabel 2, ein Messer 2, ein Messer 1, eine Schöpfkelle 1, ein Salat 1, ein Becher 2, ein Becher 1, ein Topf 2, ein
Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> Zuerst muss ich einen Kopfsalat finden.
GUT.
> Nimm Salat 1 vom Esstisch 1
Du nimmst den Salat 1 vom Esstisch 1.
> denke: Ich muss diesen Salat (1) mit dem Spülbecken 1 reinigen.
GUT.
> zum Spülbecken 1 gehen
Auf dem Spülbecken 1 liegen ein Apfel 2, eine Schöpfkelle 2, ein Löffel 1 und eine Tomate 3.
> denke: Ich muss diesen Salat (1) mit dem Spülbecken 1 reinigen.
GUT.
> sauberer Salat 1 mit Spülbecken 1
Sie reinigen den Salat 1 mit Hilfe des Spülbeckens 1.
> denke: Ich muss diesen geputzten Salat (1) in/auf Esstisch 1 legen.
GUT.
> Zum Esstisch 1 gehen
Auf dem Esstisch 1 liegen ein Apfel 1, ein Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel
2, ein Messer 2, ein Messer 1, eine Schöpfkelle 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein
Spatel 3, eine Tomate 2 und eine Tomate 1.
> denke: Ich muss diesen geputzten Salat (1) in/auf Esstisch 1 legen.
GUT.
> Salat 1 in/auf Esstisch 1 legen
Sie legen den Salat 1 in/auf den Esstisch 1.

Tabelle 9: ReAct-IM Handlungsaufforderungen für die ALFWorld Reinigungsaufgabe.

Sie befinden sich in der Mitte eines Raumes. Wenn Sie sich schnell umschauen, sehen Sie einen Schrank 13, einen Schrank 12, einen Schrank 11, einen Schrank 10, einen Schrank 9, einen Schrank 8, einen Schrank 7, einen Schrank 6, einen Schrank 5, einen Schrank 4, einen Schrank 3, einen Schrank 2, einen Schrank 1, eine Kaffeemaschine 1, eine Arbeitsplatte 1, einen Esstisch 1, eine Kommode 1, einen Kühlschrank 1, einen Mülleimer 1, eine eine Mikrowelle 1, ein Regal 3, ein Regal 2, ein Regal 1, eine Spüle 1, einen Kochfeldbrenner 4, einen Kochfeldbrenner 3, einen Kochfeldbrenner 2, einen Kochfeldbrenner 1 und einen Toaster 1.
Ihre Aufgabe: Legen Sie einen sauberen Kopfsalat auf den Tisch.
> Denk nach: Um diese Aufgabe zu lösen, muss ich einen Salat finden und nehmen und ihn dann in der Spüle waschen, bevor ich ihn auf den Tisch lege.
Ja.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Zum Kühlschrank gehen 1
Kühlschrank 1 ist geschlossen.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Kühlschrank 1 öffnen
Du hast Kühlschrank 1 geöffnet. Kühlschrank 1 ist jetzt offen. Im Kühlschrank siehst du eine Tasse 3, ein Ei 2, eine Kartoffel 3 und eine Kartoffel 2.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Spatel 1, ein Salat 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> Denke: Zuerst muss ich einen Kopfsalat finden.
Ja.
> Entfernen Sie den Salat 1 aus Tabelle 1
Sie nehmen den Salat 1 von Tisch 1.
> Denken Sie: Ich muss Waschbecken 1 benutzen, um diesen Salat zu waschen (1).
Ja.
> Zum Waschbecken 1 gehen
Auf dem Waschbecken 1 liegen ein Apfel 2, ein Spatel 2, ein Löffel 1 und eine Tomate 3.
> Denken Sie: Ich muss Waschbecken 1 benutzen, um diesen Salat zu waschen (1).
Ja.
> Benutzung des Handwaschbeckens 1 Waschen des Salats 1
Du hast Waschbecken 1 benutzt, um Salat 1 zu waschen.
> DENKEN: Ich muss diesen bereits gewaschenen Salat (1) auf den Tisch legen.
Ja.
> Gehe zu Tabelle 1
Auf Tisch 1 liegen ein Apfel 1, ein Laib Brot 1, ein Buttermesser 2, eine Tasse 2, eine Gabel 2, ein Messer 2, ein Messer 1, ein Löffel 1, ein Becher 2, ein Becher 1, eine Pfanne 2, ein Pfefferstreuer 1, ein Spatel 3, eine Tomate 2 und eine Tomate 1.
> DENKEN: Ich muss diesen bereits gewaschenen Salat (1) auf den Tisch legen.
Ja.
> Legen Sie den Salat 1 auf den Tisch
Sie legen den Salat 1 auf den Tisch.

D Flugbahn

D.1 Flugbahn von FEVER

Wir stellen einige von ReAct, CoT und Act erzeugte Trajektorien zur Verfügung, und weiter unten finden Sie einige zufällig ausgewählte Beispiele aus dem FEVER-Entwicklungsset. Die Suchergebnisse wurden aus Platzgründen weggelassen.

Beispiel 2491 (Standardantwort: Widerlegung)

ReAct
Behauptung: Das Bermuda-Dreieck ist eine lose definierte Region im Pazifischen Ozean.
Gedanke 1: Ich muss nach dem Bermuda-Dreieck suchen und herausfinden, ob es im Pazifischen Ozean liegt.
Action 1: Search[Bermuda Triangle]Observation 1: Reportedly haunted locations...
Gedanke 2: Die Beobachtung besagt, dass er sich im westlichen Teil des Nordatlantiks befindet
Ozean, also nicht im Pazifischen Ozean.
Action 2: Finish[REFUTES]Observation 2: Episode finished
Gesetz
Behauptung: Das Bermuda-Dreieck ist eine lose definierte Region im Pazifischen Ozean.
Action 1 : Search[Bermuda Triangle]Observation 1 : Reportedly haunted locations:...
Action 2: Finish[REFUTES]Observation 2: Episode finished
CoT
Behauptung: Das Bermuda-Dreieck ist eine lose definierte Region im Pazifischen Ozean.
Gedanke: Gehen wir Schritt für Schritt vor: Das Bermuda-Dreieck ist eine lose definierte Region
Der Pazifische Ozean ist nicht der Atlantische Ozean.
Antwort: REFUTES

ReAct
Haftungsausschluss: Das Bermuda-Dreieck ist ein lose definiertes Gebiet im Pazifischen Ozean.
Denke 1: Ich muss das Bermuda-Dreieck suchen, um herauszufinden, ob es im Pazifik liegt.
Aktion 1: Suche [Bermudadreieck]
Beobachtung 1: Dies sind einige der Orte, an denen es angeblich spukt...
Überlegung 2: Die Beobachtungen zeigen, dass er sich im westlichen Teil des Nordatlantiks befindet, also nicht im Pazifik.
Aktion 2: Schlussfolgerung [widerlegt]
Beobachtung 2: Ende der Episode
Gesetz
Haftungsausschluss: Das Bermuda-Dreieck ist ein lose definiertes Gebiet im Pazifischen Ozean.
Aktion 1: Suche [Bermudadreieck]
Beobachtung 1: Dies sind einige der Orte, an denen es angeblich spukt:...
Aktion 2: Schlussfolgerung [widerlegt]
Beobachtung 2: Ende der Episode
CoT (Denkprozess)
Haftungsausschluss: Das Bermuda-Dreieck ist ein lose definiertes Gebiet im Pazifischen Ozean.
Denken Sie: Gehen wir einen Schritt nach dem anderen. Das Bermuda-Dreieck ist ein grob definiertes Gebiet im Atlantik. Der Pazifische Ozean ist nicht der Atlantische Ozean.
Antwort: widerlegen
Durch diesen Prozess des logischen Denkens können wir zu dem Schluss kommen, dass das Bermuda-Dreieck tatsächlich im Atlantischen Ozean und nicht im Pazifischen Ozean liegt. Diese Schlussfolgerung beruht auf der Kenntnis und Bestätigung der geografischen Lage des Bermudadreiecks. Das Bermuda-Dreieck ist bekannt für sein mysteriöses Verschwinden und seine Legenden, aber die Genauigkeit der geografischen Lage ist ebenso wichtig, um Fehlinformationen und Verwirrung zu vermeiden.

Beispiel 5908 (Standardantwort: Unterstützung)

ReAct
Behauptung: Prinzessin Mononoke ist ein Film.
Gedanke 1: Ich muss Prinzessin Mononoke suchen und herausfinden, ob es ein Film ist.
Action 1: Search[Princess Mononoke]Observation 1: Princess Mononoke ...
Gedanke 2: Aus der Beobachtung geht hervor, dass Prinzessin Mononoke ein Film ist.
Action 2: Finish[SUPPORTS]Observation 2: Episode finished
Gesetz
Behauptung: Prinzessin Mononoke ist ein Film.
Action 1: Search[Princess Mononoke]Observation 1: Princess Mononoke ...
Action 2: Finish[SUPPORTS]Observation 2: Episode finished
CoT
Behauptung: Prinzessin Mononoke ist ein Film.
Gedanke: Gehen wir Schritt für Schritt vor: Prinzessin Mononoke ist ein Film, und Filme sind
Filme.
Antwort: SUPPORTS

ReAct
Haftungsausschluss: Die Prinzessin von Neuzarka ist ein Film.
Idee Nr. 1: Ich muss nach "Die Prinzessin von Neuzarka" suchen, um zu sehen, ob es sich um einen Film handelt.
动作1：搜索[纽扎卡公主]观察1：《纽扎卡公主》...
Idee 2: Aus der Beobachtung heraus ist Die Prinzessin von Neuzarka ein Film.
动作2：完成[支持]观察2：本集节目完成
Gesetz
Haftungsausschluss: Die Prinzessin von Neuzarka ist ein Film.
动作1：搜索[纽扎卡公主]观察1：《纽扎卡公主》...
动作2：完成[支持]观察2：本集节目完成
CoT
Haftungsausschluss: Die Prinzessin von Neuzarka ist ein Film.
Idee: Lasst uns einen Schritt nach dem anderen denken. Die Prinzessin von Neuzarka ist ein Film, und ein Film ist ein Film.
Antwort: Unterstützung

Beispiel 1951 (Standardantwort: Widerlegung)

ReAct
Behauptung: Sojus war Teil des amerikanischen Raumfahrtprogramms.
Gedanke 1: Ich muss nach Sojus suchen und herausfinden, ob es Teil des amerikanischen Raumfahrtprogramms war.
Programm.
Action 1: Search[Soyuz]Observation 1: Soyuz is a transliteration...
Gedanke 2: Das amerikanische Raumfahrtprogramm wird nicht erwähnt, ich muss also suchen.
"Amerikanisches Raumfahrtprogramm", um herauszufinden, ob es Teil davon war.
Action 2: Search[American space program]Observation 2: The space policy...
Gedanke 3: Sojus wird nicht erwähnt, daher bin ich nicht sicher, ob diese Behauptung wahr ist oder nicht.
Action 3: Finish[NOT ENOUGH INFO]Observation 3: Episode finished
Gesetz
Behauptung: Sojus war Teil des amerikanischen Raumfahrtprogramms.
Action 1: Search[Soyuz]Observation 1: Soyuz is a transliteration...
Action 2: Finish[NOT ENOUGH INFO]Observation 2: Episode finished
CoT
Behauptung: Sojus war Teil des amerikanischen Raumfahrtprogramms.
Gedanke: Gehen wir Schritt für Schritt vor: Sojus ist ein russisches Raumschiff.
Das Raumfahrtprogramm ist die NASA. zusammen über die
Internationale Raumstation.
Antwort: SUPPORTS

ReAct
Haftungsausschluss: Sojus ist Teil des US-Raumfahrtprogramms.
Gedanke 1: Ich muss die Sojus durchsuchen, um herauszufinden, ob sie Teil des US-Raumfahrtprogramms ist.
行动1：搜索[联盟号]观察1：联盟号是一个音译词...
Überlegung 2: Das US-Raumfahrtprogramm wird nicht erwähnt, so dass ich nach "US-Raumfahrtprogramm" suchen muss, um herauszufinden, ob es Teil davon ist.
行动2：搜索[美国太空计划]观察2：太空政策...
Gedanke 3: Die Sojus wird nicht erwähnt, daher bin ich mir nicht sicher, ob diese Aussage stimmt oder nicht.
行动3：结束[信息不足]观察3：结束
Gesetz
Haftungsausschluss: Sojus ist Teil des US-Raumfahrtprogramms.
行动1：搜索[联盟号]观察1：联盟号是一个音译词...
行动2：结束[信息不足]观察2：结束
CoT
Haftungsausschluss: Sojus ist Teil des US-Raumfahrtprogramms.
Denke: Lass uns Schritt für Schritt denken. Die Sojus ist ein russisches Raumschiff. Das Raumfahrtprogramm der USA ist die NASA. Die NASA und Russland arbeiten bei der Internationalen Raumstation zusammen.
Antwort: Unterstützung

Beispiel 3208 (Standardantwort: Widerlegung)

ReAct
Anspruch: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Gedanke 1: Ich muss nach "Reign Over Me" suchen und herausfinden, ob es ein amerikanischer Film ist.
im Jahr 2010.
Action 1: Search[Reign Over Me]Observation 1: Reign Over Me ...
Gedanke 2: Die Beobachtung besagt, dass es sich um einen amerikanischen Film aus dem Jahr 2007 handelt, also ist er nicht
aus dem Jahr 2010.
Action 2: Finish[REFUTES]Observation 2: Episode finished
Gesetz
Anspruch: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Action 1: Search[Reign Over Me]Action 2: Finish[SUPPORTS]Observation 2: Episode finished
CoT
Anspruch: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Überlegen wir Schritt für Schritt: Erstens, ist Reign Over Me ein amerikanischer Film? Ja, das ist er.
Zweitens: Wurde sie 2010 hergestellt? Ja, wurde sie.
Antwort: SUPPORTS

ReAct
Haftungsausschluss: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Idee 1: Ich muss nach "Reign Over Me" suchen, um festzustellen, ob es sich um einen amerikanischen Film aus dem Jahr 2010 handelt.
行动1：搜索[Reign Over Me]观察1：《Reign Over Me》...
Idee 2: Die Beobachtungen zeigen, dass es sich um einen amerikanischen Film aus dem Jahr 2007 handelt, der also nicht im Jahr 2010 gedreht wurde.
行动2：结束[驳斥]观察2：结束
Gesetz
Haftungsausschluss: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
行动1：搜索[Reign Over Me]行动2：结束[支持]观察2：结束
CoT
Haftungsausschluss: Reign Over Me ist ein amerikanischer Film aus dem Jahr 2010.
Gedanken: Gehen wir einen Schritt nach dem anderen. Erstens: Ist Reign Over Me ein amerikanischer Film? Ja, das ist er. Zweitens: Wurde er im Jahr 2010 gedreht? Ja, wurde er.
Antwort: Unterstützung

D.2 ALFWORLD-Flugbahnen

Wir stellen Beispieltrajektorien für ReAct, Act und ReAct-IM in demselben ALFWorld-Spiel Pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754 zur Verfügung.

D.2.1 REACT-Bewegungsabläufe

ReAct war in der Lage, das Messer ordnungsgemäß zu lokalisieren, es zu reinigen und dann auf die Arbeitsplatte zu legen.

ReAct ALFWorld Flugbahn

Sie stehen in der Mitte eines Raumes und sehen einen Schrank 6, einen
Schrank 5, ein Schrank 4, ein Schrank 3, ein Schrank 2, ein Schrank 1, eine Kaffeemaschine 1, eine
Arbeitsplatte 3, eine Arbeitsplatte 2, eine Arbeitsplatte 1, eine Schublade 3, eine Schublade 2, eine Schublade 1, eine
einem Kühlschrank 1, einem Mülleimer 1, einer Mikrowelle 1, einem Regal 3, einem Regal 2, einem Regal 1, einem Waschbecken
1, einen Ofenbrenner 4, einen Ofenbrenner 3, einen Ofenbrenner 2, einen Ofenbrenner 1 und einen Toaster
1.
Ihre Aufgabe lautet: Legen Sie ein sauberes Messer auf die Arbeitsplatte.
> denke: Um die Aufgabe zu lösen, muss ich ein Messer finden und nehmen und es dann mit
Waschbecken, dann auf die Arbeitsplatte stellen.
GUT.
> Zuerst muss ich ein Messer finden. Ein Messer erscheint eher im Schrank
(1-6), Schublade (1-3), Arbeitsplatte (1-3), Kühlschrank (1), Mülleimer (1), Regal (1-3),
Spülbecken (1), Herdplatte (1-4), Toaster (1). Ich kann einen nach dem anderen überprüfen, beginnend mit
Schrank 1.
GUT.
> zum Schrank 1 gehen
Auf dem Schrank 1 sehen Sie eine Schale 1.
> zum Schrank 2 gehen
Der Schrank 2 ist geschlossen.
> zum Schrank 3 gehen
Auf dem Schrank 3 sehen Sie eine Glasflasche 1.
> zum Schrank 4 gehen
Auf dem Schrank 4 sehen Sie einen Becher 1.
> zum Schrank 5 gehen
Der Schrank 5 ist geschlossen.
> zum Schrank 6 gehen
Der Schrank 6 ist geschlossen.
> Gehe zu Schublade 1
Die Schublade 1 ist geschlossen.
> Gehe zu Schublade 2
Die Schublade 2 ist geschlossen.
> Gehe zu Schublade 3
Die Schublade 3 ist geschlossen.
> zur Arbeitsplatte 1 gehen
Auf der Arbeitsplatte 1 stehen ein Salat 2, ein Becher 2, ein Pfefferstreuer 1 und ein Löffel 2.
> zur Arbeitsplatte 2 gehen
Auf der Arbeitsplatte 2 sehen Sie eine Tasse 1, einen Spülschwamm 1, eine Glasflasche 3, ein Messer 1, eine
Teller 2, eine Kartoffel 3 und eine Statue 1.
> Jetzt finde ich ein Messer (1). Als nächstes muss ich es nehmen.
GUT.
> Messer 1 von Arbeitsplatte 2 nehmen
Sie nehmen das Messer 1 von der Arbeitsplatte 2 auf.
> Jetzt nehme ich ein Messer (1). Als nächstes muss ich zum Waschbecken (1) gehen und es reinigen.
GUT.
> zum Spülbecken 1 gehen
Auf dem Spülbecken 1 liegen eine Gabel 3, ein Salat 3 und ein Spatel 2.
> Messer 1 mit Spüle 1 reinigen
Sie reinigen das Messer 1 im Spülbecken 1.
> Jetzt reinige ich ein Messer (1). Als nächstes muss ich es in/auf die Arbeitsplatte 1 legen.
GUT.
> zur Arbeitsplatte 1 gehen
Auf der Arbeitsplatte 1 stehen ein Salat 2, ein Becher 2, ein Pfefferstreuer 1 und ein Löffel 2.
> Messer 1 in/auf Arbeitsplatte 1 legen
Sie legen das Messer 1 in/auf die Arbeitsplatte 1.

Sie befinden sich in der Mitte des Raumes. Wenn Sie sich schnell umschauen, sehen Sie einen Schrank 6, einen Schrank 5, einen Schrank 4, einen Schrank 3, einen Schrank 2, einen Schrank 1, eine Kaffeemaschine 1, eine Tischplatte 3, eine Tischplatte 2, eine Tischplatte 1, eine Schublade 3, eine Schublade 2, eine Schublade 1, einen Kühlschrank 1, einen Mülleimer 1, eine Mikrowelle 1, ein Regal 3, ein Regal 2, ein Regal 1, eine Spüle 1, ein Kochfeld 4, ein Kochfeld 3, ein Kochfeld 2, ein Kochfeld 1 und ein Toaster 1.
Ihre Aufgabe: Legen Sie ein sauberes Messer auf den Tisch.
> Denke: Um die Aufgabe zu lösen, muss ich ein Messer finden und aufheben, es dann im Spülbecken reinigen und auf den Tisch legen.
Ja.
> Überlege: Zuerst muss ich ein Messer finden. Ein Messer befindet sich eher in einem Schrank (1-6), einer Schublade (1-3), einer Tischplatte (1-3), einem Kühlschrank (1), einem Mülleimer (1), einem Regal (1-3), einer Spüle (1), einer Herdplatte (1-4), einem Toaster (1). Ich kann sie nacheinander überprüfen, beginnend mit Schrank 1.
Ja.
> Gehe zu Kabinett 1
Auf Schrank 1 sehen Sie eine Schale 1.
> Gehe zu Kabinett 2
Kabinett 2 ist geschlossen.
> Zum Kabinett 3 gehen
Im Schrank 3 sehen Sie eine Glasflasche 1.
> Zum Kabinett 4 gehen
Auf Schrank 4 sehen Sie einen Becher 1.
> Zum Kabinett 5 gehen
Kabinett 5 ist geschlossen.
> Zum Kabinett 6 gehen
Kabinett 6 ist geschlossen.
> Gehe zu Schublade 1
Schublade 1 ist geschlossen.
> Gehe zu Schublade 2
Schublade 2 ist geschlossen.
> Gehe zu Schublade 3
Schublade 3 ist geschlossen.
> Gehe zu Desktop 1
Auf der Tischplatte 1 befinden sich ein Salatkopf 2, eine Tasse 2, ein Salzstreuer mit schwarzem Pfeffer 1 und zwei Löffel 2.
> Gehe zu Desktop 2
Auf der Tischplatte 2 stehen eine Tasse 1, ein Pinseltellerschaf 1, eine Glasflasche 3, ein Messer 1, ein Teller 2, drei Kartoffeln 3 und eine Statue 1.
> Denk: Jetzt habe ich ein Messer gefunden (1). Als nächstes muss ich es mitnehmen.
Ja.
> Messer 1 von Tisch 2 nehmen
Du nimmst Messer 1 von Tisch 2.
> Überlege: Jetzt nehme ich ein Messer (1) in die Hand. Als nächstes muss ich zum Waschbecken (1) gehen, um es zu reinigen.
Ja.
> Gehe zu Senke 1
Über der Spüle 1 sehen Sie eine Gabel 3, einen Salatkopf 3 und einen Wender 2.
> Reinigungsmesser 1 mit Spüle 1
Sie benutzen Spüle 1, um Messer 1 zu reinigen.
> Überlege: Jetzt habe ich ein Messer gereinigt (1). Als nächstes muss ich es auf/in Tisch 1 legen.
Ja.
> Gehe zu Desktop 1
Auf der Tischplatte 1 befinden sich ein Salatkopf 2, eine Tasse 2, ein Salzstreuer mit schwarzem Pfeffer 1 und zwei Löffel 2.
> Messer 1 auf/in Tisch 1 legen
Sie legen das Messer 1 auf/in die Tischplatte 1.

D.2.2 ACT-Trajektorien

Das Aktionsmodell findet das Messer zwar richtig, versucht aber, es mit Hilfe des Waschbeckens zu reinigen, bevor es tatsächlich zum Waschbecken geht. Von da an ist das Modell nicht mehr in der Lage, sich zu erholen und verfällt in die Wiederholung der gleichen Befehlsfolge. Bei der Verwendung des ReAct-Modells erkennt die bereits vorhandene Idee, dass das Messer entwendet wurde, und das nächste Teilziel besteht darin, zum Waschbecken zu gehen, um es zu reinigen.

D.2.3 REACT-IM Flugbahn

Das ReAct-IM war in der Lage, das Messer korrekt zu lokalisieren, konnte es aber auch nicht reinigen. Dann gerät der LLM in Schwierigkeiten, wenn er versucht, dieses Messer auf den Tresen zu legen. Ein mögliches Problem ist die falsche Vorstellung: Ich muss ein sauberes Messer finden. Dies scheint den LLM zu der Annahme verleitet zu haben, dass das Messer bereits gereinigt worden war. In ReAct wird diese Reihe von Teilzielen speziell durch jede Idee erfasst.

D.3 WEBSHOP Flugbahn

Anweisungen:Kaufen Sie mir eine Sechzehnerpackung gefriergetrocknete Bananenchips mit Apfel-Zimt-Geschmack für weniger als $50,00

Tabelle 10: Beispielhafte Webshop-Trajektorien, die von Act und ReAct vorhergesagt werden. Im Gegensatz zu Act verwendet ReAct Inferenz, um Produkte zu finden, die alle Zielattribute erfüllen.

E Weitere Analysen

E.1 Analyse der Erfolgs- und Misserfolgsmodi

Wir geben einige Beispiele, die den in Abschnitt 3.3 beschriebenen Erfolgs- und Fehlermusteranalysen entsprechen. Suchergebnisse und nicht-repräsentative Schritte wurden aus Platzgründen weggelassen.

Erfolg: Echt positiv

ReAct
Frage: Der Autor David Chanoff hat mit einem Admiral der U.S. Navy zusammengearbeitet, der als
der Botschafter im Vereinigten Königreich unter welchem Präsidenten?
Gedanke 1: Ich muss David Chanoff suchen und den Admiral der U.S. Navy finden, den er
zusammengearbeitet mit.
Action 1: Search[David Chanoff]Observation 1: David Chanoff is a noted author...
Action 2: Search[William J. Crowe]Observation 2: William J. Crowe is...
Gedanke 3: William J. Crowe diente als Botschafter im Vereinigten Königreich unter
Die Antwort lautet also Bill Clinton.
Action 3: Finish[Bill Clinton]Observation 3: Episode finished
CoT
Frage: Wie hieß die Mannschaft, die eine Universität in Arizona bei der
die Konferenz, die einen großen Teil des Westens der Vereinigten Staaten abdeckt.
einschließlich Arizona, Kalifornien und New Mexico?
Gedanke: Gehen wir Schritt für Schritt vor: Der Name der Mannschaft, die eine Arizona
Universität in der Konferenz, die einen weiten Teil des Westens abdeckt
Vereinigte Staaten, einschließlich Arizona, Kalifornien und New Mexico ist Arizona
State Sun Devils.
Antwort: Arizona State Sun Devils

ReAct
FRAGE: Der Autor David Charnoff arbeitete mit einem Admiral der US-Marine zusammen, der unter welchem Präsidenten britischer Botschafter war?
Reflexion 1: Ich muss David Charnoff nachschlagen und herausfinden, mit welchen Admirälen der US Navy er zusammengearbeitet hat.
行动1：搜索[大卫·查诺夫]观察1：大卫·查诺夫是一位著名的作者...
行动2：搜索[威廉·J·克洛]观察2：威廉·J·克洛是...
Denke 3: William J. Crowe war der britische Botschafter während der Präsidentschaft von Bill Clinton. Die Antwort lautet also Bill Clinton.
行动3：结束[比尔·克林顿]观察3：进行完毕
CoT
FRAGE: Welches Team, das eine Universität in Arizona vertritt, nahm an einer Konferenz teil, die ein großes Gebiet im Westen der Vereinigten Staaten abdeckte, darunter Arizona, Kalifornien und New Mexico?
Ein Denkanstoß: Gehen wir Schritt für Schritt vor. In einer Konferenz, die sich über ein großes Gebiet im Westen der Vereinigten Staaten erstreckt, darunter Arizona, Kalifornien und New Mexico, ist das Team, das eine Universität in Arizona vertritt, die Arizona State University Sun Devils.
In reply to Arizona State University Sun Devils

Vorhersagefehler/Erfolg: Falsch positiv

ReAct
Frage: Ist das Brettspiel San Marco oder About Time zuerst erschienen?
Gedanke 1: Ich muss nach San Marco und About Time suchen, um herauszufinden, was zuerst erschienen ist.
Action 1: Search[San Marco]Observation 1: San Marco is one of the ... The was built in venice.
Gedanke 2: San Marco ist ein Stadtteil von Venedig. Ich muss als Nächstes nach About Time suchen.
Action 2: Search[About Time]Observation 2: Could not find [About Time]. Similar: [...].
Gedanke 3: About Time ist ein Film aus dem Jahr 2013, also kam San Marco zuerst heraus.
Action 3: Finish[San Marco]Observation 3: Episode finished
CoT
Frage: Wurde die Vanderbilt University oder die Emory University zuerst gegründet?
Gedanke: Gehen wir Schritt für Schritt vor: Die Vanderbilt University wurde 1873 gegründet.
Die Universität wurde 1836 gegründet. 1873 (Vanderbilt University) > 1836 (Emory)
Die Universität von Vanderbilt wurde zuerst gegründet.
Antwort: Emory-Universität

ReAct
FRAGE: Welches der beiden Brettspiele, St Mark's oder About Time, kam zuerst heraus?
Gedanke 1: Ich muss herausfinden, welches Spiel zuerst veröffentlicht wird, St Mark's oder About Time.
行动1：搜索[圣马可]观察1：圣马可是... 这是在威尼斯建造的。
Denke 2: San Marco ist ein Stadtteil von Venedig. Als Nächstes muss ich About Time suchen
行动2：搜索[关于时间]观察2：未能找到[关于时间]。而是找到了[…]。
Gedanke 3: About Time war ein Film, der 2013 veröffentlicht wurde, also hätte St. Mark's die erste Veröffentlichung sein müssen.
行动3：结束搜索[圣马可]观察3：任务结束
CoT
F: Was wurde zuerst gegründet, Vanderbilt oder Emory?
Überlegungen: Erstens wurde die Vanderbilt University 1873 und die Emory University 1836 gegründet; in chronologischer Reihenfolge ist Vanderbilt (1873) später als Emory (1836), was bedeutet, dass Emory früher gegründet wurde.
Antwort: zuerst die Emory-Universität.

Fehlschlag: Begründungsfehler / Failure: Reasoning error (Fehlschlag: Begründungsfehler)

ReAct
Frage: Wie lautete der zweite Vorname der Schauspielerin, die neben Harvey besetzt wurde?
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds und Marissa Jaret Winokur in
Haarspray?
Gedanke 1: Ich muss Harvey Fierstein, Linda Hart, Dick Latessa und Clarke Thorell suchen.
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, und
Marissa Jaret Winokur, finden Sie die Schauspielerin, die neben ihnen in
Hairspray, dann finde seinen zweiten Namen.
Action 1: Search[Harvey Fierstein]Observation 1: Harvey Forbes Fierstein ...
Gedanke 2: Harvey Fierstein ist ein Schauspieler, Dramatiker und Drehbuchautor.
Suche Linda Hart als nächstes...
Aktion 2: Suche [Linda Hart]...
CoT
Frage: Wer ist älter, Danny Green oder James Worthy?
Denken wir Schritt für Schritt: Danny Green wurde 1987 geboren, James Worthy war Mitglied des Senats der Vereinigten Staaten.
geboren 1961. 1987 (Danny Green) > 1961 (James Worthy), also ist Danny Green
älter.
Antwort: Danny Green

ReAct
FRAGE: In Hairspray, zusammen mit Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds und Marissa Wie lautet der zweite Vorname der Schauspielerin, die mit Jaret Winokur auftrat?
Idee 1: Ich muss nach Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds und Marissa Jaret Winokur nachschlagen, die Schauspielerin herausfinden, die in dem Stück mitgespielt hat, und ihren zweiten Vornamen herausfinden.
动作1：搜索[Harvey Fierstein]观察1：Harvey Forbes Fierstein...
Idee Nr. 2: Harvey Fierstein ist ein Schauspieler, Dramatiker und Drehbuchautor. Als nächstes müssen Sie nach Linda Hart suchen...
Aktion 2: Suche nach [Linda Hart]...
CoT
FRAGE: Wer ist älter, Danny Green oder James Worthy?
Danny Green wurde 1987 und James Worthy 1961 geboren. 1987 (Danny Green) > 1961 (James Worthy), also ist Danny Green älter.
In reply to Danny Green

Failure: Suchfehler / Failure: Suchfehler

ReAct
Frage: Woraus besteht die Göttin, die mit der Göttin Frigg verbunden ist?
Märchen?
Gedanke 1: Ich muss die Göttin Frigg suchen und die dazugehörige Göttin finden.
Action 1: Search[goddess frigg]Observation 1: Could not find goddess frigg. Similar: [’Frigg’, ’Frigg and Freyja common
Ursprungshypothese", "Freyja (Abschnitt Beziehung zu Frigg und anderen Göttinnen
und Figuren)", "Eir (Umleitung von Eir (Göttin))", "Baldr"].
Gedanke 2: Ich muss stattdessen Frigg suchen...

ReAct
FRAGE: Welche Geschichte umfasst die Göttin Frigg im Zusammenhang mit der Göttin?
Idee Nr. 1: Ich muss nach der Göttin Frigg suchen und Göttinnen finden, die mit ihr verwandt sind.
动作1：搜索[女神Frigg]观察1：无法找到女神Frigg。相似的有：['Frigg'，'Frigg和Freyja共同起源的假说'，'Freyja（与Frigg和其他女神以及人物的关系）'，'Eir（从Eir（女神）重定向）'，'Baldr']。
Idee #2: Ich muss Frigg auf eine andere Art und Weise suchen...

Scheitern: Halluzination / Scheitern: Halluzination

CoT
Frage: In welchem Jahr wurde zum ersten Mal eine wissenschaftliche Zeitschrift von einer Organisation herausgegeben
in der Bronx veröffentlicht wurde?
Gedanke: Denken wir Schritt für Schritt: Das erste Jahr, in dem eine wissenschaftliche Zeitschrift, die von
Eine Organisation mit Sitz in der Bronx wurde 1916 veröffentlicht.
Antwort: 1916 (Etikett: 1909)

CoT
FRAGE: In welchem Jahr veröffentlichte die in der Bronx ansässige Einrichtung erstmals eine wissenschaftliche Zeitschrift?
THINK: Wir denken Schritt für Schritt. Die erste wissenschaftliche Zeitschrift, die von der in der Bronx ansässigen Einrichtung herausgegeben wurde, erschien im Jahr 1916.
Antwort: 1916 (Etikett: 1909)

Misserfolg: Mehrdeutigkeit des Etiketts / Failure: Label ambiguity / Misserfolg: Mehrdeutigkeit des Etiketts

ReAct
Frage: Welcher Nationalität ist der Mann, der das Diktatorspiel entwickelt hat?
Gedanke 1: Ich muss das Diktatorspiel suchen, den Mann finden, der es entwickelt hat, und dann seine
Nationalität.
Action 1: Search[dictator game]Observation 1: The dictator game is a popular experimental instrument in social psychology
und Wirtschaft...
Action 3: Search[Amos Tversky]Observation 3: Amos Nathan Tversky...
Gedanke 4: Amos Tversky ist ein israelischer kognitiver und mathematischer Psychologe. Die
Der Mann, der das Diktatorspiel entwickelt hat, ist Israeli.
Aktion 4: Finish[Israeli] (Bezeichnung: israelisch-amerikanisch)
CoT
Frage: Kurt Fuller aus Stockton, CA, trat in welcher amerikanischen Krimikomödie auf
Drama-Fernsehserie, geschaffen von Steve Franks?
Gedanke: Lasst uns Schritt für Schritt denken: Kurt Fuller aus Stockton, CA, erschien in Psych.
Psych ist eine amerikanische Krimi-Comedy-Drama-Fernsehserie, die von
Steve Franks.
Antwort: Psych (Bezeichnung: Psych ist ein amerikanisches Krimi-Drama)

ReAct
Frage: Welches ist das Land des Mannes, der das "Diktatorenspiel" erfunden hat?
Denkanstoß 1: Ich muss nach "Diktatorspiel" suchen, den Erfinder finden und dann seine Nationalität herausfinden.
行动1：搜索[独裁者游戏]观察1：独裁者游戏是一种在社会心理学和经济学中常见的实验工具……
行动3：搜索[Amos Tversky]观察3：阿莫斯·内森·特弗斯基……
Überlegung 4: Amos Tversky ist ein israelischer kognitiver und mathematischer Psychologe. Daher ist die Person, die das "Diktatorspiel" erfunden hat, Israeli.
Aktion 4: Schlussfolgerung [Israelis] (Tag-Notiz: Israel-USA)
CoT
FRAGE: In welcher amerikanischen Krimi-Comedy-Serie von Steve Frank spielte Kurt Fuller aus Stockton, Kalifornien, die Hauptrolle?
Denken: Gehen wir Schritt für Schritt vor. Kurt Fuller trat in Psych auf. Psych ist eine amerikanische Krimi-Comedy-Fernsehserie, die von Steve Frank geschaffen wurde.
Antwort: "Psych" (Anmerkung des Labels: "Psych" ist eine amerikanische Krimikomödie)

Nicht-Thesis-Teil, leicht verständlich, einfach zu sortierende Logik