Haftungsausschluss: Während grundlegende Hinweistechniken (z. B. keine/wenige Beispielsätze oder imperative Hinweise) sehr effizient sind, können ausgefeiltere Hinweise bei einigen komplexen Rätseln (z. B. mathematische/Programmierung oder Probleme, die mehrstufiges logisches Denken erfordern) effektiver sein. Da große Sprachmodelle (Large Language Models, LLMs) naturgemäß Schwierigkeiten haben, mit solchen Problemen umzugehen (ihre Argumentationsfähigkeit nimmt nicht monoton mit der Modellgröße zu), haben sich die meisten Forschungsarbeiten zur Entwicklung von Prompts darauf konzentriert, wie man das logische Denken und die Fähigkeit, komplexe Probleme zu lösen, verbessern kann. Für die meisten anderen Probleme sind einfache Hinweise ausreichend.
Gedankenkette (CoT)Hints [1] aktiviert die Denkfähigkeiten des LLM, indem es den Hints des Modells eine Kette von Zwischenüberlegungen hinzufügt. Durch das Hinzufügen einer Gedankenkette für jedes Beispiel lernt das Modell dann (durch kontextuelles Lernen), automatisch ähnliche Gedankenketten zu erzeugen, bevor es eine Antwort gibt. Die Studie in [1] zeigt, dass die explizite Erläuterung des Denkprozesses zur Lösung eines Problems die Denkfähigkeit des Modells tatsächlich verbessern kann.
Eingabe:
Die ungeraden Zahlen in dieser Menge ergeben eine gerade Zahl: 4, 8, 9, 15, 12, 2, 1.
A: Addiere alle ungeraden Zahlen (9, 15, 1) und du erhältst 25. Die Antwort ist falsch.Die ungeraden Zahlen in dieser Menge ergeben eine gerade Zahl: 17, 10, 19, 4, 8, 12, 24.
A: Addiere alle ungeraden Zahlen (17, 19) und du erhältst 36. Die Antwort ist Wahr.Die ungeraden Zahlen in dieser Menge ergeben eine gerade Zahl: 16, 11, 14, 4, 8, 13, 24.
A: Addiere alle ungeraden Zahlen (11, 13) und du erhältst 24. Die Antwort ist Wahr.Die ungeraden Zahlen in dieser Menge ergeben eine gerade Zahl: 17, 9, 10, 12, 13, 4, 2.
A: Addiere alle ungeraden Zahlen (17, 9, 13) und du erhältst 39. Die Antwort ist falsch.Die ungeraden Zahlen in dieser Menge ergeben eine gerade Zahl: 15, 32, 5, 13, 82, 7, 1.
A:Ausgabe:
Addiere alle ungeraden Zahlen (15, 5, 13, 7, 1) und du erhältst 41. Die Antwort ist Falsch.
Automatisierte Gedankenkette (Auto-CoT)[8]: Bei der Verwendung von Gedankenketten ist es erforderlich, effektive und vielfältige Beispiele manuell zu erstellen. Diese manuelle Arbeit kann zu suboptimalen Lösungen führen. In [8] wird eine Möglichkeit vorgeschlagen, den manuellen Aufwand zu eliminieren, indem LLMs "Denken wir Schritt für Schritt"-Aufforderungen verwendet werden, um eine Argumentationskette nach der anderen zu erzeugen. Dieser automatisierte Prozess kann dennoch Fehler in den generierten Ketten verursachen. Um die Auswirkungen von Fehlern abzuschwächen, ist eine abwechslungsreiche Präsentation wichtig. In dieser Arbeit wird Auto-CoT vorgeschlagen, das Probleme mit Vielfalt aufgreift und Argumentationsketten erzeugt, um Demonstrationen zu konstruieren.
Auto-CoT besteht aus zwei Hauptphasen:
Stufe 1: Problemclusterung: Einteilung des gegebenen Problems in mehrere Cluster
Phase 2: Demonstrationsstichproben: Auswahl eines repräsentativen Problems aus jedem Array und Generierung seiner Inferenzkette unter Verwendung von Zero-Shot-CoT mit einer einfachen Heuristik
Einfache Heuristiken können die Länge des Problems (z. B. 60 Token) und die Anzahl der Schritte in der Argumentation (z. B. 5 Inferenzschritte) sein. Dies ermutigt die Modelle, einfache und genaue Darstellungen zu verwenden.
Das Verfahren ist im Folgenden dargestellt:
CoT-VarianteAngesichts der Gültigkeit von CoT-Aufforderungen und ihrer Beliebtheit wurden mehrere abgeleitete Techniken vorgeschlagen:
- Null Beispiele CoT [2]: Entfernt einige Beispiele und motiviert das Modell, logische Überlegungen zur Lösung des Problems anzustellen, indem am Ende der Aufforderung "Denken wir Schritt für Schritt. um das Modell zu motivieren, logische Überlegungen zur Lösung des Problems anzustellen.
Eingabe:
Ich war auf dem Markt und habe 10 Äpfel gekauft. Ich gab 2 Äpfel meinem Nachbarn und 2 Äpfel dem Mechaniker. Dann habe ich 5 Äpfel gekauft und 1 gegessen. Wie viele Äpfel hatte ich noch übrig?
Lassen Sie uns Schritt für Schritt denken.
Ausgabe:
Zunächst beginnen Sie mit 10 Äpfeln.
Du hast deinem Nachbarn und dem Handwerker jeweils 2 Äpfel gegeben, also hast du noch 6 Äpfel übrig.
Dann kaufst du 5 Äpfel, so dass du jetzt 11 Äpfel hast.
Am Ende isst du 1 Apfel, so dass du 10 Äpfel übrig hast.
- Self-Consistency (SC) [3]: Erhöht die Robustheit des Argumentationsprozesses durch die unabhängige Generierung mehrerer Lösungen und die Mehrheitsabstimmung über die endgültige Antwort.
Eingabe:
F: Es gibt 15 Bäume im Wald. Die Forstarbeiter werden heute Bäume im Wald pflanzen. Wenn sie fertig sind, werden es 21 Bäume sein. Wie viele Bäume haben die Waldarbeiter heute gepflanzt?
A: Wir haben mit 15 Bäumen angefangen. Später hatten wir 21 Bäume. Die Differenz muss die Anzahl der Bäume sein, die sie gepflanzt haben. Daher müssen sie 21-15 = 6 Bäume gepflanzt haben. Die Antwort ist 6.
F: Es standen 3 Autos auf dem Parkplatz und es kamen 2 weitere Autos hinzu.
A: Es befinden sich bereits 3 Autos auf dem Parkplatz. 2 weitere Autos sind hinzugekommen. Jetzt sind es 3 + 2 = 5 Autos. Die Antwort ist 5.
F: Lea hat 32 Stück Schokolade und ihre Schwester hat 42 Stück. Wenn sie 35 Stücke gegessen haben, wie viele Stücke haben sie dann insgesamt übrig?
A: Leah hat 32 Pralinen und Leahs Schwester hat 42. Das bedeutet, dass es ursprünglich 32 + 42 = 74 Pralinen waren. 35 Stück sind bereits aufgegessen worden. Sie haben also insgesamt 74 - 35 = 39 Pralinen übrig. Die Antwort lautet 39.
F: Jason hat 20 Lutscher. Er gibt Denny einige Lutscher. Jetzt hat Jason nur noch 12 Lutscher. Wie viele Lutscher hat Jason Denny gegeben?
A: Jason hat 20 Lutscher. Da er nur noch 12 hat, muss er den Rest Denny geben. Die Anzahl der Lutscher, die er Denny gibt, muss 20 - 12 = 8 Lutscher sein. Die Antwort ist 8.
F: Shawn hat fünf Spielzeuge. Zu Weihnachten hat er zwei Spielzeuge von seinen Eltern bekommen. Wie viele Spielsachen hat er jetzt?
A: Er hat 5 Spielzeuge. Er hat 2 von seiner Mutter bekommen, also hat er 5 + 2 = 7 Spielsachen. Dann hat er 2 von seinem Vater bekommen, also hat er insgesamt 7 + 2 = 9 Spielsachen. Die Antwort ist 9.
F: Es gibt 9 Computer im Serverraum. Von Montag bis Donnerstag werden jeden Tag 5 Computer installiert. Wie viele Computer befinden sich jetzt im Serverraum?
A: Es waren 4 Tage von Montag bis Donnerstag. An jedem Tag wurden 5 Computer hinzugefügt. Das bedeutet, dass insgesamt 4 * 5 =
20 Computer. Am Anfang gab es 9 Computer, also gibt es jetzt 9 + 20 = 29 Computer. Die Antwort ist 29.
F: Michael hat 58 Golfbälle. Am Dienstag hat er 23 Golfbälle verloren. Am Mittwoch hat er 2 weitere verloren. Wie viele Golfbälle hatte er am Ende des Mittwochs noch?
A: Michael hatte ursprünglich 58 Kugeln. Am Dienstag verlor er 23, so dass er danach 58-23 = 35 Kugeln hatte. Am Mittwoch hat er 2 weitere verloren, so dass er jetzt 35-2 = 33 Kugeln hat. Die Antwort ist 33.
F: Olivia hat 23 $. Sie hat fünf Bagels für je 3 $ gekauft. Wie viel Geld hat sie noch übrig?
A: Sie hat 5 Bagels für je 3 $ gekauft. Das heißt, sie hat 15 $ ausgegeben. Sie hat noch 8 $ übrig.
F: Als ich 6 Jahre alt war, war meine Schwester halb so alt wie ich. Wenn ich jetzt 70 bin, wie alt ist meine Schwester?
A:Ausgang 1:
Als ich 6 Jahre alt war, war meine Schwester halb so alt wie ich, also 3 Jahre alt. Jetzt bin ich 70, also ist sie 70-3 = 67. Die Antwort ist 67.
Ausgang 2:
Als der Erzähler 6 Jahre alt war, war seine Schwester halb so alt wie er, also 3 Jahre alt. Jetzt, wo der Erzähler 70 ist, wäre seine Schwester 70-3 = 67. Die Antwort ist 67.
Ausgang 3:
Als ich 6 war, war meine Schwester halb so alt wie ich, also 3. Jetzt bin ich 70, also ist sie 70/2 = 35. Die Antwort ist 35.
- Least-to-Most [4]: Das Problem wird in mehrere Teile zerlegt, einer nach dem anderen gelöst, und die Antwort auf jedes Teilproblem wird dann als Kontext für die Lösung des nächsten verwendet.
Eingabe:
Kundenanfrage.
Ich habe am 1. März ein T-Shirt aus Ihrer Arnold-Kollektion gekauft. Ich habe gesehen, dass es im Angebot war, also habe ich ein T-Shirt gekauft, das ursprünglich $30 günstiger war. Ich habe bemerkt, dass Sie jetzt einen neuen T-Shirt-Rabatt haben, 50% Rabatt. Ich habe mich gefragt, ob ich es zurückgeben kann und immer noch genug Guthaben habe, um zwei Ihrer T-Shirts zu kaufen?Befehl.
Sie sind als Kundendienstmitarbeiter für die freundliche Beantwortung von Kundenanfragen zuständig. Rückgaben sind innerhalb von 30 Tagen möglich. Heute ist der 29. März. Alle Hemden sind derzeit auf 50% ermäßigt. Die Preise für Ihre Hemden in den Geschäften liegen zwischen $18-$100. Bitte erfinden Sie keine Informationen über die Rabattpolitik.
Welche Teilfragen müssen beantwortet werden, bevor diese Frage beantwortet werden kann?Ausgabe:
1. das Datum, an dem der Kunde das Hemd gekauft hat;
2. die aktuelle Rabattaktivität;
3. Preisspanne der Hemden im Geschäft;
4. ob der Kunde über ein ausreichendes Geschäftsguthaben verfügt;
5. die Politik in Bezug auf Kundenrückgaben.Eingabe:
Kundenanfrage.
Ich habe am 1. März ein T-Shirt aus Ihrer Arnold-Kollektion gekauft. Ich habe gesehen, dass es im Angebot war, also habe ich ein T-Shirt gekauft, das ursprünglich $30 günstiger war. Ich habe bemerkt, dass Sie jetzt einen neuen T-Shirt-Rabatt haben, 50% Rabatt. Ich habe mich gefragt, ob ich es zurückgeben kann und immer noch genug Guthaben habe, um zwei Ihrer T-Shirts zu kaufen?Befehl.
Sie sind als Kundendienstmitarbeiter für die freundliche Beantwortung von Kundenanfragen zuständig. Rückgaben sind innerhalb von 30 Tagen möglich. Heute ist der 29. März. Alle Hemden sind derzeit auf 50% ermäßigt. Die Preise für Ihre Hemden in den Geschäften liegen zwischen $18-$100. Bitte erfinden Sie keine Informationen über die Rabattpolitik.
Stellen Sie fest, ob der Kunde innerhalb der 30-tägigen Rückgabefrist ist. Gehen wir einen Schritt nach dem anderen.Ausgabe:
Sehr geehrte Kundin, sehr geehrter Kunde, vielen Dank für Ihre Unterstützung der Arnold-Reihe! Wir freuen uns, Ihnen unsere Dienste anbieten zu können. Unser Rückgaberecht sieht vor, dass Kunden Artikel innerhalb von 30 Tagen nach dem Kauf zurückgeben können. Da Sie Ihren Artikel am 1. März gekauft haben, befinden Sie sich noch innerhalb der Rückgabefrist und können ihn zurückgeben.
Außerdem veranstalten wir derzeit einen 50%-Verkauf, bei dem Sie Ihr Shop-Guthaben zum Kauf von zwei T-Shirts aus der Arnold-Kollektion verwenden können. Unsere Shirts reichen von $18-$100, so dass Sie das richtige Shirt für Ihre Bedürfnisse wählen können.
Wenn Sie weitere Fragen haben, können Sie uns gerne kontaktieren. Wir sind gerne für Sie da!
Baum der Gedanken [ToT].Tipp [5]: CoT-Tipps lösen keine Probleme, die Planung, strategische Voraussicht, Backtracking und die parallele Erkundung mehrerer Lösungen erfordern. toT-Tipps zerlegen komplexe Probleme in eine Reihe von einfacheren Problemen (oder "Thoughts"). lLM generiert zahlreiche "Thoughts" und bewertet kontinuierlich deren Fortschritt in Richtung einer endgültigen Lösung durch natürliche Sprache. LLM generiert zahlreiche "Thoughts" und bewertet fortlaufend deren Fortschritt auf dem Weg zur endgültigen Lösung in natürlicher Sprache. Mit Hilfe der Selbsteinschätzung des Lösungsfortschritts durch das Modell können wir weit verbreitete Suchalgorithmen anwenden (z. B. Breadth-First- oder Deep-First-Suche), um den Explorationsprozess zu erleichtern und eine Vorausschau/Rückverfolgung bei der Lösung von Problemen zu ermöglichen.
Angenommen, drei verschiedene Experten beantworten diese Frage.
Alle Experten schrieben ihre ersten Denkschritte zum Thema auf und teilten sie dann der Gruppe mit.
Alle Experten schreiben dann die nächsten Schritte ihrer Überlegungen auf und tauschen sie aus.
Und so weiter, bis alle Experten über alle Schritte in ihrem Denken geschrieben haben.
Wenn man merkt, dass die Schritte eines Experten falsch sind, sollte man diesen Experten gehen lassen.
Verzeihung, ich...
Graph der Gedanken (GoT)Hinweise [6, 7]: Die nachfolgende Forschung hat die Arbeit an ToT-Hinweisen auf graphbasierte Argumentationsstrategien ausgeweitet. Diese Verfahren ähneln den ToT-Hinweisen, gehen aber nicht davon aus, dass der Gedankengang, der zu einer Lösung führt, linear ist. Wir können Gedanken wiederverwenden und sie sogar rekursiv auf eine Reihe von Gedanken anwenden, wenn wir eine Lösung ableiten. Obwohl eine Reihe von graphenbasierten Hinweisstrategien vorgeschlagen wurden, sind diese Techniken, ebenso wie ToT-Hinweise, wegen ihres mangelnden Nutzens kritisiert worden. Die Lösung eines Denkproblems unter Verwendung von GoT-Hinweisen kann dazu führen, dass der LLM eine große Anzahl von Denkschritten durchführen muss!
Nachfolgend finden Sie Links zu allen oben zitierten Arbeiten!
[1] https://arxiv.org/abs/2201.11903
[2] https://arxiv.org/abs/2205.11916
[3] https://arxiv.org/abs/2203.11171
[4] https://arxiv.org/abs/2205.10625
[5] https://arxiv.org/abs/2305.10601
[6] https://arxiv.org/abs/2308.09687
[7] https://arxiv.org/abs/2305.16582
[8] https://arxiv.org/abs/2201.11903