SPO: Selbstüberwachende Promptwortoptimierung

AI-WissensdatenbankAktualisiert vor 5 Monaten AI-Austauschkreis

1.6K 00

Abstracts

Gut konzipierte Prompts sind wichtig, um die Argumentationsfähigkeiten von Large Language Models (LLMs) zu verbessern und gleichzeitig ihre Ergebnisse an die Aufgabenanforderungen verschiedener Domänen anzupassen. Die manuelle Erstellung von Hints erfordert jedoch Fachwissen und iteratives Experimentieren. Bestehende Methoden zur Optimierung von Hinweisen zielen darauf ab, diesen Prozess zu automatisieren, sind aber in hohem Maße auf externe Referenzen wie echte Antworten oder menschliches Feedback angewiesen, was ihre Anwendung in realen Szenarien einschränkt, in denen diese Daten nicht zur Verfügung stehen oder nur mit hohem Aufwand zu beschaffen sind. Um dieses Problem zu lösen, schlagen wir die selbstüberwachte Prompt-Optimierung (SPO) vor, ein effizientes Verfahren zur Erkennung effektiver Prompts für geschlossene und offene Aufgaben, ohne dass externe Referenzen benötigt werden. Inspiriert von der Beobachtung, dass sich die Qualität der Hinweise direkt in den LLM-Ausgaben widerspiegelt und dass LLM den Grad der Einhaltung der Aufgabenanforderungen effizient bewerten kann, leiten wir Bewertungs- und Optimierungssignale ausschließlich aus Ausgabevergleichen ab. Konkret wählt SPO durch paarweise Output-Vergleiche, die vom LLM-Evaluator ausgewertet werden, überlegene Cues aus und passt die Outputs dann durch den LLM-Optimierer an die Aufgabenanforderungen an. Ausführliche Experimente haben gezeigt, dass SPO die bestehenden hochmodernen Cue-Optimierungsmethoden übertrifft und dabei deutlich weniger kostet (z. B. nur 1,11 TP3T gegenüber 5,61 TP3T der bestehenden Methoden) und weniger Stichproben benötigt (z. B. nur drei Stichproben). Der Code ist unter https://github.com/geekan/MetaGPT获取 verfügbar.

Vollständiger Demo-Code: https://github.com/geekan/MetaGPT/blob/main/examples/spo/README.md

1. einleitung

Da sich große Sprachmodelle (Large Language Models, LLMs) ständig weiterentwickeln, sind gut konzipierte Prompts unerlässlich, um ihre Wirkung zu maximieren.logisches Denkvermögen (Wei et al., 2022; Zheng et al., 2024; Deng et al., 2023) sowie die Sicherstellung der Konsistenz mit verschiedenen Missionsanforderungen (Hong et al., 2024b; Liu et al., 2024a; Zhang et al., 2024b; Hong et al., 2024a) sind mittlerweile entscheidend. Die Erstellung wirksamer Hinweise erfordert jedoch in der Regel umfangreiche Versuche und tiefgreifende aufgabenspezifische Kenntnisse.

Um dieser Herausforderung zu begegnen, haben Forscher Methoden zur Prompt-Optimierung (PO) erforscht, die die Fähigkeiten von LLMs nutzen, um Prompts automatisch zu verbessern. PO geht über die traditionelle manuelle Prompt-Entwicklung hinaus und bietet einen systematischeren und effizienteren Ansatz für die Prompt-Gestaltung. Wie in Abbildung 1(a) dargestellt, beinhalten diese Methoden in der Regel einen iterativen Prozess der Optimierung, Ausführung und Bewertung von Prompts. Die Wahl dieser Komponenten hat einen erheblichen Einfluss auf die Effektivität und Effizienz der Optimierung. Bestehende Methoden wurden in Form von numerischen Bewertungsmechanismen (Wang et al., 2024e; Yang et al., 2024a; Fernando et al., 2024) und textuellen "Gradienten"-Optimierungsstrategien (Wang et al., 2024c; Yuksekgonul et al., 2024) entwickelt, und wurden in Form von numerischen Bewertungsmechanismen (Wang et al., 2024e; Yang et al.) al., 2024). Durch diese Innovationen haben die PO-Methoden die Aufgabenleistung verbessert und gleichzeitig den manuellen Aufwand verringert (Pryzant et al., 2023; Zhang et al., 2024a; Zhou et al., 2024).

Trotz ihres Potenzials stehen die bestehenden PO-Methoden in der Praxis vor erheblichen Herausforderungen, die im Folgenden beschrieben werden. Erstens: Aktuelle AnsätzeDas Gesetz stützt sich bei seiner Bewertung in der Regel stark auf externe Referenzen. Methoden, die authentische Antworten zur Bewertung heranziehen (Yang et al., 2024a; Fernando et al., 2024; Yuksekgonul et al., 2024; Pryzant et al., 2023), erfordern große Mengen an kommentierten Daten, um die Qualität von Hinweisen zu bewerten, aber in vielen realen Anwendungen, insbesondere bei Aufgaben mit offenem Ende, sind solche sind solche Standardantworten oft nicht verfügbar. In ähnlicher Weise erfordern manuelle Methoden (Chen et al., 2024; Lin et al., 2024) eine manuelle Bewertung oder manuell erstellte Regeln zur Erzeugung von Feedback, was sowohl zeitaufwändig ist als auch dem Ziel der Automatisierung widerspricht. Zweitens erfordern die bestehenden Methoden in der Regel die Auswertung einer großen Anzahl von Proben, um ein zuverlässiges Feedback zu erhalten, was zu einem erheblichen Rechenaufwand führt (Wang et al., 2024e; Fernando et al., 2024).

Im Mittelpunkt dieser Herausforderungen steht der Mangel an zuverlässigen und effizienten, referenzfreien Methoden zur Bewertung der Qualität von Hinweisen. Die Analyse des LLM-Verhaltens offenbart zwei wichtige Erkenntnisse, die unseren Ansatz bestimmen. Erstens spiegelt sich die Qualität von Hinweisen inhärent in der Modellausgabe wider, wie die schrittweisen Inferenzpfade zeigen, die den Erfolg von Hinweisen zum Kettendenken demonstrieren können (Wei et al., 2022; Deng et al., 2023). Zweitens haben umfangreiche Forschungsarbeiten zu LLMs als Beurteiler gezeigt, dass sie wirksam beurteilen können, inwieweit der Output den Aufgabenanforderungen folgt (Zheng et al., 2023; Li et al., 2024b). Diese Beobachtungen deuten darauf hin, dass eine Cue-Optimierung ohne Referenzierung möglich ist, indem LLMs zur Bewertung der inhärenten Fähigkeit von Outputs eingesetzt werden, die die Cue-Qualität natürlich widerspiegeln.

Inspiriert von diesen Erkenntnissen schlagen wir einen effizienten Rahmen vor, der Bewertungs- und Optimierungssignale nur aus LLM-Ausgaben generiert, ähnlich wie das selbstüberwachte Lernen Trainingssignale aus Daten ableitet. Wir bezeichnen diesen Ansatz als selbstüberwachte prompte Optimierung (SPO). Wie in Abbildung 1 dargestellt, führt SPO mehrere innovative Mechanismen ein, die auf dem grundlegenden Optimierungs-, Ausführungs- und Bewertungszyklus basieren:

Ausgabe als Referenz für die paarweise BewertungDas Herzstück von SPO ist die Verwendung von paarweisen Vergleichen, um die relative Qualität der Ergebnisse verschiedener Hinweise zu bewerten. Dieser Bewertungsmechanismus nutzt die inhärente Fähigkeit des LLM, die Anforderungen der Aufgabe zu verstehen und die Wirksamkeit der Optimierung ohne externe Referenz zu validieren.
Ausgabe als OptimierungshilfeSPO optimiert die Cues durch das Verständnis des LLM für eine bessere Lösung als die aktuell beste Leistung. Dieser Prozess passt die Änderungen der Cues auf natürliche Weise an das Verständnis des Modells für die beste Aufgabenlösung an, anstatt sich auf explizite Optimierungssignale zu verlassen.

einweihen. Unsere wichtigsten Beiträge sind nachstehend aufgeführt:

Selbstüberwachter Rahmen für die Optimierung von Hinweisen. Wir stellen SPO vor, ein neuartiges System, das paarweise Vergleiche von LLM-Ergebnissen nutzt, um die Cue-Optimierung ohne externe Referenzen zu steuern.
Optimierung der KosteneffizienzSPO optimiert die Eingabeaufforderungen mit minimalem Rechenaufwand (0,15 $ pro Datensatz) und Stichprobenanforderungen (3 Stichproben), was den Ressourcenbedarf erheblich reduziert.
Umfassende Bewertung. Wie aus Abb. 2 hervorgeht, benötigt SPO nur 1,11 TP3T bis 5,61 TP3T der Kosten bestehender Methoden, wobei die hervorragende Leistung sowohl bei geschlossenen als auch bei offenen Aufgaben erhalten bleibt.

2. vorläufig

2.1 Definition des Problems

Die Prompt-Optimierung zielt darauf ab, die Gültigkeit eines Prompts für eine bestimmte Aufgabe automatisch zu verbessern. Formal gilt: T = (Q, G_t) bezeichnet eine Aufgabe, wobei Q das Eingabeproblem und G_t ist ein optionaler Benchmark-Faktor. Das Ziel ist es, eine aufgabenspezifische Aufforderung P_t* um die Leistung bei der Aufgabe T zu maximieren. Dieses Optimierungsziel kann formell wie folgt ausgedrückt werden:

P_t = arg max_Punkt∈P* E_T∼D[ϕ_eval(ϕ_exe(Q, P_t))], (1)

wobei P den Raum aller möglichen Aufforderungen bezeichnet. Wie in Abb. 1 dargestellt, umfasst dieser Optimierungsprozess typischerweise drei Grundfunktionen: (1) die Optimierungsfunktion (ϕ_optieren): erzeugt einen geänderten Prompt auf der Grundlage der Kandidaten-Prompts; (2) die Ausführungsfunktion (ϕ_exe): Die modifizierten Hinweise werden zusammen mit dem LLM verwendet, um die Ausgabe O zu erzeugen, einschließlich des Inferenzpfads und der endgültigen Antwort; (3) die Bewertungsfunktion (ϕ_eval): Bewertung der Qualität von O und Bereitstellung von Feedback F, um weitere Optimierungen vorzunehmen und den Cue-Kandidaten iterativ zu verbessern.

Unter diesen Funktionen spielt die Bewertungsfunktion eine Schlüsselrolle, da ihre Ausgabe (Feedback F) die Bewertung und Verbesserung des Hinweises leitet. Wir werden den Bewertungsrahmen für die Cue-Optimierung in Abschnitt 2.2 erörtern.

2.2 Bewertungsrahmen für die Optimierung von Stichworten

Dieser Abschnitt gibt einen Überblick über unseren Bewertungsrahmen für die Prompt-Optimierung, der drei Schlüsselkomponenten umfasst: Bewertungsquellen, Bewertungsmethoden und Arten von Feedback, wie in Abbildung 3 dargestellt. Schließlich stellen wir unsere Wahl des Bewertungsrahmens für SPOs vor.

Quellen für die Bewertung. Wie in Abbildung 3(a) dargestellt, stehen zwei Hauptquellen für die Bewertung zur Verfügung: die vom LLM generierte Ausgabe und aufgabenspezifische authentische Antworten. Diese Quellen bilden die Grundlage für die Bewertung der prompten Leistung.

Methodik der Bewertung. Die Bewertungsmethoden legen fest, wie die Quellen der Bewertung und die damit verbundenen Kosten bewertet werden. Drei gängige Methoden sind (1) Benchmarking auf der Grundlage vordefinierter Metriken (Suzgun et al., 2023; Rein et al., 2023) oder Regeln (Chen et al., 2024). (2) LLM als Richter (Zheng et al., 2023), der die Fähigkeit des LLM nutzt, die Ergebnisse entsprechend den Aufgabenanforderungen zu verstehen und zu bewerten. (3) Manuelles Feedback (Lin et al., 2024) bietet die umfassendste Bewertung durch direkte manuelle Beurteilung des Outputs.

Manuelles Feedback bietet zwar die gründlichste Bewertung, da es die menschlichen Präferenzen und aufgabenspezifischen Bedürfnisse erfasst, verursacht aber höhere Kosten als Benchmarking oder LLM-as-Judge-Ansätze, wodurch ein Kompromiss zwischen Bewertungsqualität und Durchführbarkeit entsteht.

Art der Rückmeldung. Rückmeldungen, die durch Bewertungsmethoden generiert werden, nehmen in der Regel drei Formen an:(1) Numerische Rückmeldungen liefern quantitative Leistungsmetriken für den gesamten Datensatz. Es erfordert jedoch eine große Anzahl von Stichproben, um die Stabilität der Bewertung zu gewährleisten, und lässt möglicherweise instanzspezifische Details außer Acht (Zhang et al., 2024a). (2) Textuelle Rückmeldungen bieten umfangreiche instanzspezifische Anleitungen, indem sie analysiert werden und Vorschläge gemacht werden, die direkt Optimierungssignale erzeugen (Yuksekgonul et al., 2024). (3) Ranking- oder Selektions-Feedback (Liu et al., 2024b) erstellt eine relative Qualitätseinstufung zwischen den Ergebnissen durch ein vollständiges Ranking oder paarweise Vergleiche und gibt damit explizite Optimierungshinweise, ohne dass absolute Qualitätsmetriken erforderlich sind.

Bewertungsrahmen. Aufbauend auf den zuvor besprochenen Quellen, Methoden und Arten von Feedback legen die Bewertungsrahmen fest, wie Quellen im Rahmen der Cue-Optimierung verglichen und bewertet werden. Konkret leiten wir zwei Bewertungsrahmen für die Generierung von Feedback F für die Optimierung von Stichwörtern ab:

(1) Output vs. wahre Antwort (OvG): durch Kombination des Outputs O mit der wahren Antwort G_T Machen Sie Vergleiche, um Feedback zu erhalten:

f_OvG(O_i, G_i) = φ_eval(φ_exe(Q_i, T_pi), G**_i**)

Dieser Ansatz ermöglicht zwar eine direkte Qualitätsbewertung durch externe Referenzierung, erfordert aber klar definierte richtige Antworten und ist daher für offene Aufgaben ungeeignet, bei denen es keine richtigen Antworten gibt oder bei denen die Definition richtiger Antworten unpraktisch ist.

(2) Output vs. Output (OvO): Wenn keine richtige Antwort verfügbar ist, wenden wir uns direkten Output-Vergleichen zu. Die Kernidee von OvO ist, dass der Vergleich von Outputs, die aus verschiedenen Hinweisen generiert wurden, wertvolle Signale über ihre relative Qualität liefern kann, selbst wenn keine perfekte richtige Antwort vorliegt. Dieser Ansatz macht die Abhängigkeit von externen Referenzen überflüssig und ist besonders nützlich für offene Aufgaben mit mehreren gültigen Antworten. Er lässt sich formal wie folgt ausdrücken:

f_OvO(O₁, ... , O_k) = φ_eval({φ_exe(Q_i, P_ti)}^k_i=1)

Nach der Einführung der OvG- und OvO-Bewertungsrahmen betonen wir, dass OvO eine Kernmethode für die selbstüberwachte Prompt-Optimierung (SPO) ist. Durch den Vergleich von Outputs, die aus verschiedenen Cues generiert wurden, liefert OvO wertvolles Feedback zu deren relativer Qualität, ohne auf externe Referenzen angewiesen zu sein. Dieser Ansatz steht im Einklang mit unserem Ziel, Feedback aus den Ergebnissen selbst zu generieren und so eine iterative Optimierung sowohl für geschlossene als auch für offene Aufgaben zu ermöglichen.

3. die Optimierung der Selbstkontrolltipps

In diesem Abschnitt skizzieren wir zunächst unseren Ansatz (Abschnitt 3.1) und analysieren dann seine Wirksamkeit (Abschnitt 3.2).

3.1 Überblick über SPO

Eine zentrale Herausforderung bei der referenzfreien Optimierung besteht darin, effektive Bewertungs- und Optimierungssignale zu konstruieren. Wir schlagen Self-Supervised Prompted Optimisation (SPO) vor, ein einfaches, aber effektives Rahmenwerk für referenzfreie Optimierung, das den grundlegenden Optimierungs-Ausführungs-Bewertungs-Zyklus beibehält, aber nur die Modellausgaben als Quelle für Bewertungs- und Optimierungsanweisungen nutzt.

Wie in Algorithmus 1 dargestellt, arbeitet SPO mit drei Schlüsselkomponenten; die entsprechenden Hinweise sind in Anhang A.1 enthalten:

Optimierungsfunktionen (φ_optieren): Erzeugt einen neuen Prompt durch Analyse des aktuell besten Prompts und seiner entsprechenden Ausgabe.
Exekutivfunktion (φ_exe): Wenden Sie die generierten Eingabeaufforderungen an, um die Ausgabe zu erhalten.
Bewertungsfunktion (φ_eval): Verwenden Sie LLM, um die Ausgaben zu vergleichen und den besseren Hinweis durch paarweisen Vergleich zu bestimmen.

Dieser iterative Prozess beginnt mit einer grundlegenden Aufforderungsvorlage (z. B. Chain Thinking (Wei et al., 2022)) und einem kleinen Satz von Fragen, die aus dem Datensatz ausgewählt wurden. In jeder Iteration generiert SPO neue Prompts, führt sie aus und wertet die Ergebnisse paarweise aus, um zu beurteilen, wie gut sie den Anforderungen der Aufgabe entsprechen.

Die Assoziation dieses Hinweises mit einem besseren Ergebnis wird als bester Kandidat für die nächste Iteration ausgewählt. Der Prozess wird fortgesetzt, bis eine vorher festgelegte maximale Anzahl von Iterationen erreicht ist.

3.2 Verständnis der Wirksamkeit von SPO

Die theoretische Grundlage der SPO beruht auf zwei wichtigen Beobachtungen:

Erstens ist der Output von LLMs reich an qualitativen Informationen, die direkt die Gültigkeit des Hinweises widerspiegeln, wie die schrittweisen Argumentationspfade zeigen, die den Erfolg von Chain-Thinking-Hinweisen demonstrieren können (Wei et al., 2022). Zweitens verfügen LLMs über ein menschenähnliches Aufgabenverständnis, das es ihnen ermöglicht, die Qualität der Antworten zu bewerten und überlegene Lösungen auf der Grundlage der Aufgabenanforderungen zu identifizieren. Diese komplementären Fähigkeiten ermöglichen es SPOs, die Bewertung und Optimierung von Hinweisen ohne externe Referenzen durchzuführen. Diese beiden Aspekte der Nutzung des Modelloutputs wirken zusammen, um eine effektive Optimierung der Eingabeaufforderung zu erreichen:

Ausgabe als Optimierungshilfe. Im Fall von φ_optieren Im Gegensatz zu anderen Methoden, die eine explizite Optimierung der Signale vorsehen (Fernando et al., 2024; Yuksekgonul et al., 2024; Pryzant et al., 2023), ist φ_optieren Die Optimierung basiert direkt auf den Hinweisen und ihren entsprechenden Ergebnissen. Die Optimierungssignale ergeben sich aus der dem LLM innewohnenden Fähigkeit, die Qualität der Ergebnisse zu bewerten, während das Optimierungsverhalten von seinem Verständnis dessen geleitet wird, was eine bessere Lösung darstellt. Selbst wenn es keine expliziten Optimierungssignale gibt, lenkt die SPO-Optimierung die Hinweise also im Wesentlichen auf das optimale Verständnis der Aufgabe durch den LLM.

Ausgabe als Referenz für die paarweise Auswertung. Über φ_eval Indem wir dem Bewertungsmodell die Möglichkeit geben, eine paarweise Auswahl vorzunehmen, nutzen wir das inhärente Präferenzverständnis des Bewertungsmodells für die Aufgabe. Dieses interne Signal kann durch einfache paarweise Vergleiche der Ergebnisse gewonnen werden, so dass keine große Anzahl von Stichproben erforderlich ist, um die Stabilität des Scorings zu gewährleisten, wie dies bei Scoring-Feedback-Methoden oft der Fall ist.

Obwohl wir mögliche Verzerrungen durch vier Runden randomisierter Bewertungen abmildern, können diese Verzerrungen nicht vollständig beseitigt werden (Zhou et al., 2024). Diese Verzerrungen haben jedoch keinen Einfluss auf den allgemeinen Optimierungstrend, da das Feedback von eval nur als Referenz für die nächste Optimierungsrunde verwendet wird. Der gesamte Optimierungsprozess ist natürlich auf das Aufgabenverständnis des Optimierungsmodells abgestimmt, und der Eval-Mechanismus wird nur zur Validierung der Wirksamkeit jeder Iteration verwendet.

4) Experimente

4.1 Versuchsaufbau

Datensatz. Wir haben SPO an einer Reihe von Aufgaben evaluiert, darunter sowohl geschlossene als auch offene Aufgaben, um seine Wirksamkeit umfassend zu bewerten.

Für die geschlossene Aufgabe haben wir fünf etablierte Benchmarks verwendet:

GPQA (Rein et al., 2023)
AGIEval-MATH (Zhong et al., 2024)
LIAR (Wang, 2017)
WSC (Levesque et al., 2012)
BBH-navigieren (Suzgun et al., 2023)

Für WSC, LIAR und BBH-Navigate folgen wir Yan et al. (2024) und verwenden Teile des Originaldatensatzes als Testsatz. Für GPQA verwenden wir die anspruchsvollere Teilmenge GPQA-Diamond als Testsatz, während wir für AGIEval-Math Probleme der Stufe 5 als Testsatz verwenden. Für offene Aufgaben haben wir Schreib-, Rollenspiel- und geisteswissenschaftliche Aufgaben aus MT-Bench (Zheng et al., 2023) ausgewählt. Angesichts der begrenzten Größe des Datensatzes haben wir drei Validierungssätze für diese Aufgaben manuell erstellt. Eine detaillierte Beschreibung der Datensätze und der Verfahren zur Erstellung der Validierungs- und Testsätze finden Sie in Anhang A.3.

Basislinie (in der geodätischen Vermessung). Wir haben SPO an geschlossenen Aufgaben für zwei Klassen von Methoden evaluiert: (1) traditionelle Prompting-Methoden, einschließlich io (direkte LLM-Aufrufe), chainthink (Wei et al., 2022), rewording (Deng et al., 2023) und fallback abstraction (Zheng et al., 2024); und (2) automatische Prompting-Optimierungsmethoden, einschließlich APE ( Zhou et al., 2023), OPRO (Yang et al., 2024a), PromptAgent (Wang et al., 2024e), PromptBreeder (Fernando et al., 2024) und TextGrad (Yuksekgonul et al., 2024), deren Bewertung auf einer Reihe von Algorithmen basiert, wie APE (Deng et al., 2023) und Fallback-Abstraktion (Zheng et al., 2024); und (2) automatische Prompt-Optimierungsmethoden, einschließlich APE ( 2024), deren Bewertungsrahmeneinstellungen in Tabelle 2 aufgeführt sind.

Für die offene Aufgabe in MT-Bench (Zheng et al., 2023) verwendeten wir GPT-4o, um die von SPO erzeugte Ausgabe mit der direkt vom Modell erzeugten zu vergleichen.

4.2 Experimentelle Ergebnisse und Analysen

Die wichtigsten Ergebnisse des geschlossenen Mandats. Wie in Tabelle 1 gezeigt, übertreffen SPO-optimierte Prompts im Durchschnitt alle traditionellen Prompting-Methoden und übertreffen die optimale Basislinie um 1,9. Gleichzeitig ist die Leistung vergleichbar mit Prompt-Optimierungsmethoden, die sich auf wahrheitsgemäße Antworten in den meisten Datensätzen stützen, und erreicht optimale Ergebnisse in den GPQA- und BBH-navigate-Datensätzen. Insbesondere der durchschnittliche Leistungsvorteil von SPO gegenüber anderen Optimierungsmethoden deutet darauf hin, dass seine paarweise Bewertungsmethode in der Lage ist, effizientere Optimierungssignale zu erzeugen als andere Methoden, die sich auf externe Referenzen stützen. Um die Effektivität unserer Methode über verschiedene Optimierungsmodelle hinweg zu validieren, haben wir außerdem Experimente mit GPT-4o als Optimierungsmodell durchgeführt und eine durchschnittliche Leistung von 66,3 erzielt. Obwohl dies etwas niedriger ist als die Ergebnisse, die mit Claude-3-5-Sonnet als Optimierungsmodell erzielt wurden, ist dies immer noch die drittbeste Leistung aller verglichenen Methoden.

Kostenanalyse. Einen umfassenden Vergleich der Optimierungskosten und der Leistung von SPO (unter Verwendung von Claude-3.5-Sonnet und GPT-4o als Optimierungsmodelle) mit anderen Optimierungsmethoden finden Sie in Tabelle 1. Bei vergleichbarer Leistung mit anderen Hinweis-Optimierungsmethoden, die auf realen Antworten beruhen, erfordert SPO nur Optimierungskosten von 1,11 TP3T bis 5,61 TP3T, mit durchschnittlichen Optimierungskosten pro Datensatz von $0.15. Diese erhebliche Verringerung des Rechenaufwands in Verbindung mit der fehlenden Abhängigkeit von echten Antworten macht SPO für reale Anwendungen sehr attraktiv.

Tabelle 3: Leistungsvergleich von BBH-navigate: Cueing-Methoden (IO und COT) und SPO unter Verwendung verschiedener Bewertungsmodelle (Zeilen) und Ausführungsmodelle (Spalten). Das Optimierungsmodell ist auf Claude-3.5-Sonnet eingestellt.

	GPT-4o-mini	Llama3-70B	Claude-3-Haiku
IO	91.3	82.7	62.2
COT	89.7	86.2	68
Claude-3.5-Sonnet	95	86.8	68.2
Llama3-70B	94.5	94.2	82.0
GPT-4o-mini	97.8	90.7	82.0

Studien zur Ablation. Um die Übertragbarkeit von SPO auf verschiedene Optimierungs-, Bewertungs- und Ausführungsmodelle zu beurteilen, haben wir Ablationsexperimente mit dem BBH-Navigate-Datensatz durchgeführt. Die experimentellen Ergebnisse in den Tabellen 3 und 4 zeigen, dass SPO eine robuste Leistung über verschiedene Modelle hinweg aufweist. Die beste Leistung (97,8) wurde bei der Verwendung von GPT-4o-mini als Optimierungs-, Ausführungs- und Bewertungsmodell erzielt. In Bezug auf die Ausführung verbesserte SPO die Leistung des schwächeren Modells effektiv, indem es Claude-3-Haiku von 62,2 auf 89,7 steigerte, was die Fähigkeit von SPO demonstriert, auf das schwächere Modell angewendet zu werden und sein Potenzial für realistische Anwendungen weiter auszubauen.

Tabelle 4: Leistungsvergleich von BBH-navigate mit verschiedenen Optimierungsmodellen (Zeilen) und Ausführungsmodellen (Spalten). Das Bewertungsmodell ist auf GPT-4o-mini festgelegt.

	GPT-4o-mini	Llama3-70B	Claude-3-Haiku
Claude-3.5-Sonnet	97.2	86.7	89.7
GPT-40	96.3	85.5	73.0
GPT-4o-mini	97.8	90.7	82.0
DeepSeek-V3	94.7	83.7	77.2

Wir haben eine Ablationsstudie durchgeführt, um die Auswirkungen der Stichprobengröße auf die SPO-Leistung anhand des BBH-Navigate-Datensatzes zu untersuchen (siehe Abbildung 5). Die Leistungskurven für alle drei Optimierungsmodelle zeigen ein ähnliches Muster: Die Leistung verbessert sich zunächst mit zunehmender Stichprobengröße, pendelt sich aber schließlich ein oder nimmt ab. Dieses Phänomen lässt sich auf zwei Faktoren zurückführen: Unzureichende Stichproben können zu einer Überanpassung bei der Cue-Optimierung führen, während zu viele Stichproben nicht nur die Rechenkosten erhöhen, sondern auch zu einem längeren Kontext für die Bewertung des Modells führen, was die Qualität der Bewertung verringern kann. Auf der Grundlage umfangreicher Experimente haben wir festgestellt, dass eine Stichprobengröße von 3 das beste Gleichgewicht zwischen Kosteneffizienz und Leistung darstellt.

Die wichtigsten Ergebnisse des unbefristeten MandatsUm die Fähigkeiten von SPO bei offenen Aufgaben zu überprüfen, haben wir drei Kategorien aus der MT-Bench ausgewählt. Um die Fähigkeiten von SPO bei offenen Aufgaben zu validieren, wählten wir drei Kategorien aus der MT-Bench zur Bewertung aus: "Writing", "Role Playing" und "Humanities ". Wir verwendeten Claude-3.5-Sonnet als Optimierungsmodell, Gpt-4o-mini als Bewertungsmodell und wählten Claude-3.5-Sonnet, DeepSeek-V3 und GPT-4omini als Ausführungsmodelle für fünf Iterationen. In Anlehnung an die Bewertungsmethode in (Zheng et al., 2023) verwendeten wir anschließend GPT-4o, um die Ergebnisse von Modell A und Modell B paarweise zu vergleichen (siehe Abb. 6). Die in Abb. 6 dargestellten experimentellen Ergebnisse zeigen, dass SPO die Modellleistung bei allen Modellkonfigurationen deutlich verbessert. Es ist erwähnenswert, dass kleinere Modelle, die Optimierungshinweise verwenden (z. B. GPT-4omini), in den meisten Fällen größere Modelle übertreffen.

4.3 Fallstudien

Wir zeigen die Optimierungsergebnisse für die zusätzliche offene Aufgabe ohne den Datensatz sowie die Optimierungskurve von SPO in Anhang A.4. Wir stellen auch die optimalen Hinweise, die SPO für die fünf geschlossenen Aufgaben gefunden hat, im Zusatzmaterial zur Verfügung. Da reale Anwendungen oft mit dem Problem begrenzter Datensätze konfrontiert sind, evaluieren wir die Leistung von SPO bei Aufgaben ohne traditionelle Benchmarks. Die experimentellen Ergebnisse in Verbindung mit der Kosteneffizienz von SPO zeigen seinen praktischen Wert in realen Szenarien. Insbesondere zeigen wir die Optimierungsergebnisse nach 10 Iterationen unter Verwendung von Claude-3.5-Sonnet als Optimierungsmodell, GPT-4o-mini als Evaluierungsmodell und Llama3-8B als Ausführungsmodell, das die vier Aufgaben Werbedesign, Social-Media-Inhalte, Schreiben moderner Gedichte und konzeptionelle Erklärungen abdeckt. Darüber hinaus bieten wir in Anhang A.4.1 eine umfassende Analyse des Optimierungsverlaufs von SPO auf dem BBH-navigate-Datensatz mit erfolgreichen und erfolglosen Beispielen, um tiefere Einblicke in den Optimierungsprozess zu geben.

5. verwandte Arbeiten

5.1 Cue Engineering

Die Forschung zu effektiven Prompting-Methoden wurde in zwei Hauptrichtungen durchgeführt. Die erste Richtung konzentriert sich auf aufgabenunabhängige Prompting-Techniken, die die Generalisierbarkeit von LLMs verbessern. Zu den bemerkenswerten Beispielen gehören das Kettendenken (Wei et al., 2022; Kojima et al., 2022), das das logische Denken bei einer Vielzahl von Aufgaben verbessert, Techniken zur Verbesserung des einmaligen logischen Denkens (Deng et al., 2023; Zheng et al., 2024; Wang et al., 2024d) und für die Spezifikation des Ausgabeformats Methoden (Zhang et al., 2024a; He et al., 2024; Tam et al., 2024). Diese Techniken liefern wichtige Optimierungsgrundlagen für Studien zur Optimierung von Autocues durch menschliche Einsicht und umfangreiche experimentelle Entwicklung.

Die zweite Richtung befasst sich mit domänenspezifischen Hinweisen, und Forscher haben neue Ansätze für die Codegenerierung (Hong et al., 2024b; Ridnik et al., 2024; Shen et al., 2024a), Datenanalyse (Hong et al., 2024a; Liu et al., 2024a; Li et al., 2024a), Befragung ( Wu et al., 2024b; Zhu et al., 2024; Yang et al., 2024b), Entscheidungsfindung (Zhang et al., 2024b; Wang et al., 2024a) und andere Bereiche (Guo et al., 2024b; Ye et al., 2024; Shen et al., 2024b). ) haben spezielle Techniken entwickelt. Da sich die Anwendung von LLMs jedoch auf immer komplexere reale Szenarien ausdehnt, wird es unpraktisch, effektive Hinweise für jeden Bereich manuell zu erstellen (Zhang et al., 2024a). Diese Herausforderung hat die Forschung im Bereich der Cue-Optimierung motiviert, die darauf abzielt, systematisch effektive domänenspezifische Cues zu entwickeln, anstatt allgemeine Cue-Prinzipien zu entdecken.

5.2 Optimierung der Stichwörter

Bei der prompten Optimierung (PO) ist der Entwurf des Bewertungsrahmens von entscheidender Bedeutung, da er die Effektivität und die Recheneffizienz der Optimierung bestimmt. Die Entwicklung der Bewertungsmechanismen in der PO hat sich von der einfachen Sammlung von Bewertungsrückmeldungen bis hin zur Erzeugung komplexer Optimierungssignale entwickelt (Chang et al., 2024). Bestehende PO-Methoden können nach ihren Bewertungsquellen und -mechanismen kategorisiert werden.

Der gängigste Ansatz stützt sich auf authentische Antworten als Bewertungsquelle, wobei numerische Bewertungen auf der Grundlage von Benchmarks verwendet werden (Zhou et al., 2023; Guo et al., 2024a; Yang et al., 2024a; Fernando et al., 2024; Wang et al., 2024e; Khattab et al., 2023 ). Diese Methoden haben sich zwar bei bestimmten Aufgaben bewährt, erfordern aber in der Regel eine große Anzahl von Iterationen und Stichproben, um die Stabilität der Auswertung zu gewährleisten, was zu einem erheblichen Rechenaufwand führt.

Um den Bedarf an Stichproben zu reduzieren, verwenden einige Methoden (Yan et al., 2024; Yuksekgonul et al., 2024; Wu et al., 2024a; Wang et al., 2024c; Pryzant et al., 2023; Li et al., 2025) LLMs als Richter (Zheng et al. ..., 2023), um detailliertes textuelles Feedback zu erzeugen. Obwohl dieser Ansatz reichhaltigere Bewertungssignale liefert und weniger Stichproben benötigt, ist er immer noch auf reale Antwortdaten angewiesen, was seine Anwendung auf offene Aufgaben beschränkt, bei denen es möglicherweise keine Referenzantworten gibt.

Alternative Ansätze konzentrieren sich auf menschliche Präferenzen, durch manuell entworfene Bewertungsregeln oder direktes menschliches Feedback (Chen et al., 2024; Lin et al., 2024). Während diese Ansätze für Aufgaben mit offenem Ende effektiv sein können, widerspricht ihre Notwendigkeit einer umfangreichen menschlichen Beteiligung dem Ziel der Automatisierung. In der Zwischenzeit haben einige Forscher andere Bewertungskriterien erforscht, wie z. B. den Vorschlag von Zhang et al. (2024c), die Validität von Hinweisen anhand der Konsistenz der Ergebnisse zu bewerten. Dieser Ansatz steht jedoch vor einer grundlegenden Herausforderung: Die nicht lineare Beziehung zwischen Konsistenz und Validität führt in der Regel zu schlechten Bewertungssignalen.

Im Gegensatz zu diesen Methoden führt SPO ein neues Bewertungsparadigma ein, das die Abhängigkeit von externen Referenzen eliminiert und gleichzeitig die Effizienz beibehält. Da SPO die Modellergebnisse nur durch paarweise Vergleiche nutzt, ermöglicht es eine robuste Bewertung, ohne dass echte Antworten, menschliches Feedback oder umfangreiche Stichproben erforderlich sind, was es besonders für realistische Anwendungen geeignet macht.

6. schlussfolgerung

Dieses Papier befasst sich mit einer grundlegenden Herausforderung bei der Cued-Optimierung: der Abhängigkeit von externen Referenzen, die realistische Anwendungen einschränkt. Wir stellen die Self-Supervised Prompt Optimisation (SPO) vor, einen Rahmen, der diese Abhängigkeit überwindet und gleichzeitig einen Rahmen implementiert, bei dem jeder Datensatz nur $0.15 SPO nutzt die Inspiration des selbstüberwachten Lernens, um auf innovative Weise Bewertungs- und Optimierungssignale durch paarweise Vergleiche von Modellergebnissen zu konstruieren, was eine referenzfreie Optimierung ohne Kompromisse bei der Wirksamkeit ermöglicht.

Unsere umfassende Evaluierung zeigt, dass SPO sowohl bei geschlossenen als auch bei offenen Aufgaben die bestehenden State-of-the-Art-Methoden übertrifft und State-of-the-Art-Ergebnisse mit einem Aufwand von nur 1,11 TP3T gegenüber 5,61 TP3T der bestehenden Methoden erzielt. Der Erfolg in Standard-Benchmarks und verschiedenen realen Anwendungen bestätigt die Effektivität und Generalisierbarkeit von SPO. Durch die signifikante Verringerung des Ressourcenbedarfs und der operativen Komplexität stellt SPO einen bedeutenden Fortschritt dar, um die Cueing-Optimierung in realen Anwendungen zugänglich und praktikabel zu machen, mit dem Potenzial, die Einführung von LLM-Technologien in einer Vielzahl von Bereichen zu beschleunigen.

Erklärung zu den Auswirkungen

SPO bietet bedeutende Fortschritte bei der Entwicklung von Hinweisen für LLMs und bietet Vorteile wie die Demokratisierung des Zugangs, die Senkung der Kosten und die Verbesserung der Leistung in einem breiten Spektrum von Aufgaben. Sie birgt jedoch auch Risiken, einschließlich der potenziellen Verstärkung von Verzerrungen, der Verwendung von schädlichen Inhalten und der übermäßigen Abhängigkeit von LLMs.

A. Anhang

A.1 Detaillierte Tipps für SPOs

In diesem Abschnitt zeigen wir Meta-Hinweise für die Iteration. Beachten Sie, dass wir hier nur die einfachsten und unkompliziertesten Hinweise verwendet haben. Es gibt noch Raum für Verbesserungen, indem die folgenden Meta-Hinweise für bestimmte Bereiche optimiert werden.

Tipps zur Optimierung der Funktionalität

Diese Prompt-Vorlage leitet LLMs an, bestehende Prompts durch eine strukturierte XML-Analyse iterativ zu verbessern. Dazu müssen Schwachstellen in der Ausgabe des Referenz-Prompts identifiziert, Änderungen vorgeschlagen und optimierte Versionen erstellt werden. Die Vorlage legt den Schwerpunkt auf inkrementelle Verbesserungen bei gleichzeitiger Wahrung der Konsistenz der Anforderungen.

Tipps zur Auswertung von Funktionen

Die Bewertungsvorlage verwendet eine vergleichende Analyse, um die Qualität einer Antwort zu bewerten. Sie erfordert eine XML-formatierte, begründete Analyse der Stärken und Schwächen von zwei Antworten (A/B), gefolgt von einer klaren Entscheidung.

A.2 Detaillierte Aufforderungsvorlage für den Beginn einer Iteration

Diese YAML-Datei zeigt unsere Ausgangskonfiguration für die Iteration der Aufgabe BBH-navigate. Durch die Konfiguration einer einfachen anfänglichen Aufforderung und Anforderung sowie drei spezifischer Fragen kann eine iterative Optimierung durchgeführt werden. Es ist wichtig zu beachten, dass der hier gezeigte Inhalt der vollständige Inhalt der Datei ist; der Inhalt im Abschnitt "Antworten" ist nicht die eigentliche Antwort, sondern dient eher als Referenz für den Denkprozess und das richtige Ausgabeformat.

A.3 Einzelheiten des Experiments

A.3.1 Aufgaben- und Datendetails

LIAR
LIAR (Wang, 2017) ist ein englischsprachiger Datensatz zur Erkennung von Fake News mit 4000 Aussagen, die jeweils mit Kontextinformationen und Lügenkennzeichnungen versehen sind. In unseren Experimenten folgen wir der Methode von Yan et al. (2024) und wählen Teile des Originaldatensatzes als Testset aus.

BBH-Navigieren
BBH-Navigate (Suzgun et al., 2023) ist eine Aufgabe aus dem BIG-bench Hard-Datensatz, einer Teilmenge des BIG-Bench-Datensatzes. Bei dieser Aufgabe liegt der Schwerpunkt auf der Navigation und das Modell muss bestimmen, ob ein Agent nach einer Reihe von Navigationsschritten zu seinem Ausgangspunkt zurückkehrt. In unseren Experimenten verwendeten wir Zufallsstichproben (seed = 42), um 200/25/25 Test/Train/Validate-Splits zu erhalten.

Tabelle A1. Größe des Datensatzes und Datenpartitionierung

Name des Datensatzes	Prüfung (Maschinen usw.)	Ausbildung & Validierung
LIAR	461	3681
BBH-Navigieren	200	50
WSC	150	50
AGIEval-MATH	256	232
GPQA	198	250
MT-Bank	80	0

WSC
Die Winograd Schema Challenge (WSC) (Levesque et al., 2012) ist ein Benchmark, der dazu dient, die Fähigkeit eines Systems zu bewerten, durch Parsen von Pronomenreferenzen im Kontext Commonsense-Schlussfolgerungen zu ziehen. In unseren Experimenten folgen wir Yan et al. (2024) und wählen Teile des Originaldatensatzes als Testset aus.

AGIEval-MATH
AGIEval-MATH (Zhong et al., 2024) ist eine Teilmenge des AGIEval-Benchmarks, die sich auf mathematische Problemlösungsaufgaben konzentriert. Er umfasst eine Vielzahl von mathematischen Aufgaben, mit denen das logische Denken und die Rechenfähigkeiten bewertet werden sollen. In unseren Experimenten verwenden wir Probleme der Stufe 5 als Testset und Probleme der Stufe 4 als Trainings- und Validierungsset.

GPQA
GPQA (Rein et al., 2023) ist ein Datensatz, der entwickelt wurde, um die Leistung von Sprachmodellen bei Fragen auf Graduiertenebene in einer Vielzahl von Disziplinen, darunter Biologie, Physik und Chemie, zu bewerten. In unseren Experimenten verwenden wir die Teilmenge GPQA-Diamond als Testdatensatz, während wir unsere Trainings- und Validierungsdatensätze aus Problemen konstruieren, die nur in GPQA-Main vorhanden sind (d. h. solche, die in GPQA-Main, aber nicht in GPQA-Diamond vorhanden sind).

MT-Bank
MT-Bench (Zheng et al., 2023) ist ein Multi-Task-Benchmark, mit dem die Generalisierungsfähigkeit von Sprachmodellen bei einer Reihe von Aufgaben wie Textkategorisierung, Zusammenfassung und Frage und Antwort bewertet werden kann. In unseren Experimenten haben wir Schreib-, Rollenspiel- und geisteswissenschaftliche Aufgaben aus MT-Bench ausgewählt. Diese Validierungsfragen sind im ergänzenden Material zu finden.

A.3.2 Konfiguration

In unseren Experimenten haben wir verschiedene Optimierungsframeworks so konfiguriert, dass ihre Optimierungskosten so einheitlich wie möglich bleiben. Diese Frameworks erlauben in der Regel die Einstellung einer Reihe von Parametern zur Anpassung der Optimierungskosten, einschließlich der Anzahl der Iterationen und der Anzahl der pro Iteration generierten Hinweise.

APE
APE verwendet einen iterativen Optimierungsprozess über drei Runden, wobei in jeder Runde die besten 10% (Verhältnis = 0,1) Stichwörter des aktuellen Pools als Elite-Stichwörter ausgewählt werden. Um die Vielfalt und die Größe des Pools von Stichwörtern aufrechtzuerhalten, werden diese Elite-Stichwörter durch Variantenauswahl so verändert, dass die Gesamtzahl der Stichwörter bei 50 bleibt. In Anlehnung an die ursprüngliche Arbeit (Zhou et al., 2023) beinhaltet der Optimierungsprozess keine stichprobenspezifischen Ausführungsergebnisse, um die LLM-Stichwörter zu optimieren. Stattdessen werden die Leistungswerte durch die Bewertung der Cues auf dem gesamten Trainingssatz ermittelt.

OPRO
OPRO verwendet einen iterativen Optimierungsprozess mit 10 Runden, der 10 Kandidaten pro Runde generiert. OPRO bewertet die Leistung der Cues auf dem gesamten Trainingsdatensatz und filtert auf der Grundlage der Bewertungsergebnisse. OPRO unterhält keinen Pool von Cues mit fester Größe, sondern generiert neue Kandidaten direkt auf der Grundlage des aktuell besten Cues in jeder Runde. Die Richtung der Optimierung wird durch die Leistungsbewertung der gesamten Trainingsdaten bestimmt.

PromptAgent
Mit Ausnahme des Liar-Datensatzes, bei dem wir 150 Daten sowohl aus dem Trainings- als auch aus dem Validierungsdatensatz entnommen haben, folgen die anderen Datensätze den in Tabelle A1 angegebenen Größen.PromptAgent verwendet das Monte-Carlo-Tree-Search-Framework (MCTS) zur Optimierung der Prompts. Es beginnt mit einem anfänglichen Hinweis und generiert neue Kandidaten auf der Grundlage von Modellfehler-Feedback. Der Prozess wird durch die Verwendung von Benchmark-Evaluierungen auf einer Stichproben-Trainingsmenge gesteuert, um Wege mit hohem Ertrag zur Verbesserung der Aufgabenleistung zu identifizieren. Abschließend werden die ersten 5 Cues, die in der Validierungsmenge am besten abschneiden, getestet und der beste ausgewählt. Zu den wichtigsten Parametern von MCTS gehören eine Expansionsbreite von 3, eine Tiefenbegrenzung von 8 und 12 Iterationen.

PromptBreeder
In unserer Implementierung von PromptBreeder haben wir das System so konfiguriert, dass es 5 Varianten und 5 Denkstile für die Initialisierung verwendet. Der Evolutionsprozess läuft über 20 Generationen, wobei jede Generation 20 Bewertungen an einem zufällig ausgewählten Trainingsbeispiel durchführt. Das Optimierungsmodell ist standardmäßig auf Claude-3.5-Sonnet und das Ausführungsmodell standardmäßig auf GPT-4o-mini eingestellt.

TextGrad
TextGrad verwendet einen Optimierungsprozess mit drei Epochen und drei Schritten pro Epoche (epoch_{-3}, steps_{-3}), um einen stochastischen Gradientenabstieg mit einer Losgröße von drei durchzuführen. Bei jedem Schritt generiert TextGrad Gradienten über Rückmeldungen aus dem Optimierer LLM (Claude-3.5-Sonnet), um die Systemhinweise zu aktualisieren. Das System verfügt über einen validierungsbasierten Reduktionsmechanismus - wenn der aktualisierte Cue in der Validierungsmenge schlechter abschneidet als in der vorherigen Iteration, wird die Aktualisierung abgelehnt und der Cue wird auf seinen vorherigen Zustand zurückgesetzt. Der Optimierungsprozess wird durch die Evaluierung der Cues unter Verwendung von Claude-3.5-Sonnet als Evaluierungs-LLM gesteuert, während die tatsächliche Aufgabenausführung GPT-4o-mini als Ausführungs-LLM verwendet.Unsere experimentellen Konfigurationen folgen den Cue-Optimierungseinstellungen, die im offiziellen TextGrad-Repository bereitgestellt werden (Yuksekgonul et al., 2024).

SPO
SPO optimiert, indem es 10 Iterationen pro Aufgabe durchführt, wobei für jede Iteration 3 Fragen (ohne Antworten) zufällig aus dem vorpartitionierten Train&Validate-Datensatz ausgewählt werden. Das Optimierungsmodell ist standardmäßig Claude-3.5-Sonnet, das Bewertungsmodell standardmäßig GPT-4o-mini und das Ausführungsmodell standardmäßig GPT-4o-mini. Es ist bemerkenswert, dass SPO eine effektive Cued-Optimierung erreicht, indem es nur Fragen ohne echte Antworten verwendet, was seine Fähigkeiten bestätigt.

A.3.3 Grundlegende Eingabeaufforderungen

In diesem Abschnitt stellen wir die zum Vergleich herangezogenen Basis-Cues vor. Beachten Sie, dass wir für alle Optimierungsbemühungen, die eine erste Iteration von Cues erfordern, immer die unten dargestellten COT-Cues bereitstellen.

Achten Sie darauf, dass die Antwort in folgendem Format endet: Antwort.

A.3.4 Tipps zur SPO-Optimierung

In diesem Abschnitt zeigen wir die Optimierungshinweise, die wir in unseren Hauptexperimenten erhalten haben, wobei Claude-3.5-Sonnet als Optimierungsmodell und GPT-4o-mini als Bewertungs- und Ausführungsmodell diente.

GPQA-Tipps

Bitte beachten Sie die nachstehenden Leitlinien, um Fragen effizient und effektiv zu beantworten:

Lesen Sie die gesamte Frage sorgfältig durch und identifizieren Sie alle relevanten Informationen und Schlüsselbegriffe.
Wählen Sie je nach Art des Problems die am besten geeignete Problemlösungsmethode.
Führen Sie die folgenden Schritte aus, um das Problem zu lösen:
a. Angabe aller relevanten Formeln, Grundsätze oder Annahmen
b. Zeigen Sie alle erforderlichen Berechnungen oder konzeptionellen Analysen
c. Bewerten Sie alle Antwortmöglichkeiten und erklären Sie, warum die falsche Antwort falsch ist (falls zutreffend).
Gliedern Sie Ihre Antwort nach der folgenden Struktur:

[Analyse]

Kurze Darstellung des Hauptthemas und der Schlüsselbotschaften (maximal 2-3 Sätze)

[Lösung]

Schritt-für-Schritt-Darstellung Ihrer Arbeit, einschließlich aller relevanten Berechnungen und Begründungen
Klare, logische Erklärungen zu konzeptionellen Fragen geben

[Schlussfolgerung]

Geben Sie die endgültige Antwort in einem klaren Satz an

Erläutern Sie kurz, warum diese Antwort richtig ist und die anderen Antworten falsch sind (falls zutreffend)

[ein Buchstabe steht für die richtige Option]

Passen Sie diese Struktur an verschiedene Problemtypen an und achten Sie dabei auf Klarheit und Einfachheit. Stellen Sie sicher, dass Ihre Antwort alle Aspekte des Problems anspricht und einen klaren Problemlösungsprozess aufzeigt.

BBH-Navigate Tipps

Bitte folgen Sie den nachstehenden Schritten, um die gegebenen Anweisungen zu analysieren:

Geben Sie die Anfangsbedingungen an:
- Startpunkt: (0, 0)
- Ausgangsrichtung: positive x-Achse (sofern nicht anders angegeben)
Verwenden Sie das Koordinatensystem:
- x-Achse: links (-) und rechts (+)
- y-Achse: rückwärts (-) und vorwärts (+)
Analysieren Sie jeden Schritt:
- Bei vagen Anweisungen (z. B. "mach X Schritte" ohne Richtungsangabe) ist von einer Vorwärtsbewegung auszugehen.
- Koordinaten nach jeder Bewegung aktualisieren
- Erläutern Sie kurz alle getroffenen Annahmen
Nach der Analyse aller Schritte:
- Fassen Sie die Gesamtbewegung in jeder Richtung zusammen
- Angabe des endgültigen Standpunkts
Vergleichen Sie die Endposition mit der Ausgangsposition:
- Berechnen Sie die Entfernung von (0, 0)
Geben Sie eine knappe Begründung mit dem Vermerk "Begründung" an.
- Erklären Sie die wichtigsten Spielzüge und ihre Auswirkungen auf die Position
- Begründen Sie Ihre Schlussfolgerungen
Geben Sie Ihre endgültige Antwort mit dem Vermerk "Endgültige Antwort" an.

Beenden Sie Ihre Antwort in folgendem XML-Format: [ja oder nein]

Stellen Sie sicher, dass Ihre Analysen an alle Problemtypen angepasst sind und sowohl spezifische als auch vage Anweisungen berücksichtigen.

LIAR-Tipps

Analysieren Sie die vorgegebene(n) Aussage(n) sorgfältig und befolgen Sie die unten stehenden Schritte für jede Frage:

Berücksichtigen Sie die Aussage, den Hintergrund des Sprechers (falls vorhanden) und den Kontext.
Recherchieren und zitieren Sie relevante Fakten und Zahlen im Zusammenhang mit der Aussage.
Beurteilen Sie die Gültigkeit der Aussage im Lichte der verfügbaren Beweise.
Bedenken Sie die mögliche Voreingenommenheit oder Motivation des Sprechers.

Gliedern Sie Ihre Analyse für jede Aussage nach der folgenden Struktur:

Faktencheck: [Schlüsselfaktum 1 mit Quellen] [Schlüsselfaktum 2 mit Quellen] [Bei Bedarf weitere hinzufügen] Analyse: [Geben Sie eine kurze Analyse der Gültigkeit der Aussage] Bewertung: [Verwenden Sie die folgende Skala]

Unsicherheit: [gering/mittel/hoch - basierend auf der Qualität und Quantität der verfügbaren Belege] Zusammenfassung: [Ein-Satz-Schlussfolgerung über die Gültigkeit der Aussage]

Wenn die Informationen nicht ausreichen, um eine Entscheidung zu treffen, geben Sie klar und deutlich an, welche zusätzlichen Informationen benötigt werden.

Jede Analyse mit einem XML-Tag beenden: [ja oder nein]

Nachdem Sie alle Aussagen analysiert haben, fassen Sie Ihre Ergebnisse zusammen.

Vergewissern Sie sich, dass Ihre Antwort objektiv ist, auf überprüfbaren Informationen beruht und Quellen für alle in der Analyse verwendeten Schlüsselfakten angibt.

AGIEval-MATH-Tipps

Schnelles Erkennen wichtiger Informationen
Entwicklung der schnellsten Lösungsstrategie
Möglichst wenig Berechnungen durchführen
Überprüfen Sie Ihre Antworten noch einmal

Regeln:

Verwenden Sie nach Möglichkeit Abkürzungen und Schätzungen
Ausführliche Erklärung auslassen
Einheiten in der endgültigen Antwort weglassen

Stellen Sie die endgültige Antwort immer in folgender Form dar: \boxed{}
Prioritäten setzen bei Geschwindigkeit und Genauigkeit. Effizientes Zeitmanagement. Streben Sie nach der kürzesten effektiven Lösung. Überprüfen Sie die Formatierung der Antworten vor dem Absenden. Wenn Sie auf Schwierigkeiten stoßen, stellen Sie lieber eine Vermutung an, als zu viel Zeit zu verlieren.

A.4 Fallstudien

A.4.1 Optimierung der Flugbahnen

Wir zeigen den Verlauf der Cue-Optimierung von GPT-4o-mini auf dem BBH-navigate-Datensatz, wobei es als Optimierungs-, Bewertungs- und Ausführungsmodell dient. Dies beinhaltet den Erfolg jeder Iteration in Bezug auf den besten Cue zum jeweiligen Zeitpunkt und den entsprechenden Cue-Inhalt.

Iteration 0 - Erfolg

Bitte denken Sie Schritt für Schritt. Achten Sie darauf, dass die Antwort mit folgendem Format endet: [Ja oder Nein].

Iteration 1 - Scheitern

Bitte analysieren Sie die folgenden Fragen Schritt für Schritt, um sicherzustellen, dass Ihre Argumentation eindeutig ist. Geben Sie am Ende Ihrer Analyse die endgültige Antwort in dem vorgegebenen XML-Format an: (Ja oder Nein).

Frage: [Frage hier einfügen]

Iteration 2 - Scheitern

Bitte analysieren Sie die gegebenen Anweisungen Schritt für Schritt und fassen Sie Ihre Überlegungen klar zusammen. Achten Sie darauf, dass die Antwort in folgendem XML-Format endet: (ja oder nein).

Iteration 3 - Scheitern

Bitte analysieren Sie die vorgegebenen Schritte gründlich und halten Sie jede Maßnahme fest. Achten Sie darauf, dass Ihre Argumentation durchgehend klar und logisch ist. Schließen Sie mit dem folgenden XML-Format ab: (Ja oder Nein).

Iteration 4 - Erfolg

Gehen Sie bitte mit einer klaren, logischen Argumentation an die Frage heran und gliedern Sie sie in einzelne Schritte. Bevor Sie Ihre endgültige Antwort geben, fassen Sie bitte Ihre Ergebnisse in folgendem XML-Format klar zusammen: [Ja oder Nein]. Wenn sich die Frage beispielsweise darauf bezieht, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückkehren oder nicht, beschreiben Sie jede Aktion im Detail, aktualisieren Sie Ihre Position entsprechend und kommen Sie zu dem Schluss, ob Sie zum Ausgangspunkt zurückgekehrt sind oder nicht.