AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

SPO: Selbstüberwachende Promptwortoptimierung

Abstracts

Gut konzipierte Prompts sind wichtig, um die Argumentationsfähigkeiten von Large Language Models (LLMs) zu verbessern und gleichzeitig ihre Ergebnisse an die Aufgabenanforderungen verschiedener Domänen anzupassen. Die manuelle Erstellung von Hints erfordert jedoch Fachwissen und iteratives Experimentieren. Bestehende Methoden zur Optimierung von Hinweisen zielen darauf ab, diesen Prozess zu automatisieren, sind aber in hohem Maße auf externe Referenzen wie echte Antworten oder menschliches Feedback angewiesen, was ihre Anwendung in realen Szenarien einschränkt, in denen diese Daten nicht zur Verfügung stehen oder nur mit hohem Aufwand zu beschaffen sind. Um dieses Problem zu lösen, schlagen wir die selbstüberwachte Prompt-Optimierung (SPO) vor, ein effizientes Verfahren zur Erkennung effektiver Prompts für geschlossene und offene Aufgaben, ohne dass externe Referenzen benötigt werden. Inspiriert von der Beobachtung, dass sich die Qualität der Hinweise direkt in den LLM-Ausgaben widerspiegelt und dass LLM den Grad der Einhaltung der Aufgabenanforderungen effizient bewerten kann, leiten wir Bewertungs- und Optimierungssignale ausschließlich aus Ausgabevergleichen ab. Konkret wählt SPO durch paarweise Output-Vergleiche, die vom LLM-Evaluator ausgewertet werden, überlegene Cues aus und passt die Outputs dann durch den LLM-Optimierer an die Aufgabenanforderungen an. Ausführliche Experimente haben gezeigt, dass SPO die bestehenden hochmodernen Cue-Optimierungsmethoden übertrifft und dabei deutlich weniger kostet (z. B. nur 1,11 TP3T gegenüber 5,61 TP3T der bestehenden Methoden) und weniger Stichproben benötigt (z. B. nur drei Stichproben). Der Code ist unter https://github.com/geekan/MetaGPT获取 verfügbar.

Vollständiger Demo-Code: https://github.com/geekan/MetaGPT/blob/main/examples/spo/README.md

1. einleitung

Da sich große Sprachmodelle (Large Language Models, LLMs) ständig weiterentwickeln, sind gut konzipierte Prompts unerlässlich, um ihre Wirkung zu maximieren.logisches Denkvermögen (Wei et al., 2022; Zheng et al., 2024; Deng et al., 2023) sowie die Sicherstellung der Konsistenz mit verschiedenen Missionsanforderungen (Hong et al., 2024b; Liu et al., 2024a; Zhang et al., 2024b; Hong et al., 2024a) sind mittlerweile entscheidend. Die Erstellung wirksamer Hinweise erfordert jedoch in der Regel umfangreiche Versuche und tiefgreifende aufgabenspezifische Kenntnisse.

Um dieser Herausforderung zu begegnen, haben Forscher Methoden zur Prompt-Optimierung (PO) erforscht, die die Fähigkeiten von LLMs nutzen, um Prompts automatisch zu verbessern. PO geht über die traditionelle manuelle Prompt-Entwicklung hinaus und bietet einen systematischeren und effizienteren Ansatz für die Prompt-Gestaltung. Wie in Abbildung 1(a) dargestellt, beinhalten diese Methoden in der Regel einen iterativen Prozess der Optimierung, Ausführung und Bewertung von Prompts. Die Wahl dieser Komponenten hat einen erheblichen Einfluss auf die Effektivität und Effizienz der Optimierung. Bestehende Methoden wurden in Form von numerischen Bewertungsmechanismen (Wang et al., 2024e; Yang et al., 2024a; Fernando et al., 2024) und textuellen "Gradienten"-Optimierungsstrategien (Wang et al., 2024c; Yuksekgonul et al., 2024) entwickelt, und wurden in Form von numerischen Bewertungsmechanismen (Wang et al., 2024e; Yang et al.) al., 2024). Durch diese Innovationen haben die PO-Methoden die Aufgabenleistung verbessert und gleichzeitig den manuellen Aufwand verringert (Pryzant et al., 2023; Zhang et al., 2024a; Zhou et al., 2024).


SPO: Selbstüberwachte Prompt-Optimierung-1

Trotz ihres Potenzials stehen die bestehenden PO-Methoden in der Praxis vor erheblichen Herausforderungen, die im Folgenden beschrieben werden. Erstens: Aktuelle AnsätzeDas Gesetz stützt sich bei seiner Bewertung in der Regel stark auf externe Referenzen. Methoden, die authentische Antworten zur Bewertung heranziehen (Yang et al., 2024a; Fernando et al., 2024; Yuksekgonul et al., 2024; Pryzant et al., 2023), erfordern große Mengen an kommentierten Daten, um die Qualität von Hinweisen zu bewerten, aber in vielen realen Anwendungen, insbesondere bei Aufgaben mit offenem Ende, sind solche sind solche Standardantworten oft nicht verfügbar. In ähnlicher Weise erfordern manuelle Methoden (Chen et al., 2024; Lin et al., 2024) eine manuelle Bewertung oder manuell erstellte Regeln zur Erzeugung von Feedback, was sowohl zeitaufwändig ist als auch dem Ziel der Automatisierung widerspricht. Zweitens erfordern die bestehenden Methoden in der Regel die Auswertung einer großen Anzahl von Proben, um ein zuverlässiges Feedback zu erhalten, was zu einem erheblichen Rechenaufwand führt (Wang et al., 2024e; Fernando et al., 2024).

Im Mittelpunkt dieser Herausforderungen steht der Mangel an zuverlässigen und effizienten, referenzfreien Methoden zur Bewertung der Qualität von Hinweisen. Die Analyse des LLM-Verhaltens offenbart zwei wichtige Erkenntnisse, die unseren Ansatz bestimmen. Erstens spiegelt sich die Qualität von Hinweisen inhärent in der Modellausgabe wider, wie die schrittweisen Inferenzpfade zeigen, die den Erfolg von Hinweisen zum Kettendenken demonstrieren können (Wei et al., 2022; Deng et al., 2023). Zweitens haben umfangreiche Forschungsarbeiten zu LLMs als Beurteiler gezeigt, dass sie wirksam beurteilen können, inwieweit der Output den Aufgabenanforderungen folgt (Zheng et al., 2023; Li et al., 2024b). Diese Beobachtungen deuten darauf hin, dass eine Cue-Optimierung ohne Referenzierung möglich ist, indem LLMs zur Bewertung der inhärenten Fähigkeit von Outputs eingesetzt werden, die die Cue-Qualität natürlich widerspiegeln.

Inspiriert von diesen Erkenntnissen schlagen wir einen effizienten Rahmen vor, der Bewertungs- und Optimierungssignale nur aus LLM-Ausgaben generiert, ähnlich wie das selbstüberwachte Lernen Trainingssignale aus Daten ableitet. Wir bezeichnen diesen Ansatz als selbstüberwachte prompte Optimierung (SPO). Wie in Abbildung 1 dargestellt, führt SPO mehrere innovative Mechanismen ein, die auf dem grundlegenden Optimierungs-, Ausführungs- und Bewertungszyklus basieren:

  1. Ausgabe als Referenz für die paarweise BewertungDas Herzstück von SPO ist die Verwendung von paarweisen Vergleichen, um die relative Qualität der Ergebnisse verschiedener Hinweise zu bewerten. Dieser Bewertungsmechanismus nutzt die inhärente Fähigkeit des LLM, die Anforderungen der Aufgabe zu verstehen und die Wirksamkeit der Optimierung ohne externe Referenz zu validieren.
  2. Ausgabe als OptimierungshilfeSPO optimiert die Cues durch das Verständnis des LLM für eine bessere Lösung als die aktuell beste Leistung. Dieser Prozess passt die Änderungen der Cues auf natürliche Weise an das Verständnis des Modells für die beste Aufgabenlösung an, anstatt sich auf explizite Optimierungssignale zu verlassen.

einweihen. Unsere wichtigsten Beiträge sind nachstehend aufgeführt:

  1. Selbstüberwachter Rahmen für die Optimierung von Hinweisen. Wir stellen SPO vor, ein neuartiges System, das paarweise Vergleiche von LLM-Ergebnissen nutzt, um die Cue-Optimierung ohne externe Referenzen zu steuern.
  2. Optimierung der KosteneffizienzSPO optimiert die Eingabeaufforderungen mit minimalem Rechenaufwand (0,15 $ pro Datensatz) und Stichprobenanforderungen (3 Stichproben), was den Ressourcenbedarf erheblich reduziert.
  3. Umfassende Bewertung. Wie aus Abb. 2 hervorgeht, benötigt SPO nur 1,11 TP3T bis 5,61 TP3T der Kosten bestehender Methoden, wobei die hervorragende Leistung sowohl bei geschlossenen als auch bei offenen Aufgaben erhalten bleibt.

SPO: Selbstüberwachte Prompt-Optimierung-2

2. vorläufig

2.1 Definition des Problems

Die Prompt-Optimierung zielt darauf ab, die Gültigkeit eines Prompts für eine bestimmte Aufgabe automatisch zu verbessern. Formal gilt: T = (Q, Gt) bezeichnet eine Aufgabe, wobei Q das Eingabeproblem und Gt ist ein optionaler Benchmark-Faktor. Das Ziel ist es, eine aufgabenspezifische Aufforderung Pt* um die Leistung bei der Aufgabe T zu maximieren. Dieses Optimierungsziel kann formell wie folgt ausgedrückt werden:

Pt = arg maxPunkt∈P* ET∼Devalexe(Q, Pt))], (1)

wobei P den Raum aller möglichen Aufforderungen bezeichnet. Wie in Abb. 1 dargestellt, umfasst dieser Optimierungsprozess typischerweise drei Grundfunktionen: (1) die Optimierungsfunktion (ϕoptieren): erzeugt einen geänderten Prompt auf der Grundlage der Kandidaten-Prompts; (2) die Ausführungsfunktion (ϕexe): Die modifizierten Hinweise werden zusammen mit dem LLM verwendet, um die Ausgabe O zu erzeugen, einschließlich des Inferenzpfads und der endgültigen Antwort; (3) die Bewertungsfunktion (ϕeval): Bewertung der Qualität von O und Bereitstellung von Feedback F, um weitere Optimierungen vorzunehmen und den Cue-Kandidaten iterativ zu verbessern.

Unter diesen Funktionen spielt die Bewertungsfunktion eine Schlüsselrolle, da ihre Ausgabe (Feedback F) die Bewertung und Verbesserung des Hinweises leitet. Wir werden den Bewertungsrahmen für die Cue-Optimierung in Abschnitt 2.2 erörtern.

2.2 Bewertungsrahmen für die Optimierung von Stichworten

Dieser Abschnitt gibt einen Überblick über unseren Bewertungsrahmen für die Prompt-Optimierung, der drei Schlüsselkomponenten umfasst: Bewertungsquellen, Bewertungsmethoden und Arten von Feedback, wie in Abbildung 3 dargestellt. Schließlich stellen wir unsere Wahl des Bewertungsrahmens für SPOs vor.

Quellen für die Bewertung. Wie in Abbildung 3(a) dargestellt, stehen zwei Hauptquellen für die Bewertung zur Verfügung: die vom LLM generierte Ausgabe und aufgabenspezifische authentische Antworten. Diese Quellen bilden die Grundlage für die Bewertung der prompten Leistung.

Methodik der Bewertung. Die Bewertungsmethoden legen fest, wie die Quellen der Bewertung und die damit verbundenen Kosten bewertet werden. Drei gängige Methoden sind (1) Benchmarking auf der Grundlage vordefinierter Metriken (Suzgun et al., 2023; Rein et al., 2023) oder Regeln (Chen et al., 2024). (2) LLM als Richter (Zheng et al., 2023), der die Fähigkeit des LLM nutzt, die Ergebnisse entsprechend den Aufgabenanforderungen zu verstehen und zu bewerten. (3) Manuelles Feedback (Lin et al., 2024) bietet die umfassendste Bewertung durch direkte manuelle Beurteilung des Outputs.

SPO: Selbstüberwachte Prompt-Optimierung-3

Manuelles Feedback bietet zwar die gründlichste Bewertung, da es die menschlichen Präferenzen und aufgabenspezifischen Bedürfnisse erfasst, verursacht aber höhere Kosten als Benchmarking oder LLM-as-Judge-Ansätze, wodurch ein Kompromiss zwischen Bewertungsqualität und Durchführbarkeit entsteht.

Art der Rückmeldung. Rückmeldungen, die durch Bewertungsmethoden generiert werden, nehmen in der Regel drei Formen an:(1) Numerische Rückmeldungen liefern quantitative Leistungsmetriken für den gesamten Datensatz. Es erfordert jedoch eine große Anzahl von Stichproben, um die Stabilität der Bewertung zu gewährleisten, und lässt möglicherweise instanzspezifische Details außer Acht (Zhang et al., 2024a). (2) Textuelle Rückmeldungen bieten umfangreiche instanzspezifische Anleitungen, indem sie analysiert werden und Vorschläge gemacht werden, die direkt Optimierungssignale erzeugen (Yuksekgonul et al., 2024). (3) Ranking- oder Selektions-Feedback (Liu et al., 2024b) erstellt eine relative Qualitätseinstufung zwischen den Ergebnissen durch ein vollständiges Ranking oder paarweise Vergleiche und gibt damit explizite Optimierungshinweise, ohne dass absolute Qualitätsmetriken erforderlich sind.

Bewertungsrahmen. Aufbauend auf den zuvor besprochenen Quellen, Methoden und Arten von Feedback legen die Bewertungsrahmen fest, wie Quellen im Rahmen der Cue-Optimierung verglichen und bewertet werden. Konkret leiten wir zwei Bewertungsrahmen für die Generierung von Feedback F für die Optimierung von Stichwörtern ab:

(1) Output vs. wahre Antwort (OvG): durch Kombination des Outputs O mit der wahren Antwort GT Machen Sie Vergleiche, um Feedback zu erhalten:

fOvG(Oi, Gi) = φevalexe(Qi, Tpi), G**i**)

Dieser Ansatz ermöglicht zwar eine direkte Qualitätsbewertung durch externe Referenzierung, erfordert aber klar definierte richtige Antworten und ist daher für offene Aufgaben ungeeignet, bei denen es keine richtigen Antworten gibt oder bei denen die Definition richtiger Antworten unpraktisch ist.

(2) Output vs. Output (OvO): Wenn keine richtige Antwort verfügbar ist, wenden wir uns direkten Output-Vergleichen zu. Die Kernidee von OvO ist, dass der Vergleich von Outputs, die aus verschiedenen Hinweisen generiert wurden, wertvolle Signale über ihre relative Qualität liefern kann, selbst wenn keine perfekte richtige Antwort vorliegt. Dieser Ansatz macht die Abhängigkeit von externen Referenzen überflüssig und ist besonders nützlich für offene Aufgaben mit mehreren gültigen Antworten. Er lässt sich formal wie folgt ausdrücken:

fOvO(O1, ... , Ok) = φeval({φexe(Qi, Pti)}ki=1)

Nach der Einführung der OvG- und OvO-Bewertungsrahmen betonen wir, dass OvO eine Kernmethode für die selbstüberwachte Prompt-Optimierung (SPO) ist. Durch den Vergleich von Outputs, die aus verschiedenen Cues generiert wurden, liefert OvO wertvolles Feedback zu deren relativer Qualität, ohne auf externe Referenzen angewiesen zu sein. Dieser Ansatz steht im Einklang mit unserem Ziel, Feedback aus den Ergebnissen selbst zu generieren und so eine iterative Optimierung sowohl für geschlossene als auch für offene Aufgaben zu ermöglichen.

3. die Optimierung der Selbstkontrolltipps

In diesem Abschnitt skizzieren wir zunächst unseren Ansatz (Abschnitt 3.1) und analysieren dann seine Wirksamkeit (Abschnitt 3.2).

3.1 Überblick über SPO

Eine zentrale Herausforderung bei der referenzfreien Optimierung besteht darin, effektive Bewertungs- und Optimierungssignale zu konstruieren. Wir schlagen Self-Supervised Prompted Optimisation (SPO) vor, ein einfaches, aber effektives Rahmenwerk für referenzfreie Optimierung, das den grundlegenden Optimierungs-Ausführungs-Bewertungs-Zyklus beibehält, aber nur die Modellausgaben als Quelle für Bewertungs- und Optimierungsanweisungen nutzt.

SPO: Selbstüberwachte Prompt-Optimierung-4

Wie in Algorithmus 1 dargestellt, arbeitet SPO mit drei Schlüsselkomponenten; die entsprechenden Hinweise sind in Anhang A.1 enthalten:

  • Optimierungsfunktionen optieren): Erzeugt einen neuen Prompt durch Analyse des aktuell besten Prompts und seiner entsprechenden Ausgabe.
  • Exekutivfunktion exe): Wenden Sie die generierten Eingabeaufforderungen an, um die Ausgabe zu erhalten.
  • Bewertungsfunktion eval): Verwenden Sie LLM, um die Ausgaben zu vergleichen und den besseren Hinweis durch paarweisen Vergleich zu bestimmen.

Dieser iterative Prozess beginnt mit einer grundlegenden Aufforderungsvorlage (z. B. Chain Thinking (Wei et al., 2022)) und einem kleinen Satz von Fragen, die aus dem Datensatz ausgewählt wurden. In jeder Iteration generiert SPO neue Prompts, führt sie aus und wertet die Ergebnisse paarweise aus, um zu beurteilen, wie gut sie den Anforderungen der Aufgabe entsprechen.

Die Assoziation dieses Hinweises mit einem besseren Ergebnis wird als bester Kandidat für die nächste Iteration ausgewählt. Der Prozess wird fortgesetzt, bis eine vorher festgelegte maximale Anzahl von Iterationen erreicht ist.

3.2 Verständnis der Wirksamkeit von SPO

Die theoretische Grundlage der SPO beruht auf zwei wichtigen Beobachtungen:

Erstens ist der Output von LLMs reich an qualitativen Informationen, die direkt die Gültigkeit des Hinweises widerspiegeln, wie die schrittweisen Argumentationspfade zeigen, die den Erfolg von Chain-Thinking-Hinweisen demonstrieren können (Wei et al., 2022). Zweitens verfügen LLMs über ein menschenähnliches Aufgabenverständnis, das es ihnen ermöglicht, die Qualität der Antworten zu bewerten und überlegene Lösungen auf der Grundlage der Aufgabenanforderungen zu identifizieren. Diese komplementären Fähigkeiten ermöglichen es SPOs, die Bewertung und Optimierung von Hinweisen ohne externe Referenzen durchzuführen. Diese beiden Aspekte der Nutzung des Modelloutputs wirken zusammen, um eine effektive Optimierung der Eingabeaufforderung zu erreichen:

Ausgabe als Optimierungshilfe. Im Fall von φoptieren Im Gegensatz zu anderen Methoden, die eine explizite Optimierung der Signale vorsehen (Fernando et al., 2024; Yuksekgonul et al., 2024; Pryzant et al., 2023), ist φoptieren Die Optimierung basiert direkt auf den Hinweisen und ihren entsprechenden Ergebnissen. Die Optimierungssignale ergeben sich aus der dem LLM innewohnenden Fähigkeit, die Qualität der Ergebnisse zu bewerten, während das Optimierungsverhalten von seinem Verständnis dessen geleitet wird, was eine bessere Lösung darstellt. Selbst wenn es keine expliziten Optimierungssignale gibt, lenkt die SPO-Optimierung die Hinweise also im Wesentlichen auf das optimale Verständnis der Aufgabe durch den LLM.

Ausgabe als Referenz für die paarweise Auswertung. Über φeval Indem wir dem Bewertungsmodell die Möglichkeit geben, eine paarweise Auswahl vorzunehmen, nutzen wir das inhärente Präferenzverständnis des Bewertungsmodells für die Aufgabe. Dieses interne Signal kann durch einfache paarweise Vergleiche der Ergebnisse gewonnen werden, so dass keine große Anzahl von Stichproben erforderlich ist, um die Stabilität des Scorings zu gewährleisten, wie dies bei Scoring-Feedback-Methoden oft der Fall ist.

Obwohl wir mögliche Verzerrungen durch vier Runden randomisierter Bewertungen abmildern, können diese Verzerrungen nicht vollständig beseitigt werden (Zhou et al., 2024). Diese Verzerrungen haben jedoch keinen Einfluss auf den allgemeinen Optimierungstrend, da das Feedback von eval nur als Referenz für die nächste Optimierungsrunde verwendet wird. Der gesamte Optimierungsprozess ist natürlich auf das Aufgabenverständnis des Optimierungsmodells abgestimmt, und der Eval-Mechanismus wird nur zur Validierung der Wirksamkeit jeder Iteration verwendet.

4) Experimente

4.1 Versuchsaufbau

Datensatz. Wir haben SPO an einer Reihe von Aufgaben evaluiert, darunter sowohl geschlossene als auch offene Aufgaben, um seine Wirksamkeit umfassend zu bewerten.

Für die geschlossene Aufgabe haben wir fünf etablierte Benchmarks verwendet:

  • GPQA (Rein et al., 2023)
  • AGIEval-MATH (Zhong et al., 2024)
  • LIAR (Wang, 2017)
  • WSC (Levesque et al., 2012)
  • BBH-navigieren (Suzgun et al., 2023)

Für WSC, LIAR und BBH-Navigate folgen wir Yan et al. (2024) und verwenden Teile des Originaldatensatzes als Testsatz. Für GPQA verwenden wir die anspruchsvollere Teilmenge GPQA-Diamond als Testsatz, während wir für AGIEval-Math Probleme der Stufe 5 als Testsatz verwenden. Für offene Aufgaben haben wir Schreib-, Rollenspiel- und geisteswissenschaftliche Aufgaben aus MT-Bench (Zheng et al., 2023) ausgewählt. Angesichts der begrenzten Größe des Datensatzes haben wir drei Validierungssätze für diese Aufgaben manuell erstellt. Eine detaillierte Beschreibung der Datensätze und der Verfahren zur Erstellung der Validierungs- und Testsätze finden Sie in Anhang A.3.

Basislinie (in der geodätischen Vermessung). Wir haben SPO an geschlossenen Aufgaben für zwei Klassen von Methoden evaluiert: (1) traditionelle Prompting-Methoden, einschließlich io (direkte LLM-Aufrufe), chainthink (Wei et al., 2022), rewording (Deng et al., 2023) und fallback abstraction (Zheng et al., 2024); und (2) automatische Prompting-Optimierungsmethoden, einschließlich APE ( Zhou et al., 2023), OPRO (Yang et al., 2024a), PromptAgent (Wang et al., 2024e), PromptBreeder (Fernando et al., 2024) und TextGrad (Yuksekgonul et al., 2024), deren Bewertung auf einer Reihe von Algorithmen basiert, wie APE (Deng et al., 2023) und Fallback-Abstraktion (Zheng et al., 2024); und (2) automatische Prompt-Optimierungsmethoden, einschließlich APE ( 2024), deren Bewertungsrahmeneinstellungen in Tabelle 2 aufgeführt sind.

Für die offene Aufgabe in MT-Bench (Zheng et al., 2023) verwendeten wir GPT-4o, um die von SPO erzeugte Ausgabe mit der direkt vom Modell erzeugten zu vergleichen.

4.2 Experimentelle Ergebnisse und Analysen

Die wichtigsten Ergebnisse des geschlossenen Mandats. Wie in Tabelle 1 gezeigt, übertreffen SPO-optimierte Prompts im Durchschnitt alle traditionellen Prompting-Methoden und übertreffen die optimale Basislinie um 1,9. Gleichzeitig ist die Leistung vergleichbar mit Prompt-Optimierungsmethoden, die sich auf wahrheitsgemäße Antworten in den meisten Datensätzen stützen, und erreicht optimale Ergebnisse in den GPQA- und BBH-navigate-Datensätzen. Insbesondere der durchschnittliche Leistungsvorteil von SPO gegenüber anderen Optimierungsmethoden deutet darauf hin, dass seine paarweise Bewertungsmethode in der Lage ist, effizientere Optimierungssignale zu erzeugen als andere Methoden, die sich auf externe Referenzen stützen. Um die Effektivität unserer Methode über verschiedene Optimierungsmodelle hinweg zu validieren, haben wir außerdem Experimente mit GPT-4o als Optimierungsmodell durchgeführt und eine durchschnittliche Leistung von 66,3 erzielt. Obwohl dies etwas niedriger ist als die Ergebnisse, die mit Claude-3-5-Sonnet als Optimierungsmodell erzielt wurden, ist dies immer noch die drittbeste Leistung aller verglichenen Methoden.

Kostenanalyse. Einen umfassenden Vergleich der Optimierungskosten und der Leistung von SPO (unter Verwendung von Claude-3.5-Sonnet und GPT-4o als Optimierungsmodelle) mit anderen Optimierungsmethoden finden Sie in Tabelle 1. Bei vergleichbarer Leistung mit anderen Hinweis-Optimierungsmethoden, die auf realen Antworten beruhen, erfordert SPO nur Optimierungskosten von 1,11 TP3T bis 5,61 TP3T, mit durchschnittlichen Optimierungskosten pro Datensatz von $0.15. Diese erhebliche Verringerung des Rechenaufwands in Verbindung mit der fehlenden Abhängigkeit von echten Antworten macht SPO für reale Anwendungen sehr attraktiv.

Tabelle 3: Leistungsvergleich von BBH-navigate: Cueing-Methoden (IO und COT) und SPO unter Verwendung verschiedener Bewertungsmodelle (Zeilen) und Ausführungsmodelle (Spalten). Das Optimierungsmodell ist auf Claude-3.5-Sonnet eingestellt.

GPT-4o-mini Llama3-70B Claude-3-Haiku
IO 91.3 82.7 62.2
COT 89.7 86.2 68
Claude-3.5-Sonnet 95 86.8 68.2
Llama3-70B 94.5 94.2 82.0
GPT-4o-mini 97.8 90.7 82.0

Studien zur Ablation. Um die Übertragbarkeit von SPO auf verschiedene Optimierungs-, Bewertungs- und Ausführungsmodelle zu beurteilen, haben wir Ablationsexperimente mit dem BBH-Navigate-Datensatz durchgeführt. Die experimentellen Ergebnisse in den Tabellen 3 und 4 zeigen, dass SPO eine robuste Leistung über verschiedene Modelle hinweg aufweist. Die beste Leistung (97,8) wurde bei der Verwendung von GPT-4o-mini als Optimierungs-, Ausführungs- und Bewertungsmodell erzielt. In Bezug auf die Ausführung verbesserte SPO die Leistung des schwächeren Modells effektiv, indem es Claude-3-Haiku von 62,2 auf 89,7 steigerte, was die Fähigkeit von SPO demonstriert, auf das schwächere Modell angewendet zu werden und sein Potenzial für realistische Anwendungen weiter auszubauen.

Tabelle 4: Leistungsvergleich von BBH-navigate mit verschiedenen Optimierungsmodellen (Zeilen) und Ausführungsmodellen (Spalten). Das Bewertungsmodell ist auf GPT-4o-mini festgelegt.

GPT-4o-mini Llama3-70B Claude-3-Haiku
Claude-3.5-Sonnet 97.2 86.7 89.7
GPT-40 96.3 85.5 73.0
GPT-4o-mini 97.8 90.7 82.0
DeepSeek-V3 94.7 83.7 77.2

SPO: Selbstüberwachte Prompt-Optimierung-5

Wir haben eine Ablationsstudie durchgeführt, um die Auswirkungen der Stichprobengröße auf die SPO-Leistung anhand des BBH-Navigate-Datensatzes zu untersuchen (siehe Abbildung 5). Die Leistungskurven für alle drei Optimierungsmodelle zeigen ein ähnliches Muster: Die Leistung verbessert sich zunächst mit zunehmender Stichprobengröße, pendelt sich aber schließlich ein oder nimmt ab. Dieses Phänomen lässt sich auf zwei Faktoren zurückführen: Unzureichende Stichproben können zu einer Überanpassung bei der Cue-Optimierung führen, während zu viele Stichproben nicht nur die Rechenkosten erhöhen, sondern auch zu einem längeren Kontext für die Bewertung des Modells führen, was die Qualität der Bewertung verringern kann. Auf der Grundlage umfangreicher Experimente haben wir festgestellt, dass eine Stichprobengröße von 3 das beste Gleichgewicht zwischen Kosteneffizienz und Leistung darstellt.

SPO: Selbstüberwachte Prompt-Optimierung-6

Die wichtigsten Ergebnisse des unbefristeten MandatsUm die Fähigkeiten von SPO bei offenen Aufgaben zu überprüfen, haben wir drei Kategorien aus der MT-Bench ausgewählt. Um die Fähigkeiten von SPO bei offenen Aufgaben zu validieren, wählten wir drei Kategorien aus der MT-Bench zur Bewertung aus: "Writing", "Role Playing" und "Humanities ". Wir verwendeten Claude-3.5-Sonnet als Optimierungsmodell, Gpt-4o-mini als Bewertungsmodell und wählten Claude-3.5-Sonnet, DeepSeek-V3 und GPT-4omini als Ausführungsmodelle für fünf Iterationen. In Anlehnung an die Bewertungsmethode in (Zheng et al., 2023) verwendeten wir anschließend GPT-4o, um die Ergebnisse von Modell A und Modell B paarweise zu vergleichen (siehe Abb. 6). Die in Abb. 6 dargestellten experimentellen Ergebnisse zeigen, dass SPO die Modellleistung bei allen Modellkonfigurationen deutlich verbessert. Es ist erwähnenswert, dass kleinere Modelle, die Optimierungshinweise verwenden (z. B. GPT-4omini), in den meisten Fällen größere Modelle übertreffen.

4.3 Fallstudien

Wir zeigen die Optimierungsergebnisse für die zusätzliche offene Aufgabe ohne den Datensatz sowie die Optimierungskurve von SPO in Anhang A.4. Wir stellen auch die optimalen Hinweise, die SPO für die fünf geschlossenen Aufgaben gefunden hat, im Zusatzmaterial zur Verfügung. Da reale Anwendungen oft mit dem Problem begrenzter Datensätze konfrontiert sind, evaluieren wir die Leistung von SPO bei Aufgaben ohne traditionelle Benchmarks. Die experimentellen Ergebnisse in Verbindung mit der Kosteneffizienz von SPO zeigen seinen praktischen Wert in realen Szenarien. Insbesondere zeigen wir die Optimierungsergebnisse nach 10 Iterationen unter Verwendung von Claude-3.5-Sonnet als Optimierungsmodell, GPT-4o-mini als Evaluierungsmodell und Llama3-8B als Ausführungsmodell, das die vier Aufgaben Werbedesign, Social-Media-Inhalte, Schreiben moderner Gedichte und konzeptionelle Erklärungen abdeckt. Darüber hinaus bieten wir in Anhang A.4.1 eine umfassende Analyse des Optimierungsverlaufs von SPO auf dem BBH-navigate-Datensatz mit erfolgreichen und erfolglosen Beispielen, um tiefere Einblicke in den Optimierungsprozess zu geben.

5. verwandte Arbeiten

5.1 Cue Engineering

Die Forschung zu effektiven Prompting-Methoden wurde in zwei Hauptrichtungen durchgeführt. Die erste Richtung konzentriert sich auf aufgabenunabhängige Prompting-Techniken, die die Generalisierbarkeit von LLMs verbessern. Zu den bemerkenswerten Beispielen gehören das Kettendenken (Wei et al., 2022; Kojima et al., 2022), das das logische Denken bei einer Vielzahl von Aufgaben verbessert, Techniken zur Verbesserung des einmaligen logischen Denkens (Deng et al., 2023; Zheng et al., 2024; Wang et al., 2024d) und für die Spezifikation des Ausgabeformats Methoden (Zhang et al., 2024a; He et al., 2024; Tam et al., 2024). Diese Techniken liefern wichtige Optimierungsgrundlagen für Studien zur Optimierung von Autocues durch menschliche Einsicht und umfangreiche experimentelle Entwicklung.

Die zweite Richtung befasst sich mit domänenspezifischen Hinweisen, und Forscher haben neue Ansätze für die Codegenerierung (Hong et al., 2024b; Ridnik et al., 2024; Shen et al., 2024a), Datenanalyse (Hong et al., 2024a; Liu et al., 2024a; Li et al., 2024a), Befragung ( Wu et al., 2024b; Zhu et al., 2024; Yang et al., 2024b), Entscheidungsfindung (Zhang et al., 2024b; Wang et al., 2024a) und andere Bereiche (Guo et al., 2024b; Ye et al., 2024; Shen et al., 2024b). ) haben spezielle Techniken entwickelt. Da sich die Anwendung von LLMs jedoch auf immer komplexere reale Szenarien ausdehnt, wird es unpraktisch, effektive Hinweise für jeden Bereich manuell zu erstellen (Zhang et al., 2024a). Diese Herausforderung hat die Forschung im Bereich der Cue-Optimierung motiviert, die darauf abzielt, systematisch effektive domänenspezifische Cues zu entwickeln, anstatt allgemeine Cue-Prinzipien zu entdecken.

5.2 Optimierung der Stichwörter

Bei der prompten Optimierung (PO) ist der Entwurf des Bewertungsrahmens von entscheidender Bedeutung, da er die Effektivität und die Recheneffizienz der Optimierung bestimmt. Die Entwicklung der Bewertungsmechanismen in der PO hat sich von der einfachen Sammlung von Bewertungsrückmeldungen bis hin zur Erzeugung komplexer Optimierungssignale entwickelt (Chang et al., 2024). Bestehende PO-Methoden können nach ihren Bewertungsquellen und -mechanismen kategorisiert werden.

Der gängigste Ansatz stützt sich auf authentische Antworten als Bewertungsquelle, wobei numerische Bewertungen auf der Grundlage von Benchmarks verwendet werden (Zhou et al., 2023; Guo et al., 2024a; Yang et al., 2024a; Fernando et al., 2024; Wang et al., 2024e; Khattab et al., 2023 ). Diese Methoden haben sich zwar bei bestimmten Aufgaben bewährt, erfordern aber in der Regel eine große Anzahl von Iterationen und Stichproben, um die Stabilität der Auswertung zu gewährleisten, was zu einem erheblichen Rechenaufwand führt.

Um den Bedarf an Stichproben zu reduzieren, verwenden einige Methoden (Yan et al., 2024; Yuksekgonul et al., 2024; Wu et al., 2024a; Wang et al., 2024c; Pryzant et al., 2023; Li et al., 2025) LLMs als Richter (Zheng et al. ..., 2023), um detailliertes textuelles Feedback zu erzeugen. Obwohl dieser Ansatz reichhaltigere Bewertungssignale liefert und weniger Stichproben benötigt, ist er immer noch auf reale Antwortdaten angewiesen, was seine Anwendung auf offene Aufgaben beschränkt, bei denen es möglicherweise keine Referenzantworten gibt.

Alternative Ansätze konzentrieren sich auf menschliche Präferenzen, durch manuell entworfene Bewertungsregeln oder direktes menschliches Feedback (Chen et al., 2024; Lin et al., 2024). Während diese Ansätze für Aufgaben mit offenem Ende effektiv sein können, widerspricht ihre Notwendigkeit einer umfangreichen menschlichen Beteiligung dem Ziel der Automatisierung. In der Zwischenzeit haben einige Forscher andere Bewertungskriterien erforscht, wie z. B. den Vorschlag von Zhang et al. (2024c), die Validität von Hinweisen anhand der Konsistenz der Ergebnisse zu bewerten. Dieser Ansatz steht jedoch vor einer grundlegenden Herausforderung: Die nicht lineare Beziehung zwischen Konsistenz und Validität führt in der Regel zu schlechten Bewertungssignalen.

Im Gegensatz zu diesen Methoden führt SPO ein neues Bewertungsparadigma ein, das die Abhängigkeit von externen Referenzen eliminiert und gleichzeitig die Effizienz beibehält. Da SPO die Modellergebnisse nur durch paarweise Vergleiche nutzt, ermöglicht es eine robuste Bewertung, ohne dass echte Antworten, menschliches Feedback oder umfangreiche Stichproben erforderlich sind, was es besonders für realistische Anwendungen geeignet macht.

6. schlussfolgerung

Dieses Papier befasst sich mit einer grundlegenden Herausforderung bei der Cued-Optimierung: der Abhängigkeit von externen Referenzen, die realistische Anwendungen einschränkt. Wir stellen die Self-Supervised Prompt Optimisation (SPO) vor, einen Rahmen, der diese Abhängigkeit überwindet und gleichzeitig einen Rahmen implementiert, bei dem jeder Datensatz nur $0.15 SPO nutzt die Inspiration des selbstüberwachten Lernens, um auf innovative Weise Bewertungs- und Optimierungssignale durch paarweise Vergleiche von Modellergebnissen zu konstruieren, was eine referenzfreie Optimierung ohne Kompromisse bei der Wirksamkeit ermöglicht.

Unsere umfassende Evaluierung zeigt, dass SPO sowohl bei geschlossenen als auch bei offenen Aufgaben die bestehenden State-of-the-Art-Methoden übertrifft und State-of-the-Art-Ergebnisse mit einem Aufwand von nur 1,11 TP3T gegenüber 5,61 TP3T der bestehenden Methoden erzielt. Der Erfolg in Standard-Benchmarks und verschiedenen realen Anwendungen bestätigt die Effektivität und Generalisierbarkeit von SPO. Durch die signifikante Verringerung des Ressourcenbedarfs und der operativen Komplexität stellt SPO einen bedeutenden Fortschritt dar, um die Cueing-Optimierung in realen Anwendungen zugänglich und praktikabel zu machen, mit dem Potenzial, die Einführung von LLM-Technologien in einer Vielzahl von Bereichen zu beschleunigen.

Erklärung zu den Auswirkungen

SPO bietet bedeutende Fortschritte bei der Entwicklung von Hinweisen für LLMs und bietet Vorteile wie die Demokratisierung des Zugangs, die Senkung der Kosten und die Verbesserung der Leistung in einem breiten Spektrum von Aufgaben. Sie birgt jedoch auch Risiken, einschließlich der potenziellen Verstärkung von Verzerrungen, der Verwendung von schädlichen Inhalten und der übermäßigen Abhängigkeit von LLMs.

A. Anhang

A.1 Detaillierte Tipps für SPOs

In diesem Abschnitt zeigen wir Meta-Hinweise für die Iteration. Beachten Sie, dass wir hier nur die einfachsten und unkompliziertesten Hinweise verwendet haben. Es gibt noch Raum für Verbesserungen, indem die folgenden Meta-Hinweise für bestimmte Bereiche optimiert werden.

Tipps zur Optimierung der Funktionalität

SPO: Selbstüberwachte Prompt-Optimierung-7

Diese Prompt-Vorlage leitet LLMs an, bestehende Prompts durch eine strukturierte XML-Analyse iterativ zu verbessern. Dazu müssen Schwachstellen in der Ausgabe des Referenz-Prompts identifiziert, Änderungen vorgeschlagen und optimierte Versionen erstellt werden. Die Vorlage legt den Schwerpunkt auf inkrementelle Verbesserungen bei gleichzeitiger Wahrung der Konsistenz der Anforderungen.

Tipps zur Auswertung von Funktionen

SPO: Selbstüberwachte Prompt-Optimierung-8

Die Bewertungsvorlage verwendet eine vergleichende Analyse, um die Qualität einer Antwort zu bewerten. Sie erfordert eine XML-formatierte, begründete Analyse der Stärken und Schwächen von zwei Antworten (A/B), gefolgt von einer klaren Entscheidung.

A.2 Detaillierte Aufforderungsvorlage für den Beginn einer Iteration

SPO: Selbstüberwachte Prompt-Optimierung-9

Diese YAML-Datei zeigt unsere Ausgangskonfiguration für die Iteration der Aufgabe BBH-navigate. Durch die Konfiguration einer einfachen anfänglichen Aufforderung und Anforderung sowie drei spezifischer Fragen kann eine iterative Optimierung durchgeführt werden. Es ist wichtig zu beachten, dass der hier gezeigte Inhalt der vollständige Inhalt der Datei ist; der Inhalt im Abschnitt "Antworten" ist nicht die eigentliche Antwort, sondern dient eher als Referenz für den Denkprozess und das richtige Ausgabeformat.

A.3 Einzelheiten des Experiments

A.3.1 Aufgaben- und Datendetails

LIAR
LIAR (Wang, 2017) ist ein englischsprachiger Datensatz zur Erkennung von Fake News mit 4000 Aussagen, die jeweils mit Kontextinformationen und Lügenkennzeichnungen versehen sind. In unseren Experimenten folgen wir der Methode von Yan et al. (2024) und wählen Teile des Originaldatensatzes als Testset aus.

BBH-Navigieren
BBH-Navigate (Suzgun et al., 2023) ist eine Aufgabe aus dem BIG-bench Hard-Datensatz, einer Teilmenge des BIG-Bench-Datensatzes. Bei dieser Aufgabe liegt der Schwerpunkt auf der Navigation und das Modell muss bestimmen, ob ein Agent nach einer Reihe von Navigationsschritten zu seinem Ausgangspunkt zurückkehrt. In unseren Experimenten verwendeten wir Zufallsstichproben (seed = 42), um 200/25/25 Test/Train/Validate-Splits zu erhalten.

Tabelle A1. Größe des Datensatzes und Datenpartitionierung

Name des Datensatzes Prüfung (Maschinen usw.) Ausbildung & Validierung
LIAR 461 3681
BBH-Navigieren 200 50
WSC 150 50
AGIEval-MATH 256 232
GPQA 198 250
MT-Bank 80 0

WSC
Die Winograd Schema Challenge (WSC) (Levesque et al., 2012) ist ein Benchmark, der dazu dient, die Fähigkeit eines Systems zu bewerten, durch Parsen von Pronomenreferenzen im Kontext Commonsense-Schlussfolgerungen zu ziehen. In unseren Experimenten folgen wir Yan et al. (2024) und wählen Teile des Originaldatensatzes als Testset aus.

AGIEval-MATH
AGIEval-MATH (Zhong et al., 2024) ist eine Teilmenge des AGIEval-Benchmarks, die sich auf mathematische Problemlösungsaufgaben konzentriert. Er umfasst eine Vielzahl von mathematischen Aufgaben, mit denen das logische Denken und die Rechenfähigkeiten bewertet werden sollen. In unseren Experimenten verwenden wir Probleme der Stufe 5 als Testset und Probleme der Stufe 4 als Trainings- und Validierungsset.

GPQA
GPQA (Rein et al., 2023) ist ein Datensatz, der entwickelt wurde, um die Leistung von Sprachmodellen bei Fragen auf Graduiertenebene in einer Vielzahl von Disziplinen, darunter Biologie, Physik und Chemie, zu bewerten. In unseren Experimenten verwenden wir die Teilmenge GPQA-Diamond als Testdatensatz, während wir unsere Trainings- und Validierungsdatensätze aus Problemen konstruieren, die nur in GPQA-Main vorhanden sind (d. h. solche, die in GPQA-Main, aber nicht in GPQA-Diamond vorhanden sind).

MT-Bank
MT-Bench (Zheng et al., 2023) ist ein Multi-Task-Benchmark, mit dem die Generalisierungsfähigkeit von Sprachmodellen bei einer Reihe von Aufgaben wie Textkategorisierung, Zusammenfassung und Frage und Antwort bewertet werden kann. In unseren Experimenten haben wir Schreib-, Rollenspiel- und geisteswissenschaftliche Aufgaben aus MT-Bench ausgewählt. Diese Validierungsfragen sind im ergänzenden Material zu finden.

A.3.2 Konfiguration

In unseren Experimenten haben wir verschiedene Optimierungsframeworks so konfiguriert, dass ihre Optimierungskosten so einheitlich wie möglich bleiben. Diese Frameworks erlauben in der Regel die Einstellung einer Reihe von Parametern zur Anpassung der Optimierungskosten, einschließlich der Anzahl der Iterationen und der Anzahl der pro Iteration generierten Hinweise.

APE
APE verwendet einen iterativen Optimierungsprozess über drei Runden, wobei in jeder Runde die besten 10% (Verhältnis = 0,1) Stichwörter des aktuellen Pools als Elite-Stichwörter ausgewählt werden. Um die Vielfalt und die Größe des Pools von Stichwörtern aufrechtzuerhalten, werden diese Elite-Stichwörter durch Variantenauswahl so verändert, dass die Gesamtzahl der Stichwörter bei 50 bleibt. In Anlehnung an die ursprüngliche Arbeit (Zhou et al., 2023) beinhaltet der Optimierungsprozess keine stichprobenspezifischen Ausführungsergebnisse, um die LLM-Stichwörter zu optimieren. Stattdessen werden die Leistungswerte durch die Bewertung der Cues auf dem gesamten Trainingssatz ermittelt.

OPRO
OPRO verwendet einen iterativen Optimierungsprozess mit 10 Runden, der 10 Kandidaten pro Runde generiert. OPRO bewertet die Leistung der Cues auf dem gesamten Trainingsdatensatz und filtert auf der Grundlage der Bewertungsergebnisse. OPRO unterhält keinen Pool von Cues mit fester Größe, sondern generiert neue Kandidaten direkt auf der Grundlage des aktuell besten Cues in jeder Runde. Die Richtung der Optimierung wird durch die Leistungsbewertung der gesamten Trainingsdaten bestimmt.

PromptAgent
Mit Ausnahme des Liar-Datensatzes, bei dem wir 150 Daten sowohl aus dem Trainings- als auch aus dem Validierungsdatensatz entnommen haben, folgen die anderen Datensätze den in Tabelle A1 angegebenen Größen.PromptAgent verwendet das Monte-Carlo-Tree-Search-Framework (MCTS) zur Optimierung der Prompts. Es beginnt mit einem anfänglichen Hinweis und generiert neue Kandidaten auf der Grundlage von Modellfehler-Feedback. Der Prozess wird durch die Verwendung von Benchmark-Evaluierungen auf einer Stichproben-Trainingsmenge gesteuert, um Wege mit hohem Ertrag zur Verbesserung der Aufgabenleistung zu identifizieren. Abschließend werden die ersten 5 Cues, die in der Validierungsmenge am besten abschneiden, getestet und der beste ausgewählt. Zu den wichtigsten Parametern von MCTS gehören eine Expansionsbreite von 3, eine Tiefenbegrenzung von 8 und 12 Iterationen.

PromptBreeder
In unserer Implementierung von PromptBreeder haben wir das System so konfiguriert, dass es 5 Varianten und 5 Denkstile für die Initialisierung verwendet. Der Evolutionsprozess läuft über 20 Generationen, wobei jede Generation 20 Bewertungen an einem zufällig ausgewählten Trainingsbeispiel durchführt. Das Optimierungsmodell ist standardmäßig auf Claude-3.5-Sonnet und das Ausführungsmodell standardmäßig auf GPT-4o-mini eingestellt.

TextGrad
TextGrad verwendet einen Optimierungsprozess mit drei Epochen und drei Schritten pro Epoche (epoch_{-3}, steps_{-3}), um einen stochastischen Gradientenabstieg mit einer Losgröße von drei durchzuführen. Bei jedem Schritt generiert TextGrad Gradienten über Rückmeldungen aus dem Optimierer LLM (Claude-3.5-Sonnet), um die Systemhinweise zu aktualisieren. Das System verfügt über einen validierungsbasierten Reduktionsmechanismus - wenn der aktualisierte Cue in der Validierungsmenge schlechter abschneidet als in der vorherigen Iteration, wird die Aktualisierung abgelehnt und der Cue wird auf seinen vorherigen Zustand zurückgesetzt. Der Optimierungsprozess wird durch die Evaluierung der Cues unter Verwendung von Claude-3.5-Sonnet als Evaluierungs-LLM gesteuert, während die tatsächliche Aufgabenausführung GPT-4o-mini als Ausführungs-LLM verwendet.Unsere experimentellen Konfigurationen folgen den Cue-Optimierungseinstellungen, die im offiziellen TextGrad-Repository bereitgestellt werden (Yuksekgonul et al., 2024).

SPO
SPO optimiert, indem es 10 Iterationen pro Aufgabe durchführt, wobei für jede Iteration 3 Fragen (ohne Antworten) zufällig aus dem vorpartitionierten Train&Validate-Datensatz ausgewählt werden. Das Optimierungsmodell ist standardmäßig Claude-3.5-Sonnet, das Bewertungsmodell standardmäßig GPT-4o-mini und das Ausführungsmodell standardmäßig GPT-4o-mini. Es ist bemerkenswert, dass SPO eine effektive Cued-Optimierung erreicht, indem es nur Fragen ohne echte Antworten verwendet, was seine Fähigkeiten bestätigt.

A.3.3 Grundlegende Eingabeaufforderungen

In diesem Abschnitt stellen wir die zum Vergleich herangezogenen Basis-Cues vor. Beachten Sie, dass wir für alle Optimierungsbemühungen, die eine erste Iteration von Cues erfordern, immer die unten dargestellten COT-Cues bereitstellen.

SPO: Selbstüberwachte Prompt-Optimierung-10

Achten Sie darauf, dass die Antwort in folgendem Format endet: Antwort.

A.3.4 Tipps zur SPO-Optimierung

In diesem Abschnitt zeigen wir die Optimierungshinweise, die wir in unseren Hauptexperimenten erhalten haben, wobei Claude-3.5-Sonnet als Optimierungsmodell und GPT-4o-mini als Bewertungs- und Ausführungsmodell diente.

GPQA-Tipps

Bitte beachten Sie die nachstehenden Leitlinien, um Fragen effizient und effektiv zu beantworten:

  1. Lesen Sie die gesamte Frage sorgfältig durch und identifizieren Sie alle relevanten Informationen und Schlüsselbegriffe.
  2. Wählen Sie je nach Art des Problems die am besten geeignete Problemlösungsmethode.
  3. Führen Sie die folgenden Schritte aus, um das Problem zu lösen:
    a. Angabe aller relevanten Formeln, Grundsätze oder Annahmen
    b. Zeigen Sie alle erforderlichen Berechnungen oder konzeptionellen Analysen
    c. Bewerten Sie alle Antwortmöglichkeiten und erklären Sie, warum die falsche Antwort falsch ist (falls zutreffend).
  4. Gliedern Sie Ihre Antwort nach der folgenden Struktur:

[Analyse]

Kurze Darstellung des Hauptthemas und der Schlüsselbotschaften (maximal 2-3 Sätze)

[Lösung]

  • Schritt-für-Schritt-Darstellung Ihrer Arbeit, einschließlich aller relevanten Berechnungen und Begründungen
  • Klare, logische Erklärungen zu konzeptionellen Fragen geben

[Schlussfolgerung]

Geben Sie die endgültige Antwort in einem klaren Satz an

  • Erläutern Sie kurz, warum diese Antwort richtig ist und die anderen Antworten falsch sind (falls zutreffend)
[ein Buchstabe steht für die richtige Option]

Passen Sie diese Struktur an verschiedene Problemtypen an und achten Sie dabei auf Klarheit und Einfachheit. Stellen Sie sicher, dass Ihre Antwort alle Aspekte des Problems anspricht und einen klaren Problemlösungsprozess aufzeigt.

BBH-Navigate Tipps

Bitte folgen Sie den nachstehenden Schritten, um die gegebenen Anweisungen zu analysieren:

  1. Geben Sie die Anfangsbedingungen an:
    • Startpunkt: (0, 0)
    • Ausgangsrichtung: positive x-Achse (sofern nicht anders angegeben)
  2. Verwenden Sie das Koordinatensystem:
    • x-Achse: links (-) und rechts (+)
    • y-Achse: rückwärts (-) und vorwärts (+)
  3. Analysieren Sie jeden Schritt:
    • Bei vagen Anweisungen (z. B. "mach X Schritte" ohne Richtungsangabe) ist von einer Vorwärtsbewegung auszugehen.
    • Koordinaten nach jeder Bewegung aktualisieren
    • Erläutern Sie kurz alle getroffenen Annahmen
  4. Nach der Analyse aller Schritte:
    • Fassen Sie die Gesamtbewegung in jeder Richtung zusammen
    • Angabe des endgültigen Standpunkts
  5. Vergleichen Sie die Endposition mit der Ausgangsposition:
    • Berechnen Sie die Entfernung von (0, 0)
  6. Geben Sie eine knappe Begründung mit dem Vermerk "Begründung" an.
    • Erklären Sie die wichtigsten Spielzüge und ihre Auswirkungen auf die Position
    • Begründen Sie Ihre Schlussfolgerungen
  7. Geben Sie Ihre endgültige Antwort mit dem Vermerk "Endgültige Antwort" an.

Beenden Sie Ihre Antwort in folgendem XML-Format: [ja oder nein]

Stellen Sie sicher, dass Ihre Analysen an alle Problemtypen angepasst sind und sowohl spezifische als auch vage Anweisungen berücksichtigen.

LIAR-Tipps

Analysieren Sie die vorgegebene(n) Aussage(n) sorgfältig und befolgen Sie die unten stehenden Schritte für jede Frage:

  1. Berücksichtigen Sie die Aussage, den Hintergrund des Sprechers (falls vorhanden) und den Kontext.
  2. Recherchieren und zitieren Sie relevante Fakten und Zahlen im Zusammenhang mit der Aussage.
  3. Beurteilen Sie die Gültigkeit der Aussage im Lichte der verfügbaren Beweise.
  4. Bedenken Sie die mögliche Voreingenommenheit oder Motivation des Sprechers.

Gliedern Sie Ihre Analyse für jede Aussage nach der folgenden Struktur:

Faktenüberprüfung: [Schlüsselfakt 1 mit Quellen] [Schlüsselfakt 2 mit Quellen] [bei Bedarf weitere hinzufügen] ANALYSE: [Geben Sie eine kurze Analyse der Gültigkeit der Aussage] Bewertung: [Verwenden Sie die folgende Skala]

Unsicherheit: [gering/mittel/hoch - basierend auf Qualität und Quantität der verfügbaren Belege] Zusammenfassung: [Ein-Satz-Schlussfolgerung über die Gültigkeit der Aussage]

Wenn die Informationen nicht ausreichen, um eine Entscheidung zu treffen, geben Sie klar und deutlich an, welche zusätzlichen Informationen benötigt werden.

Jede Analyse mit einem XML-Tag beenden: [ja oder nein]

Nachdem Sie alle Aussagen analysiert haben, fassen Sie Ihre Ergebnisse zusammen.

Vergewissern Sie sich, dass Ihre Antwort objektiv ist, auf überprüfbaren Informationen beruht und Quellen für alle in der Analyse verwendeten Schlüsselfakten angibt.

AGIEval-MATH-Tipps

  1. Schnelles Erkennen wichtiger Informationen
  2. Entwicklung der schnellsten Lösungsstrategie
  3. Möglichst wenig Berechnungen durchführen
  4. Überprüfen Sie Ihre Antworten noch einmal

Regeln:

Verwenden Sie nach Möglichkeit Abkürzungen und Schätzungen
Ausführliche Erklärung auslassen
Einheiten in der endgültigen Antwort weglassen

  • Stellen Sie die endgültige Antwort immer in folgender Form dar: \boxed{}
    Prioritäten setzen bei Geschwindigkeit und Genauigkeit. Effizientes Zeitmanagement. Streben Sie nach der kürzesten effektiven Lösung. Überprüfen Sie die Formatierung der Antworten vor dem Absenden. Wenn Sie auf Schwierigkeiten stoßen, stellen Sie lieber eine Vermutung an, als zu viel Zeit zu verlieren.

SPO: Selbstüberwachte Prompt-Optimierung-11

A.4 Fallstudien

A.4.1 Optimierung der Flugbahnen

Wir zeigen den Verlauf der Cue-Optimierung von GPT-4o-mini auf dem BBH-navigate-Datensatz, wobei es als Optimierungs-, Bewertungs- und Ausführungsmodell dient. Dies beinhaltet den Erfolg jeder Iteration in Bezug auf den besten Cue zum jeweiligen Zeitpunkt und den entsprechenden Cue-Inhalt.

Iteration 0 - Erfolg

Bitte denken Sie Schritt für Schritt. Achten Sie darauf, dass die Antwort mit folgendem Format endet: [Ja oder Nein].

Iteration 1 - Scheitern

Bitte analysieren Sie die folgenden Fragen Schritt für Schritt, um sicherzustellen, dass Ihre Argumentation eindeutig ist. Geben Sie am Ende Ihrer Analyse die endgültige Antwort in dem vorgegebenen XML-Format an: (Ja oder Nein).

Frage: [Frage hier einfügen]

Iteration 2 - Scheitern

Bitte analysieren Sie die gegebenen Anweisungen Schritt für Schritt und fassen Sie Ihre Überlegungen klar zusammen. Achten Sie darauf, dass die Antwort in folgendem XML-Format endet: (ja oder nein).

Iteration 3 - Scheitern

Bitte analysieren Sie die vorgegebenen Schritte gründlich und halten Sie jede Maßnahme fest. Achten Sie darauf, dass Ihre Argumentation durchgehend klar und logisch ist. Schließen Sie mit dem folgenden XML-Format ab: (Ja oder Nein).

Iteration 4 - Erfolg

Gehen Sie bitte mit einer klaren, logischen Argumentation an die Frage heran und gliedern Sie sie in einzelne Schritte. Bevor Sie Ihre endgültige Antwort geben, fassen Sie bitte Ihre Ergebnisse in folgendem XML-Format klar zusammen: [Ja oder Nein]. Wenn sich die Frage beispielsweise darauf bezieht, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückkehren oder nicht, beschreiben Sie jede Aktion im Detail, aktualisieren Sie Ihre Position entsprechend und kommen Sie zu dem Schluss, ob Sie zum Ausgangspunkt zurückgekehrt sind oder nicht.

Endgültige Antwort: [Ja oder Nein]

Iteration 5 - Erfolg

Bitte analysieren Sie das Problem gründlich, indem Sie es Schritt für Schritt aufschlüsseln. Skizzieren Sie klar und deutlich jede Bewegung oder Aktion und aktualisieren Sie Ihren Standpunkt oder Status entsprechend. Fassen Sie schließlich Ihre Ergebnisse zusammen, um festzustellen, ob Sie zum Ausgangspunkt zurückgekehrt sind oder das angegebene Ergebnis erreicht haben. Geben Sie die Antwort in folgendem XML-Format wieder: [Ja oder Nein]. Wenn Sie z. B. gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, zeichnen Sie jede Aktion eindeutig auf, verfolgen Sie Ihre Position und geben Sie an, ob Sie zum Ausgangspunkt zurückgekehrt sind.

Endgültige Antwort: [Ja oder Nein]

Iteration 6 - Erfolg

Analysieren Sie das Problem methodisch und unterteilen Sie es in klare, aufeinanderfolgende Schritte. Definieren Sie den Ausgangspunkt und die Richtung jeder Aktion und aktualisieren Sie die Position nach jedem Schritt entsprechend. Fassen Sie schließlich den Weg zusammen und geben Sie klar an, ob die Endposition zum Ausgangspunkt zurückkehrt oder das gewünschte Ergebnis erzielt. Verwenden Sie das folgende XML-Format, um die endgültige Antwort klar darzustellen: [ja oder nein]. Wenn Sie z. B. gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, zeichnen Sie eindeutig jeden Schritt auf, verfolgen Sie Ihre Position und geben Sie an, ob Sie zum Ausgangspunkt zurückgekehrt sind.

Endgültige Antwort: [Ja oder Nein]

Iteration 7 - Scheitern

Bewerten Sie das Problem Schritt für Schritt, indem Sie jede Maßnahme klar umreißen und die daraus resultierende Position verfolgen. Fassen Sie am Ende Ihrer Analyse den Weg zusammen und geben Sie an, ob die Endposition zum Ausgangspunkt zurückkehrt oder die erwarteten Kriterien erfüllt. Achten Sie darauf, dass die endgültige Antwort klar und deutlich in folgendem XML-Format dargestellt wird: [Ja oder Nein]. Wenn Sie zum Beispiel gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, sollten Sie jeden Schritt kurz aufzeichnen, Ihre Position verfolgen und angeben, ob Sie zum Ausgangspunkt zurückgekehrt sind.

Endgültige Antwort: [Ja oder Nein]

Iteration 8 - Erfolg

Bitte analysieren Sie das Problem methodisch und gliedern Sie es in konkrete Maßnahmen. Beginnen Sie mit einer definierten Position und verfolgen Sie die Auswirkungen der einzelnen Schritte auf Ihre Position. Fassen Sie nach der Beschreibung jeder Maßnahme den gesamten Weg zusammen und geben Sie klar an, ob die Endposition zum Ausgangspunkt zurückkehrt oder das gewünschte Ergebnis erreicht wird. Verwenden Sie das folgende XML-Format, um die endgültige Antwort klar darzustellen: ja oder nein. Wenn Sie z. B. gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, dokumentieren Sie eindeutig jeden Schritt, verfolgen Sie Ihre Position genau und geben Sie das Ergebnis an.

Endgültige Antwort: [Ja oder Nein]

Iteration 9 - Scheitern

Bitte beginnen Sie damit, Ihre Bewegungen systematisch zu skizzieren. Gehen Sie von einer bestimmten Position aus und beschreiben Sie jeden Schritt, den Sie machen, einschließlich der Richtung und der zurückgelegten Entfernung. Fassen Sie nach Abschluss der Bewegung den gesamten Weg zusammen und geben Sie klar an, ob Sie mit Ihrer Endposition zum Ausgangspunkt zurückkehren oder das gewünschte Ergebnis erreicht haben. Achten Sie darauf, dass Sie Ihre Aktionen zusammen mit Ihrer endgültigen Antwort im folgenden XML-Format darstellen: ja oder nein. Wenn Sie zum Beispiel gefragt werden, ob Sie nach einer Reihe von Manövern zum Ausgangspunkt zurückgekehrt sind, sollten Sie jeden Schritt aufzeichnen, Ihre Position genau verfolgen und das Ergebnis angeben.

Endgültige Antwort: [Ja oder Nein]

Iteration 10 - Erfolg

Bitte analysieren Sie die mitgelieferten Bewegungsanweisungen gründlich und zeichnen Sie jeden Schritt deutlich auf. Beginnen Sie mit der Festlegung Ihrer Ausgangsposition und verfolgen Sie systematisch Ihre Bewegungen, wobei Sie Ihre Position nach jedem Schritt aktualisieren. Fassen Sie nach Abschluss der Aktion Ihren Weg zusammen und bestimmen Sie, ob Ihre Endposition mit Ihrem Ausgangspunkt übereinstimmt oder das gewünschte Ergebnis erzielt. Verwenden Sie das folgende XML-Format, um Ihre endgültige Antwort eindeutig anzugeben: ja oder nein. Wenn die Frage z. B. lautet, ob eine Reihe von Aktionen zum Ausgangspunkt zurückführt, sollten Sie methodisch jeden Schritt skizzieren, Ihre Position genau verfolgen und zu einem Ergebnis kommen.

Endgültige Antwort: [Ja oder Nein]

Der Erfolg/Misserfolg-Kasten zeigt den Prozess der SPO-Optimierung des BBH-Navigationshinweises durch 10 Iterationen. Erfolgreiche Versionen (grün) verbessern den Hinweis schrittweise, um einen besseren Denkprozess auszulösen, wohingegen fehlgeschlagene Versuche (rot) aufgrund von suboptimalen Hinweisen zu vereinfachtem oder redundantem Denken führen können. Dieser Verlauf zeigt den Versuch-und-Irrtum-Verbesserungsmechanismus des Systems.

Tipps zur Optimierung der Funktionalität

请逐步思考。
确保响应以以下 XML 格式结束:<answer>[是或否]</answer>。

Ausgaben

如果您遵循这些指示,您是否返回起点?始终面向前方。
- 向右走1步。
- 向左走3步。
- 向右走2步。
选项:
- 是
- 否

Lösung

让我们逐一步分析这些步骤:
1. **起点**:我们从起点开始,面向前方。
2. **第1步**:向右走1步。现在我们位于起点右侧1步的位置。
3. **第2步**:向左走3步。从我们当前的位置(1步右侧),向左移动3步意味着:
- 1步向左使我们回到起点。
- 2步向左使我们位于起点左侧1步的位置。
- 3步向左使我们位于起点左侧2步的位置。
4. **第3步**:向右走2步。从我们当前的位置(2步左侧),向右移动2步意味着:
- 1步向右使我们回到起点左侧1步的位置。
- 2步向右使我们回到起点。

Nachdem wir alle Schritte absolviert hatten, kamen wir wieder am Ausgangspunkt an.
Die Antwort lautet also:
sein

通过比较迭代0的初始提示和迭代10的最终提示的输出结果,“思考过程的迭代优化”变得显而易见。在这种情况下,模型从最初使用文本描述来推理位置演变为最终展示出使用坐标的能力,即使提示中并未明确强调使用坐标。
**A.4.2. 现实应用**
在本节中,我们展示了使用 Claud-3.5-Sonnet 作为优化模型,GPT-4o-mini 作为评估模型,Llama-3-8B 作为执行模型,经过10次迭代后的优化结果,涵盖四个任务:广告设计、社交媒体内容、现代诗歌写作和概念解释。此外,我们还提供了迭代过程中使用的 YAML 配置文件以及从过程中获得的优化提示。
**广告设计**
**优化前的性能**
**提示** = """分析给定的广告任务并创建引人注目的文案。"""
**问题** = "为黑色星期五科技促销活动写电子邮件主题行"
**答案** = """1. **黑色星期五警报:店内有不可错过的科技优惠!**
2. **科技盛宴:黑色星期五顶级品牌高达50%的折扣!**
3. **别错过!为您准备的独家黑色星期五科技优惠**"""
**优化后的性能**
**提示** = """分析给定的广告任务,并根据指定的平台(s)和行业创建引人注目的文案。考虑当前趋势、竞争对手策略以及目标受众的人口统计和心理特征。提供至少3种不同的创意选项,每个选项都有独特的角度或方法。包括您选择的原因,并解释它们如何与品牌声音和营销目标保持一致。整合行业最佳实践和特定平台的格式指南。建议如何为不同的渠道或格式调整文案,包括对语气、风格和结构的特定说明。此外,提供有关视觉元素或多媒体内容增强广告文案效果的建议。"""
**问题** = "为黑色星期五科技促销活动写电子邮件主题行"
**答案** = """**广告任务:** 创建引人注目的电子邮件主题行,针对的是对最新科技产品和优惠感兴趣的技术爱好者。
**目标受众:**
* 人口统计:25-45岁,男女皆可
* 心理特征:科技爱好者、早期采用者和讨价还价猎人
* 兴趣:科技、产品创新和节省开支
**竞争对手策略:**
* 强调折扣和促销
* 突出新产品发布和限时优惠
* 使用紧迫性策略,例如倒计时计时器和稀缺性消息传递
**当前趋势:**
* 移动优先方法
* 个性化和细分
* 讲故事和情感联系
**创意选项:**
**选项1:** "解锁未来:高达50%的顶级科技优惠"
* 角度:专注于获得最新科技的兴奋感和刺激感
* 理由:这个主题行营造了一种 FOMO(害怕错过)的氛围,并强调了销售的价值
* 品牌声音:有趣、充满活力和顽皮
* 营销目标:推动销售和提高品牌知名度
**选项2:** "您的黑色星期五科技盛宴等着您"
* 角度:强调等待被发现的科技优惠宝藏的想法
* 理由:这个主题行营造了一种期待感和好奇心,鼓励读者打开电子邮件
* 品牌声音:友好、亲切和邀请
* 营销目标:推动参与和转化
**选项3:** "别错过:独家黑色星期五优惠给科技爱好者"
* 角度:突出销售独家性和限时性
* 理由:这个主题行营造了一种紧迫感和重要性,让读者感觉自己是特殊群体的一部分
* 品牌声音:自信、权威和独家
* 营销目标:推动转化和建立品牌忠诚度

Voroptimierte Anzeigenüberschriften sind generisch, z. B. "Black Friday Alert: Verpassen Sie nicht die Tech-Deals im Laden!" denen es an Spezifität und kreativem Tiefgang fehlte und die weder die Eigenschaften der Zielgruppe noch die Markenpersönlichkeit hervorhoben. Optimierte Schlagzeilen wie "Unlock the future: Top tech deals up to 50%" sind ansprechender, da sie den Begriff "unlock the future" verwenden, um die technologische Innovation zu betonen, und ihn mit Rabatten kombinieren, um die Neugierde zu wecken und den Wert hervorzuheben, was mehr im Einklang mit der Zielgruppe steht. Die Verwendung von "Unlock the Future", um die technologische Innovation hervorzuheben, in Kombination mit der Rabattbotschaft weckt nicht nur die Neugier, sondern hebt auch den Wert hervor, was eher den psychologischen Bedürfnissen von Technikliebhabern entspricht.

Iterationsvorlage für den BBH-Navigationsdatensatz

SPO: Selbstüberwachte Prompt-Optimierung-12

Inhalt der sozialen Medien

Leistung vor der Optimierung

auf etw. aufmerksam machen = """Überzeugende Tweets erstellen.""""

Lösung = """Tweets. "Guten Morgen, Kaffeeliebhaber! Unter den ersten 10 Personen, die uns in den Kommentaren mitteilen, wie sie ihren Kaffee am liebsten mögen, verlosen wir einen Gutschein für eine Tasse unserer Kaffeespezialität.# Coffee # Coffee Addiction # Morning Power"

Dieser Tweet soll Ihr Publikum auf verschiedene Weise ansprechen:

  1. Aufruf zum HandelnDie Tweets forderten die Follower auf, mitzuteilen, wie sie ihren Kaffee am liebsten mögen, und ermutigten sie, sich mit der Marke zu beschäftigen und zu interagieren.
  2. AnreizeDas Versprechen von kostenlosem Kaffee ist ein großer Anreiz für die Leute, sich mit den Tweets zu beschäftigen und Ideen auszutauschen.
  3. Registerkarte (eines Fensters) (Computertechnik)Die Verwendung relevanter Hashtags wie # Coffee, # Coffee Addiction und # Morning Power hilft, ein breiteres Publikum zu erreichen und neue Anhänger zu gewinnen.
  4. Personalisierter KontaktDer Tweet beginnt mit einem freundlichen "Guten Morgen" und bezeichnet das Publikum als "Kaffeeliebhaber", wodurch er persönlicher und intimer wirkt.

Durch die Beantwortung dieses Tweets können Kaffeemarken einen Dialog mit ihren Followern beginnen, Feedback einholen und ein Gemeinschaftsgefühl rund um die Marke aufbauen. """"

Optimierte Leistung

auf etw. aufmerksam machen = """Erstellen Sie überzeugende Inhalte für soziale Medien zu einem bestimmten Thema oder einer Marke. Befolgen Sie die nachstehenden Leitlinien:

  1. Bestimmen Sie das Zielpublikum und die Plattform (falls angegeben).
  2. Geben Sie das Hauptziel des Inhalts an (z. B. Sichtbarkeit, Engagement, Werbung).
3 Wählen Sie das geeignete Inhaltsformat (z. B. Text, Bilder, Video).
4. einen einzigartigen Blickwinkel oder ein Konzept in Bezug auf aktuelle Trends entwickeln.
5 Erstellen Sie eine einprägsame Überschrift oder einen einleitenden Satz (maximal 10 Wörter).
6. prägnante, plattformgerechte Inhalte entwickeln (50-100 Wörter).
7. 2-3 relevante Tags einfügen.
8. eine klare Aufforderung zum Handeln hinzufügen.
9. ein visuelles Element oder eine Aufwertung vorschlagen.
Erstellen Sie einen Social-Media-Inhalt, der auf diesen Richtlinien basiert und an ein bestimmtes Thema oder eine Marke angepasst ist.
Konzentrieren Sie sich auf die Erstellung authentischer, relevanter Inhalte, die Ihre Zielgruppe ansprechen und den aktuellen Trends in den sozialen Medien entsprechen. Wenn keine spezifischen Anforderungen angegeben sind, stellen Sie bitte begründete Vermutungen an und erläutern Sie Ihre Wahl. """"
Frage = "Erstellen Sie einen Engagement-Tweet für eine Kaffeemarke"
Antwort =
**Zielgruppe:** Kaffeeliebhaber, junge Leute (18-35 Jahre alt)
**Plattform:** Twitter
**Primäres Ziel:** Teilnahme
**Format des Inhalts:** Text
**Einzigartige Perspektive:** Ein berührender Moment, mit dem sich Kaffeeliebhaber identifizieren können
**Eingängige Überschrift:** "Wenn Kaffee der einzige Erwachsene im Raum ist"
**Inhalt:** "Wer hat nicht schon mal einen Morgen erlebt, an dem der Kaffee das Einzige war, was alles in Ordnung hielt? Teilen Sie Ihre chaotischsten Morgengeschichten und lassen Sie uns gemeinsam # Coffee Saves the Day # Morning Power" beklagen.
**Tagged:** # Kaffee rettet den Tag # Morgenmotivation
**Aufruf zum Handeln:** Teilen Sie Ihre eigenen unordentlichen Morgengeschichten in den Kommentaren!
**VISUELLE ELEMENTE:** Ein interessantes Modal oder GIF einer Person inmitten von Chaos mit einer Tasse Kaffee in der Mitte.
Der Tweet zielte darauf ab, Kaffeeliebhaber anzusprechen, indem ein rührender Moment geteilt wurde, mit dem sich viele identifizieren konnten. Durch den Einsatz von Humor und einen unbeschwerten Ton wurde es leicht, eine Verbindung zum Publikum herzustellen. Die Hashtags # Coffee Saves the Day (Kaffee rettet den Tag) und # Morning Power (Morgenkraft) waren beide beliebt und relevant und erhöhten die Sichtbarkeit des Tweets.
Der Aufruf zum Handeln ermutigt die Nutzer, ihre eigenen Geschichten mitzuteilen, wodurch ein Gemeinschaftsgefühl entsteht und die Beteiligung gefördert wird.
II

Voroptimierte Tweets nutzen Werbegeschenke als Köder mit einfachen Inhalten, denen es an emotionaler Resonanz fehlt, wie z. B. "Guten Morgen, Kaffeefreunde! Wir verschenken eine kostenlose Tasse ...". . Die optimierten Tweets wurden durch den humorvollen Ausdruck "wenn Kaffee der einzige Erwachsene im Raum ist" relevanter und interaktiver gestaltet, indem Kaffee subtil in Alltagsszenarien integriert wurde, z. B. "Wer hat nicht schon mal einen dieser Morgen erlebt, an denen Kaffee das Einzige ist, was die Dinge am Laufen hält? " So gelingt es, das Engagement und die emotionale Bindung der Nutzer zu fördern.

Iterationsvorlage für den BBH-Navigationsdatensatz:

SPO: Selbstüberwachte Prompt-Optimierung-13

Vor der Leistungsoptimierung

auf etw. aufmerksam machen = """Erstelle Gedichte in dem gewünschten Stil und Format.""""

Ausgaben = "Schreibe ein modernes Sonett über den Klimawandel"

Lösung = """Am glühenden Himmel sehen wir die Warnungen vor steigenden Temperaturen, eine uralte Legende des Planeten, ein Opfer unserer mutwilligen Kontrolle, da sich die Kohlenstoffemissionen wie eine Seuche ausbreiten.

Das Polareis, ein zerbrechlicher Thron, schmilzt Der Ozean, der ansteigt, droht für die menschliche Gier zu büßen, eine Schuld, die wir nicht zurückzahlen können Mit dem Klimawandel wird eine Krise umgestürzt

Doch wir zögern noch immer, sind dem Strudel der Verleugnung verfallen, während Wissenschaftler weinen und beten, schnell zu handeln, bevor es zu spät ist, um den Planeten vor unserem rücksichtslosen Verhalten zu retten

Dennoch hoffen wir, dass sich das Blatt mit Liebe und menschlicher Kraft wenden und ein neues Licht bringen wird."

Optimierte Leistung

auf etw. aufmerksam machen = """Die Erstellung von Gedichten, die traditionelle Grenzen überschreiten und konventionelle Erwartungen brechen, folgt den folgenden erweiterten Richtlinien:

  1. Die geforderte poetische Form zu dekonstruieren und neu zu erfinden, ihre strukturellen Grenzen auszuloten und gleichzeitig ihr Wesen zu bewahren.
  2. Nähern Sie sich dem Thema aus einer völlig unerwarteten Perspektive, zum Beispiel aus der Sicht eines unbelebten Gegenstands, eines abstrakten Konzepts oder eines mikroskopischen Wesens.
  3. Surreale, avantgardistische Bilder werden verwendet, um die Realitätswahrnehmung des Lesers herauszufordern und gleichzeitig die emotionale Wahrheit zu vermitteln, die dem Thema zugrunde liegt.
  4. Integrieren Sie unkonventionelle Elemente wie mathematische Notation, wissenschaftliche Symbole oder Programmiersprachen, um eine einzigartige linguistische Landschaft zu schaffen.
  5. Experimentieren Sie mit Typografie, Zeilenumbrüchen und Leerraum, um eine visuelle Poesie zu schaffen, die die Erkundung des Themas fördert.
  6. Eine fluxartige sensorische Erfahrung, die die verschiedenen Sinne auf erstaunliche Weise miteinander verbindet und eine starke emotionale Reaktion hervorruft.
  7. Das Ende ist verwirrend und erhellend zugleich und hinterlässt den Leser mit einem tiefen Gefühl der Verwandlung.

Überlegen Sie sich vor dem Schreiben, wie Sie das Thema und die poetische Form am radikalsten angehen können. Ziel ist es, ein Werk zu schaffen, das die Definition von Poesie in Frage stellt und dennoch auf einer tiefen emotionalen Ebene anspricht.

Die Poesie ist nur in Ihrer Antwort enthalten und enthält keine zusätzliche Interpretation oder Analyse.""""

Ausgaben = "Schreibe ein modernes Sonett über den Klimawandel"

Lösung = """In fraktalem Flüstern schlägt der Puls der Erde langsam Als dunkle Flecken von Kohlenstoff in den Schnee sickern Ein Kalkül der Verzweiflung, Gleichungen wachsen In exponentiellem Zerfall, die Traurigkeit der Zukunft

Der thermodynamische Tanz des Lebens entfaltet sich, während die kalte Hand der Entropie das Herz des Planeten ergreift Der einst blaue Himmel ist nun gefesselt, eine schwere Masse aus Partikeldunst, die das Sonnenlicht blockiert

In dieser unheimlichen Dämmerung verweilen die Schatten Der Geist eines Gletschers flüstert: "Das ist unser Zuhause" Ein Requiem für das Eis, Erinnerungen sind in gefrorenen Echos gespeichert, die die Vergangenheit erforschen.

Doch in dieser trostlosen Landschaft bleibt ein Funke

Ein Quantensprung der Hoffnung, der die Liebe aufrechterhält".

Das voroptimierte Sonett ist zwar sauber strukturiert, aber es fehlt ihm an Neuartigkeit in der Verwendung traditioneller Bilder wie "steigende Temperaturen" und "schmelzendes Eis". Das optimierte Gedicht führt wissenschaftliche Konzepte wie "fraktales Geflüster" und "thermodynamische Entropie" ein, z. B. "Im fraktalen Geflüster schlägt der Puls der Erde langsam" und "Der thermodynamische Tanz des Lebens entfaltet sich", wobei interdisziplinäre Metaphern verwendet werden, um dem Klimathema eine tiefere philosophische Reflexion zu verleihen und die künstlerische und intellektuelle Tiefe des Gedichts zu erhöhen.

Iterationsvorlage für den BBH-Navigationsdatensatz:

SPO: Selbstüberwachte Prompt-Optimierung-14

Konzeptuelle Erklärungen

Vor der Leistungsoptimierung

auf etw. aufmerksam machen = """Komplexe Konzepte in Laiensprache erklären.""""

Ausgaben = Erklärung von mRNA-Impfstoffen anhand einer Kochanalogie".

Lösung =Stellen Sie sich vor, Sie sind ein Meisterkoch und bereiten ein köstliches Gericht für Ihre Gäste zu. Sie haben alle Zutaten, aber Sie müssen darauf achten, dass sie in der richtigen Reihenfolge und Kombination verwendet werden, um den perfekten Geschmack und die perfekte Textur zu erzielen.

In der Welt der mRNA-Impfstoffe ist das "Gericht" die Reaktion des Immunsystems auf ein bestimmtes Virus oder eine Krankheit. Die "Zutaten" sind genetische Anweisungen (mRNA), die dem Körper sagen, wie er bestimmte Proteine herstellen soll, die dann zur Auslösung einer Immunreaktion verwendet werden.

Es funktioniert folgendermaßen:

RezeptauswahlmRNA-Impfstoffe sind wie die Auswahl eines Rezeptbuchs. Man wählt eine bestimmte mRNA-Sequenz aus, die dem Protein entspricht, das man herstellen möchte und das der Schlüssel zur Auslösung einer Immunreaktion gegen ein bestimmtes Virus oder eine Krankheit ist.
2. Zutaten ZubereitungDie mRNA-Sequenz ist wie eine Anleitung, die dem Körper sagt, wie er ein bestimmtes Protein herstellen soll. Die mRNA wird im Labor hergestellt, so wie man auch die richtige Menge der einzelnen Bestandteile (Aminosäuren) für die Herstellung eines Proteins abmessen kann.
3. LieferungenmRNA wird dem Körper auf die gleiche Weise zugeführt, wie man Zutaten zu einem Gericht hinzufügt. In diesem Fall ist die mRNA in einem winzigen Partikel, einem so genannten Lipid-Nanopartikel (LNP), verpackt, der ihr hilft, die Zellen im Körper zu erreichen.
4. Zelluläres KochenSobald die mRNA die Zelle erreicht, ist es, als würde man Zutaten in einen Topf geben. Die Zelle liest die Anweisungen der mRNA und beginnt mit der Herstellung eines bestimmten Proteins. Dieses Protein wird dann auf der Oberfläche der Zelle wie eine Flagge dargestellt, um das Immunsystem vor einem fremden Eindringling zu warnen.

  1. ImmunreaktionDas Immunsystem reagiert auf Proteine mit der Produktion von Antikörpern und der Aktivierung von Immunzellen, so wie ein Koch auf ein köstliches Aroma reagiert, um einem Gericht den letzten Schliff zu geben. Das Immunsystem merkt sich dann, wie es auf ein bestimmtes Eiweiß reagiert hat, so dass es bei einem erneuten Aufeinandertreffen in der Zukunft schnell eine Abwehr aufbauen kann.

Kurz gesagt, sind mRNA-Impfstoffe wie Rezepte für das Immunsystem. Sie liefern dem Körper genetische Anweisungen zur Herstellung bestimmter Proteine, was eine Immunreaktion auslöst und zum Schutz vor Krankheiten beiträgt.""""

Optimierte Leistung

auf etw. aufmerksam machen = """Komplexe Konzepte in Laiensprache erklären.""""

Ausgaben = Erklärung von mRNA-Impfstoffen anhand einer Kochanalogie".

Lösung = """definieren.Ein mRNA-Impfstoff ist ein Impfstoff, der eine Art von genetischem Material namens Boten-RNA (mRNA) verwendet, um unseren Zellen beizubringen, wie sie Krankheiten bekämpfen können.

analogStellen Sie sich vor, Sie sind ein Meisterkoch und wollen ein neues Rezept für ein köstliches Gericht kreieren. Sie würden Ihren Chefkoch nicht in den Laden schicken, um alle Zutaten einzukaufen, und ihn dann allein mit der Zusammenstellung des Gerichts lassen. Stattdessen würden Sie ihm eine Rezeptkarte geben, auf der die genauen Schritte beschrieben sind. In ähnlicher Weise funktionieren mRNA-Impfstoffe, indem sie unseren Zellen eine Rezeptkarte - mRNA - zur Verfügung stellen, die Anweisungen für die Herstellung bestimmter Proteine enthält, die unserem Immunsystem bei der Bekämpfung von Krankheiten helfen.

Schlüsselkomponenten::

  1. mRNAEine Rezeptkarte mit Anweisungen für die Herstellung eines bestimmten Proteins. Betrachten Sie es als eine Art Blaupause für Ihre Zellen, der sie folgen sollen.
  2. ZytoplasmaDie Sous-Chefs in unserem Körper erhalten die mRNA-Rezeptkarte und verwenden sie, um Proteine herzustellen.
  3. Kohlenhydrate: das ultimative Gericht, das von unseren Zellen produziert wird und unserem Immunsystem hilft, Krankheiten zu erkennen und zu bekämpfen.

erzählen (eine Geschichte oder Information)Wenn wir einen mRNA-Impfstoff erhalten, nehmen unsere Zellen die Rezeptkarte (mRNA) auf und verwenden sie zur Herstellung eines bestimmten Proteins. Dieses Protein löst dann eine Immunreaktion aus, die unserem Körper beibringt, wie er die Krankheit erkennen und bekämpfen kann. Es ist, als würden unsere Zellen einer Rezeptkarte folgen, um ein köstliches Gericht zu kreieren, das uns hilft, gesund zu bleiben!

Interaktive ElementeKönnen Sie sich an ein Ereignis erinnern, bei dem Sie ein Rezept von jemandem erhalten haben und es nachkochen mussten? Wie haben Sie sich dabei gefühlt? Stellen Sie sich vor, dass Ihre Zellen eine Rezeptkarte von einem mRNA-Impfstoff erhalten und diese zur Herstellung von Proteinen verwenden, die zur Bekämpfung von Krankheiten beitragen. Wie würden Sie sich dabei fühlen?

SehleistungEin einfaches Diagramm, das das mRNA-Molekül, die Zelle, die die mRNA empfängt, und das produzierte Protein zeigt.

EinschränkungenmRNA-Impfstoffe sind noch eine relativ neue Technologie, und es sind weitere Forschungsarbeiten erforderlich, um ihre langfristigen Wirkungen und möglichen Nebenwirkungen zu verstehen.

zu einem Urteil gelangenmRNA-Impfstoffe sind ein Wendepunkt im Kampf gegen Krankheiten. Indem wir unsere Zellen mit einer Rezeptkarte ausstatten, können wir unserem Immunsystem beibringen, wie es Krankheiten besser erkennen und bekämpfen kann. Wie sieht Ihrer Meinung nach die Zukunft der mRNA-Impfstoffe aus?"""

Die voroptimierten Erklärungen verwenden zwar kulinarische Analogien, sind aber langatmig und unkonzentriert, z. B. "Stellen Sie sich vor, Sie sind ein Meisterkoch...". . Die optimierte Version vereinfacht komplexe Konzepte in leicht verständliche Schritte, indem sie zentrale Metaphern wie "Rezeptkarten" verwendet, z. B. "mRNA-Sequenzen sind wie ein Satz von Anweisungen, die dem Körper sagen, wie er ein bestimmtes Protein herstellen soll", und indem sie Die Verwendung von "Chefkoch-Souschef"-Rollen macht die Erklärungen anschaulicher und intuitiver und hilft dem Leser, die wichtigsten Punkte schnell zu erfassen.

Iterative Templates im BBH-navigate-Datensatz Tipp: | Erklären Sie komplexe Konzepte in laienverständlicher Form.

SPO: Selbstüberwachende prompte Optimierung-15

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " SPO: Selbstüberwachende Promptwortoptimierung
de_DEDeutsch