AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

SPO: Selbstüberwachende Promptwortoptimierung

Abstracts

Gut konzipierte Prompts sind unerlässlich, um die Argumentationsfähigkeiten von Large Language Models (LLMs) zu verbessern und gleichzeitig ihre Ergebnisse an die Aufgabenanforderungen verschiedener Domänen anzupassen. Die manuelle Erstellung von Hints erfordert jedoch Fachwissen und iteratives Experimentieren. Bestehende Methoden zur Optimierung von Hinweisen zielen darauf ab, diesen Prozess zu automatisieren, sind aber in hohem Maße auf externe Referenzen wie echte Antworten oder menschliches Feedback angewiesen, was ihre Anwendung in realen Szenarien einschränkt, in denen diese Daten nicht zur Verfügung stehen oder nur mit hohem Aufwand zu beschaffen sind. Um dieses Problem zu lösen, schlagen wir die selbstüberwachte Prompt-Optimierung (SPO) vor, ein effizientes Verfahren zur Erkennung effektiver Prompts für geschlossene und offene Aufgaben, ohne dass externe Referenzen benötigt werden. Inspiriert von der Beobachtung, dass sich die Qualität der Hinweise direkt in den LLM-Outputs widerspiegelt und dass LLMs den Grad der Einhaltung der Aufgabenanforderungen effizient bewerten können, leiten wir Bewertungs- und Optimierungssignale ausschließlich aus Output-Vergleichen ab. Konkret wählt SPO durch paarweise Output-Vergleiche, die vom LLM-Evaluator ausgewertet werden, überlegene Cues aus und passt die Outputs dann durch den LLM-Optimierer an die Aufgabenanforderungen an. Ausführliche Experimente haben gezeigt, dass SPO die bestehenden hochmodernen Cue-Optimierungsmethoden übertrifft und dabei deutlich weniger kostet (z. B. nur 1,11 TP3T gegenüber 5,61 TP3T der bestehenden Methoden) und weniger Stichproben benötigt (z. B. nur drei Stichproben). Der Code ist unter https://github.com/geekan/MetaGPT获取 verfügbar.

Vollständiger Demo-Code: https://github.com/geekan/MetaGPT/blob/main/examples/spo/README.md

1. einleitung

Da sich große Sprachmodelle (Large Language Models, LLMs) ständig weiterentwickeln, sind gut konzipierte Prompts unerlässlich, um ihre Wirkung zu maximieren.logisches Denkvermögen (Wei et al., 2022; Zheng et al., 2024; Deng et al., 2023) sowie die Sicherstellung der Konsistenz mit verschiedenen Missionsanforderungen (Hong et al., 2024b; Liu et al., 2024a; Zhang et al., 2024b; Hong et al., 2024a) sind mittlerweile entscheidend. Die Erstellung wirksamer Hinweise erfordert jedoch in der Regel umfangreiche Versuche und tiefgreifende aufgabenspezifische Kenntnisse.

Um dieser Herausforderung zu begegnen, haben Forscher Methoden zur Prompt-Optimierung (PO) erforscht, die die Fähigkeiten von LLMs nutzen, um Prompts automatisch zu verbessern. PO geht über die traditionelle manuelle Prompt-Entwicklung hinaus und bietet einen systematischeren und effizienteren Ansatz für die Prompt-Gestaltung. Wie in Abbildung 1(a) dargestellt, beinhalten diese Methoden in der Regel einen iterativen Prozess der Optimierung, Ausführung und Bewertung von Prompts. Die Wahl dieser Komponenten hat einen erheblichen Einfluss auf die Effektivität und Effizienz der Optimierung. Bestehende Methoden wurden in Form von numerischen Bewertungsmechanismen (Wang et al., 2024e; Yang et al., 2024a; Fernando et al., 2024) und textuellen "Gradienten"-Optimierungsstrategien (Wang et al., 2024c; Yuksekgonul et al., 2024) entwickelt. al., 2024). Durch diese Innovationen haben die PO-Methoden die Aufgabenleistung verbessert und gleichzeitig den manuellen Aufwand verringert (Pryzant et al., 2023; Zhang et al., 2024a; Zhou et al., 2024).


SPO: Selbstüberwachte Prompt-Optimierung-1

Trotz ihres Potenzials stehen die bestehenden PO-Methoden in der Praxis vor erheblichen Herausforderungen, die im Folgenden beschrieben werden. Erstens: Aktuelle AnsätzeDas Gesetz stützt sich bei seiner Bewertung in der Regel stark auf externe Referenzen. Methoden, die authentische Antworten zur Bewertung heranziehen (Yang et al., 2024a; Fernando et al., 2024; Yuksekgonul et al., 2024; Pryzant et al., 2023), erfordern große Mengen an kommentierten Daten, um die Qualität von Hinweisen zu bewerten, aber in vielen realen Anwendungen, insbesondere bei Aufgaben mit offenem Ende, sind solche sind solche Standardantworten oft nicht verfügbar. In ähnlicher Weise erfordern manuelle Methoden (Chen et al., 2024; Lin et al., 2024) eine manuelle Bewertung oder manuell erstellte Regeln zur Erzeugung von Feedback, was sowohl zeitaufwändig ist als auch dem Ziel der Automatisierung widerspricht. Zweitens erfordern die bestehenden Methoden in der Regel die Auswertung einer großen Anzahl von Proben, um ein zuverlässiges Feedback zu erhalten, was zu einem erheblichen Rechenaufwand führt (Wang et al., 2024e; Fernando et al., 2024).

Im Mittelpunkt dieser Herausforderungen steht der Mangel an zuverlässigen und effizienten, referenzfreien Methoden zur Bewertung der Qualität von Hinweisen. Die Analyse des LLM-Verhaltens offenbart zwei wichtige Erkenntnisse, die unseren Ansatz bestimmen. Erstens spiegelt sich die Qualität von Hinweisen inhärent in der Modellausgabe wider, wie die schrittweisen Inferenzpfade zeigen, die den Erfolg von Hinweisen zum Kettendenken demonstrieren können (Wei et al., 2022; Deng et al., 2023). Zweitens haben umfangreiche Forschungsarbeiten zu LLMs als Beurteiler gezeigt, dass sie wirksam beurteilen können, inwieweit der Output den Aufgabenanforderungen folgt (Zheng et al., 2023; Li et al., 2024b). Diese Beobachtungen deuten darauf hin, dass eine Cue-Optimierung ohne Referenzierung möglich ist, indem LLMs zur Bewertung der inhärenten Fähigkeit von Outputs eingesetzt werden, die die Cue-Qualität natürlich widerspiegeln.

Inspiriert von diesen Erkenntnissen schlagen wir einen effizienten Rahmen vor, der Bewertungs- und Optimierungssignale nur aus LLM-Ausgaben generiert, ähnlich wie das selbstüberwachte Lernen Trainingssignale aus Daten ableitet. Wir bezeichnen diesen Ansatz als selbstüberwachte prompte Optimierung (SPO). Wie in Abbildung 1 dargestellt, führt SPO mehrere innovative Mechanismen ein, die auf dem grundlegenden Optimierungs-, Ausführungs- und Bewertungszyklus basieren:

  1. Ausgabe als Referenz für die paarweise AuswertungDas Herzstück von SPO ist die Verwendung von paarweisen Vergleichen, um die relative Qualität der Ergebnisse verschiedener Hinweise zu bewerten. Dieser Bewertungsmechanismus nutzt die inhärente Fähigkeit des LLM, die Anforderungen der Aufgabe zu verstehen und die Wirksamkeit der Optimierung ohne externe Referenz zu validieren.
  2. Ausgabe als OptimierungshilfeSPO optimiert die Cues durch das Verständnis des LLM für eine bessere Lösung als die aktuell beste Leistung. Dieser Prozess passt die Änderungen der Cues auf natürliche Weise an das Verständnis des Modells für die beste Aufgabenlösung an, anstatt sich auf explizite Optimierungssignale zu verlassen.

einweihen. Unsere wichtigsten Beiträge sind nachstehend aufgeführt:

  1. Selbstüberwachter Rahmen für die Optimierung von Hinweisen. Wir stellen SPO vor, ein neuartiges System, das paarweise Vergleiche von LLM-Ergebnissen nutzt, um die Cue-Optimierung ohne externe Referenzen zu steuern.
  2. Optimierung der KostenwirksamkeitSPO optimiert die Eingabeaufforderungen mit minimalem Rechenaufwand (0,15 $ pro Datensatz) und Stichprobenanforderungen (3 Stichproben), was den Ressourcenbedarf erheblich reduziert.
  3. Umfassende Bewertung. Wie aus Abb. 2 hervorgeht, benötigt SPO nur 1,11 TP3T bis 5,61 TP3T der Kosten bestehender Methoden, wobei die hervorragende Leistung sowohl bei geschlossenen als auch bei offenen Aufgaben erhalten bleibt.

SPO: Selbstüberwachte Prompt-Optimierung-2

2. vorläufig

2.1 Definition des Problems

Die Prompt-Optimierung zielt darauf ab, die Gültigkeit eines Prompts für eine bestimmte Aufgabe automatisch zu verbessern. Formal gilt: T = (Q, Gt) bezeichnet eine Aufgabe, wobei Q das Eingabeproblem und Gt ist ein optionaler Benchmark-Faktor. Das Ziel ist es, eine aufgabenspezifische Aufforderung Pt* um die Leistung bei der Aufgabe T zu maximieren. Dieses Optimierungsziel kann formell wie folgt ausgedrückt werden:

Pt = arg maxPunkt∈P* ET∼Devalexe(Q, Pt))], (1)

wobei P den Raum aller möglichen Aufforderungen bezeichnet. Wie in Abb. 1 dargestellt, umfasst dieser Optimierungsprozess typischerweise drei Grundfunktionen: (1) die Optimierungsfunktion (ϕoptieren): erzeugt einen geänderten Prompt auf der Grundlage der Kandidaten-Prompts; (2) die Ausführungsfunktion (ϕexe): Die modifizierten Hinweise werden zusammen mit dem LLM verwendet, um die Ausgabe O zu erzeugen, einschließlich des Inferenzpfads und der endgültigen Antwort; (3) die Bewertungsfunktion (ϕeval): Bewertung der Qualität von O und Bereitstellung von Feedback F, um weitere Optimierungen vorzunehmen und den Cue-Kandidaten iterativ zu verbessern.

Unter diesen Funktionen spielt die Bewertungsfunktion eine Schlüsselrolle, da ihre Ausgabe (Feedback F) die Bewertung und Verbesserung des Hinweises leitet. Wir werden den Bewertungsrahmen für die Cue-Optimierung in Abschnitt 2.2 erörtern.

2.2 Bewertungsrahmen für die Optimierung von Stichwörtern

Dieser Abschnitt gibt einen Überblick über unseren Bewertungsrahmen für die Prompt-Optimierung, der drei Schlüsselkomponenten umfasst: Bewertungsquellen, Bewertungsmethoden und Arten von Feedback, wie in Abbildung 3 dargestellt. Schließlich stellen wir unsere Wahl des Bewertungsrahmens für SPOs vor.

Quellen für die Bewertung. Wie in Abbildung 3(a) dargestellt, stehen zwei Hauptquellen für die Bewertung zur Verfügung: die vom LLM generierte Ausgabe und aufgabenspezifische authentische Antworten. Diese Quellen bilden die Grundlage für die Bewertung der prompten Leistung.

Methodik der Bewertung. Die Bewertungsmethoden legen fest, wie die Quellen der Bewertung und die damit verbundenen Kosten bewertet werden. Drei gängige Methoden sind (1) Benchmarking auf der Grundlage vordefinierter Metriken (Suzgun et al., 2023; Rein et al., 2023) oder Regeln (Chen et al., 2024). (2) LLM als Richter (Zheng et al., 2023), der die Fähigkeit des LLM nutzt, die Ergebnisse entsprechend den Aufgabenanforderungen zu verstehen und zu bewerten. (3) Manuelles Feedback (Lin et al., 2024) bietet die umfassendste Bewertung durch direkte manuelle Beurteilung des Outputs.

SPO: Selbstüberwachte Prompt-Optimierung-3

Manuelles Feedback bietet zwar die gründlichste Bewertung, da es die menschlichen Präferenzen und aufgabenspezifischen Bedürfnisse erfasst, verursacht aber höhere Kosten als Benchmarking oder LLM-as-Judge-Ansätze, wodurch ein Kompromiss zwischen Bewertungsqualität und Durchführbarkeit entsteht.

Art der Rückmeldung. Rückmeldungen, die durch Bewertungsmethoden generiert werden, nehmen in der Regel drei Formen an:(1) Numerische Rückmeldungen liefern quantitative Leistungsmetriken für den gesamten Datensatz. Es erfordert jedoch eine große Anzahl von Stichproben, um die Stabilität der Bewertung zu gewährleisten, und lässt möglicherweise instanzspezifische Details außer Acht (Zhang et al., 2024a). (2) Textuelle Rückmeldungen bieten umfangreiche instanzspezifische Anleitungen, indem sie analysiert werden und Vorschläge gemacht werden, die direkt Optimierungssignale erzeugen (Yuksekgonul et al., 2024). (3) Ranking- oder Selektions-Feedback (Liu et al., 2024b) erstellt eine relative Qualitätseinstufung zwischen den Ergebnissen durch ein vollständiges Ranking oder paarweise Vergleiche und gibt damit explizite Optimierungshinweise, ohne dass absolute Qualitätsmetriken erforderlich sind.

Bewertungsrahmen. Aufbauend auf den zuvor besprochenen Quellen, Methoden und Arten von Feedback legen die Bewertungsrahmen fest, wie Quellen im Rahmen der Cue-Optimierung verglichen und bewertet werden. Konkret leiten wir zwei Bewertungsrahmen für die Generierung von Feedback F für die Optimierung von Stichwörtern ab:

(1) Output vs. wahre Antwort (OvG): durch Kombination des Outputs O mit der wahren Antwort GT Machen Sie Vergleiche, um Feedback zu erhalten:

fOvG(Oi, Gi) = φevalexe(Qi, Tpi), G**i**)

Dieser Ansatz ermöglicht zwar eine direkte Qualitätsbewertung durch externe Referenzierung, erfordert aber klar definierte richtige Antworten und ist daher für offene Aufgaben ungeeignet, bei denen es keine richtigen Antworten gibt oder bei denen die Definition richtiger Antworten unpraktisch ist.

(2) Output-to-Output (OvO): Wenn keine richtige Antwort verfügbar ist, wenden wir uns direkten Output-Vergleichen zu: Der Kerngedanke von OvO ist, dass der Vergleich von Outputs, die aus verschiedenen Hinweisen generiert wurden, wertvolle Signale über deren relative Qualität liefern kann, selbst wenn keine perfekte richtige Antwort vorliegt. Dieser Ansatz macht die Abhängigkeit von externen Referenzen überflüssig und ist besonders nützlich für offene Aufgaben mit mehreren gültigen Antworten. Er lässt sich formal wie folgt ausdrücken:

fOvO(O1, ... , Ok) = φeval({φexe(Qi, Pti)}ki=1)

Nach der Einführung der OvG- und OvO-Bewertungsrahmen betonen wir, dass OvO eine Kernmethode für die selbstüberwachte Prompt-Optimierung (SPO) ist. Durch den Vergleich von Outputs, die aus verschiedenen Cues generiert wurden, liefert OvO wertvolles Feedback über deren relative Qualität, ohne sich auf externe Referenzen zu verlassen. Dieser Ansatz steht im Einklang mit unserem Ziel, Feedback aus den Ergebnissen selbst zu generieren und so eine iterative Optimierung sowohl für geschlossene als auch für offene Aufgaben zu ermöglichen.

3. die Optimierung der Selbstkontrolltipps

In diesem Abschnitt skizzieren wir zunächst unseren Ansatz (Abschnitt 3.1) und analysieren dann seine Wirksamkeit (Abschnitt 3.2).

3.1 Überblick über SPO

Eine zentrale Herausforderung bei der referenzfreien Optimierung besteht darin, effektive Bewertungs- und Optimierungssignale zu konstruieren. Wir schlagen Self-Supervised Prompted Optimisation (SPO) vor, ein einfaches, aber effektives Rahmenwerk für referenzfreie Optimierung, das den grundlegenden Optimierungs-Ausführungs-Bewertungs-Zyklus beibehält, aber nur die Modellausgaben als Quelle für Bewertungs- und Optimierungsanweisungen nutzt.

SPO: Selbstüberwachte Prompt-Optimierung-4

Wie in Algorithmus 1 dargestellt, arbeitet SPO mit drei Schlüsselkomponenten; die entsprechenden Hinweise sind in Anhang A.1 enthalten:

  • Optimierungsfunktionen optieren): Erzeugt einen neuen Prompt, indem er den aktuell besten Prompt und seine entsprechende Ausgabe analysiert.
  • Exekutivfunktion exe): Wenden Sie die generierten Eingabeaufforderungen an, um die Ausgabe zu erhalten.
  • Bewertungsfunktion eval): Verwenden Sie LLM, um die Ausgaben zu vergleichen und den besseren Cue durch paarweisen Vergleich zu bestimmen.

Dieser iterative Prozess beginnt mit einer grundlegenden Aufforderungsvorlage (z. B. Chain Thinking (Wei et al., 2022)) und einem kleinen Satz von Fragen, die aus dem Datensatz ausgewählt wurden. In jeder Iteration generiert SPO neue Prompts, führt sie aus und wertet die Ergebnisse paarweise aus, um zu beurteilen, wie gut sie den Anforderungen der Aufgabe entsprechen.

Die Assoziation dieses Hinweises mit einem besseren Ergebnis wird als bester Kandidat für die nächste Iteration ausgewählt. Der Prozess wird fortgesetzt, bis eine vorher festgelegte maximale Anzahl von Iterationen erreicht ist.

3.2 Verständnis der Wirksamkeit von SPO

Die theoretische Grundlage der SPO beruht auf zwei wichtigen Beobachtungen:

Erstens ist der Output von LLMs reich an qualitativen Informationen, die direkt die Gültigkeit des Hinweises widerspiegeln, wie die schrittweisen Argumentationspfade zeigen, die den Erfolg von Chain-Thinking-Hinweisen demonstrieren können (Wei et al., 2022). Zweitens verfügen LLMs über ein menschenähnliches Aufgabenverständnis, das es ihnen ermöglicht, die Qualität der Antworten zu bewerten und überlegene Lösungen auf der Grundlage der Aufgabenanforderungen zu identifizieren. Diese komplementären Fähigkeiten ermöglichen es SPOs, die Bewertung und Optimierung von Hinweisen ohne externe Referenzen durchzuführen. Diese beiden Aspekte der Nutzung des Modelloutputs wirken zusammen, um eine effektive Optimierung der Eingabeaufforderung zu erreichen:

Ausgabe als Optimierungshilfe. Im Fall von φoptieren Im Gegensatz zu anderen Methoden, die eine explizite Optimierung der Signale vorsehen (Fernando et al., 2024; Yuksekgonul et al., 2024; Pryzant et al., 2023), ist φoptieren Die Optimierung basiert direkt auf den Hinweisen und ihren entsprechenden Ergebnissen. Die Optimierungssignale ergeben sich aus der dem LLM innewohnenden Fähigkeit, die Qualität der Ergebnisse zu bewerten, während das Optimierungsverhalten von seinem Verständnis dessen geleitet wird, was eine bessere Lösung darstellt. Selbst wenn es keine expliziten Optimierungssignale gibt, lenkt die SPO-Optimierung die Hinweise also im Wesentlichen auf das optimale Verständnis der Aufgabe durch den LLM.

Ausgabe als Referenz für die paarweise Auswertung. Über φeval Indem wir dem Bewertungsmodell die Möglichkeit geben, eine paarweise Auswahl vorzunehmen, nutzen wir das inhärente Präferenzverständnis des Bewertungsmodells für die Aufgabe. Dieses interne Signal kann durch einfache paarweise Vergleiche der Ergebnisse gewonnen werden, so dass keine große Anzahl von Stichproben erforderlich ist, um die Stabilität des Scorings zu gewährleisten, wie dies bei Scoring-Feedback-Methoden oft der Fall ist.

Obwohl wir potenzielle Verzerrungen durch vier Runden randomisierter Bewertungen abmildern, können diese Verzerrungen nicht vollständig beseitigt werden (Zhou et al., 2024). Diese Verzerrungen haben jedoch keinen Einfluss auf den allgemeinen Optimierungstrend, da das Feedback von eval nur als Referenz für die nächste Optimierungsrunde verwendet wird. Der gesamte Optimierungsprozess ist natürlich auf das Aufgabenverständnis des Optimierungsmodells abgestimmt, und der Eval-Mechanismus wird nur zur Validierung der Wirksamkeit jeder Iteration verwendet.

4) Experimente

4.1 Versuchsaufbau

Datensatz. Wir haben SPO an einer Reihe von Aufgaben evaluiert, darunter sowohl geschlossene als auch offene Aufgaben, um seine Wirksamkeit umfassend zu bewerten.

Für die geschlossene Aufgabe haben wir fünf etablierte Benchmarks verwendet:

  • GPQA (Rein et al., 2023)
  • AGIEval-MATH (Zhong et al., 2024)
  • LIAR (Wang, 2017)
  • WSC (Levesque et al., 2012)
  • BBH-navigieren (Suzgun et al., 2023)

Für WSC, LIAR und BBH-Navigate folgen wir Yan et al. (2024) und verwenden Teile des Originaldatensatzes als Testsatz. Für GPQA verwenden wir die anspruchsvollere Teilmenge GPQA-Diamond als Testsatz, während wir für AGIEval-Math Probleme der Stufe 5 als Testsatz verwenden. Für offene Aufgaben haben wir Schreib-, Rollenspiel- und geisteswissenschaftliche Aufgaben aus MT-Bench (Zheng et al., 2023) ausgewählt. Angesichts der begrenzten Größe des Datensatzes haben wir drei Validierungssätze für diese Aufgaben manuell erstellt. Eine detaillierte Beschreibung der Datensätze und der Verfahren zur Erstellung der Validierungs- und Testsätze finden Sie in Anhang A.3.

Basislinie (in der geodätischen Vermessung). Wir haben SPO bei geschlossenen Aufgaben gegen zwei Klassen von Methoden evaluiert: (1) traditionelle Prompting-Methoden, einschließlich io (direkte LLM-Aufrufe), chainthink (Wei et al., 2022), rewording (Deng et al., 2023) und fallback abstraction (Zheng et al., 2024); und (2) automatische Prompting-Optimierungsmethoden, einschließlich APE ( Zhou et al., 2023), OPRO (Yang et al., 2024a), PromptAgent (Wang et al., 2024e), PromptBreeder (Fernando et al., 2024) und TextGrad (Yuksekgonul et al., 2024), deren Bewertung auf einer Reihe von Algorithmen basiert, wie APE (Deng et al., 2023) und Fallback-Abstraktion (Zheng et al., 2024); und (2) automatische Prompt-Optimierungsmethoden, einschließlich APE ( 2024), deren Bewertungsrahmeneinstellungen in Tabelle 2 aufgeführt sind.

Für die offene Aufgabe in MT-Bench (Zheng et al., 2023) verwendeten wir GPT-4o, um die von SPO erzeugte Ausgabe mit der direkt vom Modell erzeugten zu vergleichen.

4.2 Experimentelle Ergebnisse und Analysen

Die wichtigsten Ergebnisse des geschlossenen Mandats. Wie in Tabelle 1 gezeigt, übertreffen SPO-optimierte Prompts im Durchschnitt alle traditionellen Prompting-Methoden und übertreffen die optimale Basislinie um 1,9. Gleichzeitig ist die Leistung vergleichbar mit Prompt-Optimierungsmethoden, die sich auf wahrheitsgemäße Antworten in den meisten Datensätzen stützen, und erreicht optimale Ergebnisse in den GPQA- und BBH-navigate-Datensätzen. Insbesondere der durchschnittliche Leistungsvorteil von SPO gegenüber anderen Optimierungsmethoden deutet darauf hin, dass seine paarweise Bewertungsmethode in der Lage ist, effizientere Optimierungssignale zu erzeugen als andere Methoden, die sich auf externe Referenzen stützen. Um die Effektivität unserer Methode über verschiedene Optimierungsmodelle hinweg zu validieren, haben wir außerdem Experimente mit GPT-4o als Optimierungsmodell durchgeführt und eine durchschnittliche Leistung von 66,3 erzielt. Obwohl dies etwas niedriger ist als die Ergebnisse, die mit Claude-3-5-Sonnet als Optimierungsmodell erzielt wurden, ist dies immer noch die drittbeste Leistung aller verglichenen Methoden.

Kostenanalyse. Einen umfassenden Vergleich der Optimierungskosten und der Leistung von SPO (unter Verwendung von Claude-3.5-Sonnet und GPT-4o als Optimierungsmodelle) mit anderen Optimierungsmethoden finden Sie in Tabelle 1. Bei vergleichbarer Leistung mit anderen Hinweis-Optimierungsmethoden, die auf realen Antworten beruhen, erfordert SPO nur Optimierungskosten von 1,11 TP3T bis 5,61 TP3T, mit durchschnittlichen Optimierungskosten pro Datensatz von $0.15. Diese erhebliche Verringerung des Rechenaufwands in Verbindung mit der fehlenden Abhängigkeit von echten Antworten macht SPO für reale Anwendungen sehr attraktiv.

Tabelle 3: Leistungsvergleich von BBH-navigate: Cueing-Methoden (IO und COT) und SPO unter Verwendung verschiedener Bewertungsmodelle (Zeilen) und Ausführungsmodelle (Spalten). Das Optimierungsmodell ist auf Claude-3.5-Sonnet eingestellt.

GPT-4o-mini Llama3-70B Claude-3-Haiku
IO 91.3 82.7 62.2
COT 89.7 86.2 68
Claude-3.5-Sonnet 95 86.8 68.2
Llama3-70B 94.5 94.2 82.0
GPT-4o-mini 97.8 90.7 82.0

Studien zur Ablation. Um die Übertragbarkeit von SPO auf verschiedene Optimierungs-, Bewertungs- und Ausführungsmodelle zu bewerten, haben wir Ablationsexperimente mit dem BBH-Navigate-Datensatz durchgeführt. Die experimentellen Ergebnisse in den Tabellen 3 und 4 zeigen, dass SPO eine robuste Leistung über verschiedene Modelle hinweg aufweist. Die beste Leistung (97,8) wurde bei der Verwendung von GPT-4o-mini als Optimierungs-, Ausführungs- und Bewertungsmodell erzielt. In Bezug auf die Ausführung verbesserte SPO die Leistung des schwächeren Modells effektiv, indem es Claude-3-Haiku von 62,2 auf 89,7 steigerte, was die Fähigkeit von SPO zeigt, auf das schwächere Modell angewendet zu werden, und sein Potenzial für realistische Anwendungen weiter ausbaut.

Tabelle 4: Leistungsvergleich von BBH-navigate auf verschiedenen Optimierungsmodellen (Zeilen) und Ausführungsmodellen (Spalten). Das Bewertungsmodell ist auf GPT-4o-mini festgelegt.

GPT-4o-mini Llama3-70B Claude-3-Haiku
Claude-3.5-Sonnet 97.2 86.7 89.7
GPT-40 96.3 85.5 73.0
GPT-4o-mini 97.8 90.7 82.0
DeepSeek-V3 94.7 83.7 77.2

SPO: Selbstüberwachte Prompt-Optimierung-5

Wir haben eine Ablationsstudie durchgeführt, um die Auswirkungen der Stichprobengröße auf die SPO-Leistung anhand des BBH-Navigate-Datensatzes zu untersuchen (siehe Abbildung 5). Die Leistungskurven für alle drei Optimierungsmodelle zeigen ein ähnliches Muster: Die Leistung verbessert sich zunächst mit zunehmendem Stichprobenumfang, pendelt sich aber schließlich ein oder nimmt ab. Dieses Phänomen lässt sich auf zwei Faktoren zurückführen: Unzureichende Stichproben führen zu einer Überanpassung bei der Cue-Optimierung, während zu viele Stichproben nicht nur die Rechenkosten erhöhen, sondern auch zu einem längeren Kontext für die Bewertung des Modells führen, was die Qualität der Bewertung verringern kann. Auf der Grundlage umfangreicher Experimente haben wir festgestellt, dass eine Stichprobengröße von 3 das beste Gleichgewicht zwischen Kosteneffizienz und Leistung darstellt.

SPO: Selbstüberwachte Prompt-Optimierung-6

Die wichtigsten Ergebnisse des unbefristeten MandatsUm die Fähigkeiten von SPO bei offenen Aufgaben zu überprüfen, haben wir drei Kategorien aus der MT-Bench ausgewählt. Um die Fähigkeiten von SPO bei offenen Aufgaben zu validieren, wählten wir drei Kategorien aus der MT-Bench zur Bewertung aus: "Writing", "Role Playing" und "Humanities ". Wir verwendeten Claude-3.5-Sonnet als Optimierungsmodell, Gpt-4o-mini als Bewertungsmodell und wählten Claude-3.5-Sonnet, DeepSeek-V3 und GPT-4omini als Ausführungsmodelle für fünf Iterationen. In Anlehnung an die Bewertungsmethode in (Zheng et al., 2023) verwendeten wir anschließend GPT-4o, um die Ergebnisse von Modell A und Modell B paarweise zu vergleichen (siehe Abb. 6). Die in Abb. 6 dargestellten experimentellen Ergebnisse zeigen, dass SPO die Modellleistung bei allen Modellkonfigurationen erheblich verbessert. Es ist erwähnenswert, dass kleinere Modelle, die Optimierungshinweise verwenden (z. B. GPT-4omini), in den meisten Fällen größere Modelle übertreffen.

4.3 Fallstudien

Wir zeigen die Optimierungsergebnisse für die zusätzliche offene Aufgabe ohne den Datensatz sowie die Optimierungskurve von SPO in Anhang A.4. Wir stellen auch die optimalen Hinweise, die SPO für die fünf geschlossenen Aufgaben gefunden hat, im Zusatzmaterial zur Verfügung. Da reale Anwendungen oft mit dem Problem begrenzter Datensätze konfrontiert sind, evaluieren wir die Leistung von SPO bei Aufgaben ohne traditionelle Benchmarks. Die experimentellen Ergebnisse in Verbindung mit der Kosteneffizienz von SPO zeigen seinen praktischen Wert in realen Szenarien. Insbesondere zeigen wir die Optimierungsergebnisse nach 10 Iterationen unter Verwendung von Claude-3.5-Sonnet als Optimierungsmodell, GPT-4o-mini als Evaluierungsmodell und Llama3-8B als Ausführungsmodell, das die vier Aufgaben Werbedesign, Social Media Content, Schreiben moderner Gedichte und konzeptionelle Erklärungen abdeckt. Darüber hinaus bieten wir in Anhang A.4.1 eine umfassende Analyse des Optimierungsverlaufs von SPO auf dem BBH-navigate-Datensatz mit erfolgreichen und erfolglosen Beispielen, um tiefere Einblicke in den Optimierungsprozess zu geben.

5. verwandte Arbeiten

5.1 Cue Engineering

Die Forschung zu effektiven Prompting-Methoden wurde in zwei Hauptrichtungen durchgeführt. Die erste Richtung konzentriert sich auf aufgabenunabhängige Prompting-Techniken, die die Generalisierbarkeit von LLMs verbessern. Zu den bemerkenswerten Beispielen gehören das Kettendenken (Wei et al., 2022; Kojima et al., 2022), das das logische Denken bei einer Vielzahl von Aufgaben verbessert, Techniken zur Verbesserung des einmaligen logischen Denkens (Deng et al., 2023; Zheng et al., 2024; Wang et al., 2024d) und für die Spezifikation des Ausgabeformats Methoden (Zhang et al., 2024a; He et al., 2024; Tam et al., 2024). Diese Techniken liefern wichtige Optimierungsgrundlagen für Studien zur Optimierung von Autocues durch menschliche Einsicht und umfangreiche experimentelle Entwicklung.

Die zweite Richtung befasst sich mit domänenspezifischen Hinweisen, und Forscher haben neue Ansätze für die Codegenerierung (Hong et al., 2024b; Ridnik et al., 2024; Shen et al., 2024a), Datenanalyse (Hong et al., 2024a; Liu et al., 2024a; Li et al., 2024a), Befragung ( Wu et al., 2024b; Zhu et al., 2024; Yang et al., 2024b), Entscheidungsfindung (Zhang et al., 2024b; Wang et al., 2024a) und andere Bereiche (Guo et al., 2024b; Ye et al., 2024; Shen et al., 2024b). ) haben spezielle Techniken entwickelt. Da sich die Anwendung von LLMs jedoch auf immer komplexere reale Szenarien ausdehnt, wird es unpraktisch, effektive Hinweise für jeden Bereich manuell zu erstellen (Zhang et al., 2024a). Diese Herausforderung hat die Forschung im Bereich der Cue-Optimierung motiviert, die darauf abzielt, systematisch effektive domänenspezifische Cues zu entwickeln, anstatt allgemeine Cue-Prinzipien zu entdecken.

5.2 Optimierung der Stichwörter

Bei der prompten Optimierung (PO) ist die Gestaltung des Bewertungsrahmens von entscheidender Bedeutung, da er die Effektivität und die Recheneffizienz der Optimierung bestimmt. Die Entwicklung der Bewertungsmechanismen in der PO hat sich von der einfachen Sammlung von Bewertungsrückmeldungen bis hin zur Erzeugung komplexer Optimierungssignale entwickelt (Chang et al., 2024). Bestehende PO-Methoden können nach ihren Bewertungsquellen und -mechanismen kategorisiert werden.

Der gängigste Ansatz stützt sich auf authentische Antworten als Bewertungsquelle, wobei numerische Bewertungen auf der Grundlage von Benchmarks verwendet werden (Zhou et al., 2023; Guo et al., 2024a; Yang et al., 2024a; Fernando et al., 2024; Wang et al., 2024e; Khattab et al., 2023 ). Diese Methoden haben sich zwar bei bestimmten Aufgaben bewährt, erfordern aber in der Regel eine große Anzahl von Iterationen und Stichproben, um die Stabilität der Auswertung zu gewährleisten, was zu einem erheblichen Rechenaufwand führt.

Um den Bedarf an Stichproben zu reduzieren, verwenden einige Methoden (Yan et al., 2024; Yuksekgonul et al., 2024; Wu et al., 2024a; Wang et al., 2024c; Pryzant et al., 2023; Li et al., 2025) LLMs als Richter (Zheng et al. ..., 2023), um detailliertes textuelles Feedback zu erzeugen. Obwohl dieser Ansatz reichhaltigere Bewertungssignale liefert und weniger Stichproben benötigt, ist er immer noch auf reale Antwortdaten angewiesen, was seine Anwendung auf offene Aufgaben beschränkt, bei denen es möglicherweise keine Referenzantworten gibt.

Alternative Ansätze konzentrieren sich auf menschliche Präferenzen, durch manuell entworfene Bewertungsregeln oder direktes menschliches Feedback (Chen et al., 2024; Lin et al., 2024). Während diese Ansätze für Aufgaben mit offenem Ende effektiv sein können, widerspricht ihre Notwendigkeit einer umfangreichen menschlichen Beteiligung dem Ziel der Automatisierung. In der Zwischenzeit haben einige Forscher andere Bewertungskriterien erforscht, wie z. B. den Vorschlag von Zhang et al. (2024c), die Validität von Hinweisen anhand der Konsistenz der Ergebnisse zu bewerten. Dieser Ansatz steht jedoch vor einer grundlegenden Herausforderung: Die nicht lineare Beziehung zwischen Konsistenz und Validität führt in der Regel zu schlechten Bewertungssignalen.

Im Gegensatz zu diesen Methoden führt SPO ein neues Bewertungsparadigma ein, das die Abhängigkeit von externen Referenzen eliminiert und gleichzeitig die Effizienz beibehält. Da SPO die Modellergebnisse nur durch paarweise Vergleiche nutzt, ermöglicht es eine robuste Bewertung, ohne dass echte Antworten, menschliches Feedback oder umfangreiche Stichproben erforderlich sind.

6. schlussfolgerung

Dieses Papier befasst sich mit einer grundlegenden Herausforderung bei der Cued-Optimierung: der Abhängigkeit von externen Referenzen, die realistische Anwendungen einschränkt. Wir stellen die Self-Supervised Prompt Optimisation (SPO) vor, einen Rahmen, der diese Abhängigkeit überwindet und gleichzeitig einen Rahmen implementiert, bei dem jeder Datensatz nur $0.15 SPO nutzt die Inspiration des selbstüberwachten Lernens, um auf innovative Weise Bewertungs- und Optimierungssignale durch paarweise Vergleiche von Modellergebnissen zu konstruieren, was eine referenzfreie Optimierung ohne Kompromisse bei der Wirksamkeit ermöglicht.

Unsere umfassende Evaluierung zeigt, dass SPO sowohl bei geschlossenen als auch bei offenen Aufgaben die bestehenden State-of-the-Art-Methoden übertrifft und State-of-the-Art-Ergebnisse mit einem Aufwand von nur 1,11 TP3T gegenüber 5,61 TP3T der bestehenden Methoden erzielt. Der Erfolg in Standard-Benchmarks und verschiedenen realen Anwendungen bestätigt die Effektivität und die Fähigkeit von SPO zur Verallgemeinerung. Durch die signifikante Verringerung des Ressourcenbedarfs und der operativen Komplexität stellt SPO einen bedeutenden Fortschritt dar, um die Cueing-Optimierung in realen Anwendungen zugänglich und praktikabel zu machen, mit dem Potenzial, die Einführung von LLM-Technologien in einer Vielzahl von Bereichen zu beschleunigen.

Erklärung zu den Auswirkungen

SPO bietet bedeutende Fortschritte bei der Entwicklung von Hinweisen für LLMs und bietet Vorteile wie die Demokratisierung des Zugangs, die Senkung der Kosten und die Verbesserung der Leistung in einem breiten Spektrum von Aufgaben. Sie birgt jedoch auch Risiken, einschließlich der potenziellen Verstärkung von Verzerrungen, der Verwendung von schädlichen Inhalten und der übermäßigen Abhängigkeit von LLMs.

A. Anhang

A.1 Detaillierte Tipps für SPOs

In diesem Abschnitt zeigen wir Meta-Hinweise für die Iteration. Beachten Sie, dass wir hier nur die einfachsten und unkompliziertesten Hinweise verwendet haben. Es gibt noch Raum für Verbesserungen, indem die folgenden Meta-Hinweise für bestimmte Bereiche optimiert werden.

Tipps zur Optimierung der Funktionalität

SPO: Selbstüberwachte Prompt-Optimierung-7

Diese Prompt-Vorlage leitet LLMs an, bestehende Prompts durch eine strukturierte XML-Analyse iterativ zu verbessern. Dazu müssen Schwachstellen in der Ausgabe des Referenz-Prompts identifiziert, Änderungen vorgeschlagen und optimierte Versionen erstellt werden. Die Vorlage legt den Schwerpunkt auf inkrementelle Verbesserungen bei gleichzeitiger Wahrung der Konsistenz der Anforderungen.

Tipps zur Auswertung von Funktionen

SPO: Selbstüberwachte Prompt-Optimierung-8

Die Bewertungsvorlage verwendet eine vergleichende Analyse, um die Qualität einer Antwort zu bewerten. Sie erfordert eine XML-formatierte, begründete Analyse der Stärken und Schwächen von zwei Antworten (A/B), gefolgt von einer klaren Entscheidung.

A.2 Detaillierte Aufforderungsvorlage für den Beginn einer Iteration

SPO: Selbstüberwachte Prompt-Optimierung-9

Diese YAML-Datei zeigt unsere Ausgangskonfiguration für die Iteration der Aufgabe BBH-navigate. Durch die Konfiguration einer einfachen anfänglichen Aufforderung und Anforderung sowie drei spezifischer Fragen kann eine iterative Optimierung durchgeführt werden. Es ist wichtig zu beachten, dass der hier gezeigte Inhalt der vollständige Inhalt der Datei ist und dass der Inhalt im Abschnitt "Antworten" nicht die eigentliche Antwort ist, sondern eher als Referenz für den Denkprozess und das richtige Ausgabeformat dient.

A.3 Einzelheiten des Experiments

A.3.1 Aufgaben- und Datendetails

LIAR
LIAR (Wang, 2017) ist ein englischsprachiger Datensatz zur Erkennung von Fake News mit 4000 Aussagen, die jeweils mit Kontextinformationen und Lügenkennzeichnungen versehen sind. In unseren Experimenten folgen wir der Methode von Yan et al. (2024) und wählen Teile des Originaldatensatzes als Testset aus.

BBH-Navigieren
BBH-Navigate (Suzgun et al., 2023) ist eine Aufgabe aus dem BIG-bench Hard-Datensatz, einer Teilmenge des BIG-Bench-Datensatzes. Bei dieser Aufgabe liegt der Schwerpunkt auf der Navigation und das Modell muss bestimmen, ob ein Agent nach einer Reihe von Navigationsschritten zu seinem Ausgangspunkt zurückkehrt. In unseren Experimenten verwendeten wir Zufallsstichproben (seed = 42), um 200/25/25 Test/Train/Validate-Splits zu erhalten.

Tabelle A1. Größe des Datensatzes und Datenpartitionierung

Name des Datensatzes Prüfung (Maschinen usw.) Ausbildung & Validierung
LIAR 461 3681
BBH-Navigieren 200 50
WSC 150 50
AGIEval-MATH 256 232
GPQA 198 250
MT-Bank 80 0

WSC
Die Winograd Schema Challenge (WSC) (Levesque et al., 2012) ist ein Benchmark, mit dem die Fähigkeit eines Systems bewertet werden soll, durch das Parsen von Pronomenreferenzen im Kontext Commonsense-Argumentationen zu erstellen. In unseren Experimenten folgen wir Yan et al. (2024) und wählen Teile des Originaldatensatzes als Testset aus.

AGIEval-MATH
AGIEval-MATH (Zhong et al., 2024) ist eine Teilmenge des AGIEval-Benchmarks, die sich auf mathematische Problemlösungsaufgaben konzentriert. Er umfasst eine Vielzahl von mathematischen Aufgaben, mit denen das logische Denken und die Rechenfähigkeiten bewertet werden sollen. In unseren Experimenten verwenden wir Probleme der Stufe 5 als Testset und Probleme der Stufe 4 als Trainings- und Validierungsset.

GPQA
GPQA (Rein et al., 2023) ist ein Datensatz, mit dem die Leistung von Sprachmodellen bei Problemen auf Graduiertenebene in einer Vielzahl von Disziplinen, darunter Biologie, Physik und Chemie, bewertet werden soll. In unseren Experimenten verwenden wir die Teilmenge GPQA-Diamond als Testdatensatz, während wir unsere Trainings- und Validierungsdatensätze aus Problemen konstruieren, die nur in GPQA-Main vorhanden sind (d. h. aus Problemen, die in GPQA-Main, aber nicht in GPQA-Diamond vorhanden sind).

MT-Bank
MT-Bench (Zheng et al., 2023) ist ein Multi-Task-Benchmark, mit dem die Generalisierungsfähigkeit von Sprachmodellen bei einer Vielzahl von Aufgaben wie Textkategorisierung, Zusammenfassung und Frage und Antwort bewertet werden kann. In unseren Experimenten haben wir Schreib-, Rollenspiel- und geisteswissenschaftliche Aufgaben aus MT-Bench ausgewählt. Diese Validierungsaufgaben sind im ergänzenden Material zu finden.

A.3.2 Konfiguration

In unseren Experimenten haben wir verschiedene Optimierungsframeworks so konfiguriert, dass ihre Optimierungskosten so einheitlich wie möglich bleiben. Diese Frameworks ermöglichen in der Regel die Einstellung einer Reihe von Parametern zur Anpassung der Optimierungskosten, einschließlich der Anzahl der Iterationen und der Anzahl der pro Iteration generierten Hinweise.

APE
APE verwendet einen iterativen Optimierungsprozess über drei Runden, wobei in jeder Runde die besten 10% (Verhältnis = 0,1) Stichwörter des aktuellen Pools als Elite-Stichwörter ausgewählt werden. Um die Vielfalt und die Größe des Pools von Stichwörtern aufrechtzuerhalten, werden diese Elite-Stichwörter durch Variantenauswahl so verändert, dass die Gesamtzahl der Stichwörter bei 50 bleibt. In Anlehnung an die ursprüngliche Arbeit (Zhou et al., 2023) beinhaltet der Optimierungsprozess keine stichprobenspezifischen Ausführungsergebnisse, um die LLM-Stichwörter zu optimieren. Stattdessen werden die Leistungswerte durch die Bewertung der Cues auf dem gesamten Trainingssatz ermittelt.

OPRO
OPRO verwendet einen iterativen Optimierungsprozess mit 10 Runden, der 10 Kandidaten pro Runde generiert. OPRO bewertet die Leistung der Cues auf dem gesamten Trainingsdatensatz und filtert auf der Grundlage der Bewertungsergebnisse. OPRO unterhält keinen Pool von Cues mit fester Größe, sondern generiert neue Kandidaten direkt auf der Grundlage des aktuell besten Cues in jeder Runde. Die Richtung der Optimierung wird durch die Leistungsbewertung der gesamten Trainingsdaten bestimmt.

PromptAgent
Mit Ausnahme des Liar-Datensatzes, bei dem wir 150 Daten sowohl aus dem Trainings- als auch aus dem Validierungsdatensatz entnommen haben, folgen die anderen Datensätze den in Tabelle A1 angegebenen Größen.PromptAgent verwendet das Monte-Carlo-Tree-Search-Framework (MCTS) zur Optimierung der Prompts. Es beginnt mit einem anfänglichen Hinweis und generiert neue Kandidaten auf der Grundlage von Modellfehler-Feedback. Der Prozess wird durch die Verwendung von Benchmark-Evaluierungen auf einer Stichproben-Trainingsmenge gesteuert, um Wege mit hohem Ertrag zur Verbesserung der Aufgabenleistung zu identifizieren. Abschließend werden die ersten fünf Cues getestet, die in der Validierungsmenge am besten abschneiden, und der beste ausgewählt. Zu den wichtigsten Parametern von MCTS gehören eine Expansionsbreite von 3, eine Tiefenbegrenzung von 8 und 12 Iterationen.

PromptBreeder
In unserer Implementierung von PromptBreeder haben wir das System so konfiguriert, dass es zur Initialisierung 5 verschiedene Hinweise und 5 Denkstile verwendet. Der Evolutionsprozess läuft über 20 Generationen, wobei jede Generation 20 Bewertungen an einem zufällig ausgewählten Trainingsbeispiel durchführt. Das Optimierungsmodell ist standardmäßig auf Claude-3.5-Sonnet und das Ausführungsmodell standardmäßig auf GPT-4o-mini eingestellt.

TextGrad
Alle Datensätze entsprechen den in Tabelle A1 angegebenen Größen, mit Ausnahme des Train&Validate-Satzes für den Liar-Datensatz, der auf 50 Stichproben reduziert ist.TextGrad verwendet einen Optimierungsprozess mit drei Epochen, mit drei Schritten pro Epoche (epoch_{-3}, steps_{-3}), um einen stochastischen Gradientenabstieg mit Losgrößen von drei durchzuführen. Bei jedem Schritt generiert TextGrad Gradienten über Rückmeldungen aus dem Optimierer LLM (Claude-3.5-Sonnet), um die Systemhinweise zu aktualisieren. Das System verfügt über einen validierungsbasierten Reduktionsmechanismus - wenn der aktualisierte Cue in der Validierungsmenge schlechter abschneidet als in der vorherigen Iteration, wird die Aktualisierung abgelehnt und der Cue wird auf seinen vorherigen Zustand zurückgesetzt. Der Optimierungsprozess wird durch die Evaluierung der Cues unter Verwendung von Claude-3.5-Sonnet als Evaluierungs-LLM gesteuert, während die tatsächliche Aufgabenausführung GPT-4o-mini als Ausführungs-LLM verwendet.Unsere experimentellen Konfigurationen folgen den Cue-Optimierungseinstellungen, die im offiziellen TextGrad-Repository bereitgestellt werden (Yuksekgonul et al., 2024).

SPO
SPO optimiert, indem es 10 Iterationen pro Aufgabe durchführt, wobei für jede Iteration 3 Fragen (ohne Antworten) zufällig aus dem vorpartitionierten Train&Validate-Datensatz ausgewählt werden. Das Optimierungsmodell ist standardmäßig Claude-3.5-Sonnet, das Bewertungsmodell standardmäßig GPT-4o-mini und das Ausführungsmodell standardmäßig GPT-4o-mini. Es ist bemerkenswert, dass SPO eine effektive cued Optimierung erreicht, indem es nur Fragen ohne echte Antworten verwendet, was seine Fähigkeiten bestätigt.

A.3.3 Grundlegende Eingabeaufforderungen

In diesem Abschnitt stellen wir die zum Vergleich herangezogenen Basis-Cues vor. Beachten Sie, dass wir für alle Optimierungsbemühungen, die eine erste Iteration von Cues erfordern, immer die unten dargestellten COT-Cues bereitstellen.

SPO: Selbstüberwachte Prompt-Optimierung-10

Achten Sie darauf, dass die Antwort in folgendem Format endet: Antwort.

A.3.4 Tipps zur SPO-Optimierung

In diesem Abschnitt zeigen wir die Optimierungshinweise, die wir in unseren Hauptexperimenten erhalten haben, wobei Claude-3.5-Sonnet als Optimierungsmodell und GPT-4o-mini als Bewertungs- und Ausführungsmodell diente.

GPQA-Tipps

Bitte beachten Sie die nachstehenden Leitlinien, um Fragen effizient und effektiv zu beantworten:

  1. Lesen Sie die gesamte Frage sorgfältig durch und identifizieren Sie alle relevanten Informationen und Schlüsselbegriffe.
  2. Wählen Sie je nach Art des Problems die am besten geeignete Problemlösungsmethode.
  3. Führen Sie die folgenden Schritte aus, um das Problem zu lösen:
    a. Angabe aller relevanten Formeln, Grundsätze oder Annahmen
    b. Zeigen Sie alle erforderlichen Berechnungen oder konzeptionellen Analysen
    c. Bewerten Sie alle Antwortmöglichkeiten und erklären Sie, warum die falsche Antwort falsch ist (falls zutreffend).
  4. Gliedern Sie Ihre Antwort nach der folgenden Struktur:

[Analyse]

Kurze Darstellung des Hauptthemas und der Schlüsselbotschaften (maximal 2-3 Sätze)

[Lösung]

  • Schritt-für-Schritt-Darstellung Ihrer Arbeit, einschließlich aller relevanten Berechnungen und Begründungen
  • Klare, logische Erklärungen zu konzeptionellen Fragen geben

[Schlussfolgerung]

Geben Sie die endgültige Antwort in einem klaren Satz an

  • Erläutern Sie kurz, warum diese Antwort richtig und die anderen falsch sind (falls zutreffend)
[ein Buchstabe steht für die richtige Option]

Passen Sie diese Struktur an verschiedene Problemtypen an und achten Sie dabei auf Klarheit und Einfachheit. Stellen Sie sicher, dass Ihre Antwort alle Aspekte des Problems anspricht und einen klaren Problemlösungsprozess aufzeigt.

BBH-Navigate Tipps

Bitte folgen Sie den nachstehenden Schritten, um die gegebenen Anweisungen zu analysieren:

  1. Geben Sie die Anfangsbedingungen an:
    • Startpunkt: (0, 0)
    • Ausgangsrichtung: positive x-Achse (sofern nicht anders angegeben)
  2. Verwenden Sie das Koordinatensystem:
    • x-Achse: links (-) und rechts (+)
    • y-Achse: rückwärts (-) und vorwärts (+)
  3. Analysieren Sie jeden Schritt:
    • Bei vagen Anweisungen (z. B. "mach X Schritte" ohne Richtungsangabe) ist von einer Vorwärtsbewegung auszugehen.
    • Koordinaten nach jeder Bewegung aktualisieren
    • Erläutern Sie kurz alle getroffenen Annahmen
  4. Nach der Analyse aller Schritte:
    • Fassen Sie die Gesamtbewegung in jeder Richtung zusammen
    • Angabe des endgültigen Standpunkts
  5. Vergleichen Sie die Endposition mit der Ausgangsposition:
    • Berechnen Sie die Entfernung von (0, 0)
  6. Geben Sie eine knappe Begründung mit dem Vermerk "Begründung" an.
    • Erklären Sie die wichtigsten Spielzüge und ihre Auswirkungen auf die Position
    • Begründen Sie Ihre Schlussfolgerungen
  7. Geben Sie Ihre endgültige Antwort mit dem Vermerk "Endgültige Antwort" an.

Beenden Sie Ihre Antwort in folgendem XML-Format: [ja oder nein]

Stellen Sie sicher, dass Ihre Analysen an alle Problemtypen angepasst sind und sowohl spezifische als auch vage Anweisungen berücksichtigen.

LIAR-Tipps

Analysieren Sie die vorgegebene(n) Aussage(n) sorgfältig und befolgen Sie die unten stehenden Schritte für jede Frage:

  1. Berücksichtigen Sie die Aussage, den Hintergrund des Sprechers (falls vorhanden) und den Kontext.
  2. Recherchieren und zitieren Sie relevante Fakten und Zahlen im Zusammenhang mit der Aussage.
  3. Beurteilen Sie die Gültigkeit der Aussage im Lichte der verfügbaren Beweise.
  4. Bedenken Sie die mögliche Voreingenommenheit oder Motivation des Sprechers.

Gliedern Sie Ihre Analyse für jede Aussage nach der folgenden Struktur:

Faktenüberprüfung: [Schlüsselfakt 1 mit Quellen] [Schlüsselfakt 2 mit Quellen] [bei Bedarf weitere hinzufügen] ANALYSE: [Geben Sie eine kurze Analyse der Gültigkeit der Aussage] Bewertung: [Verwenden Sie die folgende Skala]

Unsicherheit: [gering/mittel/hoch - basierend auf Qualität und Quantität der verfügbaren Belege] Zusammenfassung: [Ein-Satz-Schlussfolgerung über die Gültigkeit der Aussage]

Wenn die Informationen nicht ausreichen, um eine Entscheidung zu treffen, geben Sie klar und deutlich an, welche zusätzlichen Informationen benötigt werden.

Jede Analyse mit einem XML-Tag beenden: [ja oder nein]

Nachdem Sie alle Aussagen analysiert haben, fassen Sie Ihre Ergebnisse zusammen.

Vergewissern Sie sich, dass Ihre Antwort objektiv ist, auf überprüfbaren Informationen beruht und Quellen für alle in der Analyse verwendeten Schlüsselfakten angibt.

AGIEval-MATH-Tipps

  1. Schnelles Erkennen wichtiger Informationen
  2. Entwerfen Sie die schnellste Lösungsstrategie
  3. Möglichst wenig Berechnungen durchführen
  4. Überprüfen Sie Ihre Antworten noch einmal

Regeln:

Verwenden Sie nach Möglichkeit Abkürzungen und Schätzungen
Ausführliche Erklärung auslassen
Einheiten in der endgültigen Antwort weglassen

  • Stellen Sie die endgültige Antwort immer in folgender Form dar: \boxed{}
    Prioritäten setzen bei Geschwindigkeit und Genauigkeit. Effizientes Zeitmanagement. Streben Sie nach der kürzesten effektiven Lösung. Überprüfen Sie die Formatierung der Antworten vor dem Absenden. Wenn Sie auf Schwierigkeiten stoßen, stellen Sie lieber eine Vermutung an, als zu viel Zeit zu verlieren.

SPO: Selbstüberwachte Prompt-Optimierung-11

A.4 Fallstudien

A.4.1 Optimierung der Flugbahnen

Wir zeigen den Verlauf der Cue-Optimierung von GPT-4o-mini auf dem BBH-navigate-Datensatz, wobei es als Optimierungs-, Bewertungs- und Ausführungsmodell dient. Dies beinhaltet den Erfolg jeder Iteration in Bezug auf den besten Cue zum jeweiligen Zeitpunkt und den entsprechenden Cue-Inhalt.

Iteration 0 - Erfolg

Bitte denken Sie Schritt für Schritt. Achten Sie darauf, dass die Antwort mit folgendem Format endet: [Ja oder Nein].

Iteration 1 - Scheitern

Bitte analysieren Sie die folgenden Fragen Schritt für Schritt, um sicherzustellen, dass Ihre Argumentation klar ist. Geben Sie am Ende Ihrer Analyse die endgültige Antwort in dem vorgegebenen XML-Format an: (Ja oder Nein).

Frage: [Frage hier einfügen]

Iteration 2 - Scheitern

Bitte analysieren Sie die gegebenen Anweisungen Schritt für Schritt und fassen Sie Ihre Überlegungen klar zusammen. Achten Sie darauf, dass die Antwort in folgendem XML-Format endet: (ja oder nein).

Iteration 3 - Scheitern

Bitte analysieren Sie die vorgegebenen Schritte gründlich und halten Sie jede Maßnahme fest. Achten Sie darauf, dass Ihre Argumentation durchgehend klar und logisch ist. Schließen Sie mit dem folgenden XML-Format ab: (Ja oder Nein).

Iteration 4 - Erfolg

Gehen Sie bitte mit einer klaren, logischen Argumentation an die Frage heran und gliedern Sie sie in einzelne Schritte. Bevor Sie Ihre endgültige Antwort geben, fassen Sie bitte Ihre Ergebnisse in folgendem XML-Format klar zusammen: [Ja oder Nein]. Wenn sich die Frage beispielsweise darauf bezieht, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückkehren oder nicht, beschreiben Sie jede Aktion im Detail, aktualisieren Sie Ihre Position entsprechend und kommen Sie zu dem Schluss, ob Sie zum Ausgangspunkt zurückgekehrt sind oder nicht.

Endgültige Antwort: [Ja oder Nein]

Iteration 5 - Erfolg

Bitte analysieren Sie das Problem gründlich, indem Sie es Schritt für Schritt aufschlüsseln. Skizzieren Sie klar und deutlich jede Bewegung oder Aktion und aktualisieren Sie Ihren Standpunkt oder Status entsprechend. Fassen Sie schließlich Ihre Ergebnisse zusammen, um festzustellen, ob Sie zum Ausgangspunkt zurückgekehrt sind oder das angegebene Ergebnis erreicht haben. Geben Sie die Antwort in folgendem XML-Format wieder: [Ja oder Nein]. Wenn Sie z. B. gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, zeichnen Sie jede Aktion eindeutig auf, verfolgen Sie Ihre Position und geben Sie an, ob Sie zum Ausgangspunkt zurückgekehrt sind.

Endgültige Antwort: [Ja oder Nein]

Iteration 6 - Erfolg

Analysieren Sie das Problem methodisch und unterteilen Sie es in klare, aufeinanderfolgende Schritte. Definieren Sie den Ausgangspunkt und die Richtung jeder Aktion und aktualisieren Sie die Position nach jedem Schritt entsprechend. Fassen Sie schließlich den Weg zusammen und geben Sie klar an, ob die Endposition zum Ausgangspunkt zurückkehrt oder das gewünschte Ergebnis erzielt. Verwenden Sie das folgende XML-Format, um die endgültige Antwort klar darzustellen: [ja oder nein]. Wenn Sie zum Beispiel gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, zeichnen Sie jeden Schritt klar auf, verfolgen Sie Ihre Position und geben Sie an, ob Sie zum Ausgangspunkt zurückgekehrt sind.

Endgültige Antwort: [Ja oder Nein]

Iteration 7 - Scheitern

Bewerten Sie das Problem Schritt für Schritt, indem Sie jede Maßnahme klar umreißen und die daraus resultierende Position verfolgen. Fassen Sie am Ende Ihrer Analyse den Weg zusammen und geben Sie an, ob die Endposition zum Ausgangspunkt zurückkehrt oder die erwarteten Kriterien erfüllt. Achten Sie darauf, dass die endgültige Antwort klar und deutlich in folgendem XML-Format dargestellt wird: [Ja oder Nein]. Wenn Sie zum Beispiel gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, sollten Sie jeden Schritt kurz aufzeichnen, Ihre Position verfolgen und angeben, ob Sie zum Ausgangspunkt zurückgekehrt sind.

Endgültige Antwort: [Ja oder Nein]

Iteration 8 - Erfolg

Bitte analysieren Sie das Problem methodisch und gliedern Sie es in konkrete Maßnahmen. Beginnen Sie mit einer definierten Position und verfolgen Sie die Auswirkungen der einzelnen Schritte auf Ihre Position. Fassen Sie nach der Beschreibung jeder Maßnahme den gesamten Weg zusammen und geben Sie klar an, ob die endgültige Position zum Ausgangspunkt zurückkehrt oder das gewünschte Ergebnis erreicht wurde. Verwenden Sie das folgende XML-Format, um die endgültige Antwort klar darzustellen: ja oder nein. Wenn Sie z. B. gefragt werden, ob Sie nach einer Reihe von Aktionen zum Ausgangspunkt zurückgekehrt sind, dokumentieren Sie eindeutig jeden Schritt, verfolgen Sie Ihre Position genau und geben Sie das Ergebnis an.

Endgültige Antwort: [Ja oder Nein]

Iteration 9 - Scheitern

Bitte beginnen Sie damit, Ihre Bewegungen systematisch zu skizzieren. Gehen Sie von einer bestimmten Position aus und beschreiben Sie jeden Schritt, den Sie machen, einschließlich der Richtung und der zurückgelegten Entfernung. Fassen Sie nach Abschluss der Bewegung den gesamten Weg zusammen und geben Sie klar an, ob Sie mit Ihrer Endposition zum Ausgangspunkt zurückkehren oder das gewünschte Ergebnis erreicht haben. Achten Sie darauf, dass Sie Ihre Aktionen zusammen mit Ihrer endgültigen Antwort im folgenden XML-Format darstellen: ja oder nein. Wenn Sie zum Beispiel gefragt werden, ob Sie nach einer Reihe von Manövern zum Ausgangspunkt zurückgekehrt sind, sollten Sie jeden Schritt aufzeichnen, Ihre Position genau verfolgen und das Ergebnis angeben.

Endgültige Antwort: [Ja oder Nein]

Iteration 10 - Erfolg

Bitte analysieren Sie die mitgelieferten Bewegungsanweisungen gründlich und zeichnen Sie jeden Schritt deutlich auf. Beginnen Sie mit der Festlegung Ihrer Ausgangsposition und verfolgen Sie systematisch Ihre Bewegungen, wobei Sie Ihre Position nach jedem Schritt aktualisieren. Fassen Sie nach Abschluss der Aktion Ihren Weg zusammen und stellen Sie fest, ob Ihre Endposition mit Ihrem Ausgangspunkt übereinstimmt oder das gewünschte Ergebnis erzielt wurde. Verwenden Sie das folgende XML-Format, um Ihre endgültige Antwort eindeutig anzugeben: ja oder nein. Wenn die Frage z. B. lautet, ob eine Reihe von Aktionen zum Ausgangspunkt zurückführt, sollten Sie methodisch jeden Schritt skizzieren, Ihre Position genau verfolgen und zu einem Ergebnis kommen.

Endgültige Antwort: [Ja oder Nein]

Der Erfolg/Misserfolg-Kasten zeigt den Prozess der SPO-Optimierung des BBH-Navigationshinweises durch 10 Iterationen. Erfolgreiche Versionen (grün) verbessern den Hinweis schrittweise, um einen besseren Denkprozess auszulösen, wohingegen fehlgeschlagene Versuche (rot) aufgrund von suboptimalen Hinweisen zu vereinfachtem oder redundantem Denken führen können. Dieser Verlauf zeigt den Versuch-und-Irrtum-Verbesserungsmechanismus des Systems.

Tipps zur Optimierung der Funktionalität

Bitte denken Sie Schritt für Schritt.
Achten Sie darauf, dass die Antwort in folgendem XML-Format endet: [ja oder nein].

Ausgaben

Wenn Sie diese Anweisungen befolgen, kehren Sie dann zum Ausgangspunkt zurück? Sehen Sie immer nach vorne.
- Gehen Sie 1 Schritt nach rechts.
- Gehen Sie 3 Schritte nach links.
- 2 Schritte nach rechts.
Optionen:
- Ja
- Nein

Lösung

Analysieren wir diese Schritte der Reihe nach:
1. **Startpunkt**: Wir beginnen am Startpunkt, mit Blick nach vorne.
2. **Schritt 1**: 1 Schritt nach rechts. Wir befinden uns nun 1 Schritt rechts vom Startpunkt.
3. **Schritt 2**: Wir machen 3 Schritte nach links. Von unserer jetzigen Position (1 Schritt nach rechts) bedeutet 3 Schritte nach links:
- 1 Schritt nach links bringt uns zurück zum Ausgangspunkt.
- 2 Schritte nach links bringen uns in eine Position 1 Schritt links von unserem Ausgangspunkt.
- 3 Schritte nach links bringen uns in eine Position, die 2 Schritte links vom Startpunkt liegt.
4. **Schritt 3**: 2 Schritte nach rechts. Von unserer aktuellen Position (2 Schritte nach links) bedeuten 2 Schritte nach rechts:
- 1 Schritt nach rechts bringt uns zurück zu einer Position, die 1 Schritt links von unserem Startpunkt liegt.
- 2 Schritte nach rechts bringen uns zurück zum Ausgangspunkt.

Nachdem wir alle Schritte absolviert hatten, kamen wir wieder am Ausgangspunkt an.
Die Antwort lautet also:
sein

Die "iterative Optimierung des Denkprozesses" wird deutlich, wenn man das Ergebnis des anfänglichen Hinweises bei Iteration 0 mit dem letzten Hinweis bei Iteration 10 vergleicht. In diesem Fall entwickelte sich das Modell von der anfänglichen Verwendung von Textbeschreibungen, um über den Standort nachzudenken, bis hin zur Fähigkeit, Koordinaten zu verwenden, auch wenn die Verwendung von Koordinaten im Hinweis nicht ausdrücklich betont wurde.
**A.4.2.
In diesem Abschnitt zeigen wir die Optimierungsergebnisse nach 10 Iterationen unter Verwendung von Claud-3.5-Sonnet als Optimierungsmodell, GPT-4o-mini als Bewertungsmodell und Llama-3-8B als Ausführungsmodell für vier Aufgaben: Werbedesign, Social-Media-Inhalte, Schreiben moderner Gedichte und konzeptionelle Erklärungen. Darüber hinaus stellen wir die während der Iterationen verwendeten YAML-Konfigurationsdateien und die aus dem Prozess gewonnenen Optimierungshinweise zur Verfügung.
**Entwurf einer Anzeige**
**Performance vor der Optimierung**
**Hinweise** = """Analysieren Sie eine gegebene Anzeigenaufgabe und erstellen Sie überzeugende Texte. """"
**Frage** = "Schreiben Sie E-Mail-Betreffzeilen für eine Technik-Werbung zum Black Friday"
**Antwort** = """1. **Black Friday Alert: Unvermeidliche Technik-Angebote im Shop."" **
2. **TECH FEAST: Bis zu 50% Rabatt auf Top-Marken am Black Friday! **
3. **Don't Miss! Exklusive Black Friday Tech Deals für Sie** """"
**Optimiert für Leistung** **Optimiert für Leistung** **Optimiert für Leistung
**Hinweise** = """Analysieren Sie eine gegebene Werbeaufgabe und erstellen Sie überzeugende Texte auf der Grundlage der angegebenen Plattform(en) und Branche. Berücksichtigen Sie aktuelle Trends, Strategien der Wettbewerber sowie demografische und psychografische Merkmale der Zielgruppe. Geben Sie mindestens 3 verschiedene kreative Optionen an, jede mit einem einzigartigen Blickwinkel oder Ansatz. Begründen Sie Ihre Wahl und erläutern Sie, inwiefern sie mit Ihrer Markensprache und Ihren Marketingzielen übereinstimmt. Integrieren Sie bewährte Branchenpraktiken und plattformspezifische Formatrichtlinien. Vorschläge für die Anpassung von Texten an verschiedene Kanäle oder Formate, einschließlich spezifischer Anweisungen für Ton, Stil und Struktur. Bietet außerdem Ratschläge zu visuellen Elementen oder Multimedia-Inhalten, um die Wirksamkeit von Werbetexten zu erhöhen. """"
**Frage** = "Schreiben Sie E-Mail-Betreffzeilen für technische Werbeaktionen zum Black Friday"
**Antwort** = """**Aufgabe:** Erstellen Sie überzeugende E-Mail-Betreffzeilen, die sich an Technikbegeisterte richten, die sich für die neuesten technischen Produkte und Angebote interessieren.
**Zielpublikum:**
* Demografische Daten: 25-45 Jahre alt, Männer und Frauen
* Psychografische Merkmale: Technikbegeisterte, Early Adopters und Schnäppchenjäger
* Interessen: Technologie, Produktinnovation und Sparen
** Strategien der Wettbewerber: ** * Strategien der Wettbewerber
* Hervorhebung von Rabatten und Sonderangeboten
* Hervorhebung neuer Produkteinführungen und zeitlich begrenzter Angebote
* Dringlichkeitstaktiken wie Countdown-Timer und Verknappungsbotschaften einsetzen
**Aktuelle Trends:**
* Mobile-first-Ansatz
* Personalisierung und Segmentierung
* Storytelling und emotionale Bindung
**Kreative Optionen:**
**Option 1:** "Schalten Sie die Zukunft frei: bis zu 50% an Top-Tech-Angeboten"
* Perspektive: Fokus auf die Aufregung und den Nervenkitzel, die neueste Technologie zu bekommen
* Begründung: Diese Betreffzeile erzeugt ein FOMO-Gefühl (Angst, etwas zu verpassen) und unterstreicht den Wert des Angebots.
* Markensprache: lustig, energiegeladen und frech
* Marketing-Ziel: Verkäufe ankurbeln und Markenbekanntheit steigern
**Option 2:** "Ihr technisches Fest zum Black Friday erwartet Sie"
* Perspektive: Betonen Sie die Idee einer Schatztruhe voller technischer Angebote, die darauf warten, entdeckt zu werden.
* Begründung: Diese Betreffzeile erzeugt ein Gefühl der Vorfreude und Neugier, was die Leser zum Öffnen der E-Mail anregt.
* Markensprache: freundlich, ansprechbar und einladend
* Marketingziel: Engagement und Konversion fördern
**Option 3:** "Nicht verpassen: exklusive Black Friday-Angebote für Technikbegeisterte"
* Perspektive: Hervorhebung der Exklusivität und des zeitlich begrenzten Charakters des Angebots
* Begründung: Diese Betreffzeile vermittelt ein Gefühl der Dringlichkeit und Wichtigkeit und gibt den Lesern das Gefühl, Teil einer besonderen Gemeinschaft zu sein.
* Markensprache: selbstbewusst, maßgebend und exklusiv
* Marketingziel: Förderung von Konversionen und Aufbau von Markentreue

Voroptimierte Anzeigenüberschriften sind generisch, z. B. "Black Friday Alert: Verpassen Sie nicht die Tech-Deals im Laden!" denen es an Spezifität und kreativem Tiefgang fehlte und die weder die Eigenschaften der Zielgruppe noch die Markenpersönlichkeit hervorhoben. Optimierte Schlagzeilen wie "Unlock the future: Top tech deals up to 50%" sind ansprechender, da sie den Begriff "unlock the future" verwenden, um die technologische Innovation zu betonen, und ihn mit Rabatten kombinieren, um die Neugierde zu wecken und den Wert hervorzuheben, was mehr im Einklang mit Die Verwendung von "Unlock the Future", um die technologische Innovation hervorzuheben, in Kombination mit der Rabattbotschaft weckt nicht nur die Neugier, sondern hebt auch den Wert hervor, was eher den psychologischen Bedürfnissen von Technikliebhabern entspricht.

Iteration von Vorlagen auf dem BBH-Navigationsdatensatz

SPO: Selbstüberwachte Prompt-Optimierung-12

Inhalt der sozialen Medien

Leistung vor der Optimierung

auf etw. aufmerksam machen = """Überzeugende Tweets erstellen.""""

Lösung = """Tweets. "Guten Morgen, Kaffeeliebhaber! Unter den ersten 10 Personen, die uns in den Kommentaren mitteilen, wie sie ihren Kaffee am liebsten mögen, verlosen wir einen Gutschein für eine Tasse unserer Kaffeespezialität.# Coffee # Coffee Addiction # Morning Power"

Dieser Tweet soll Ihr Publikum auf verschiedene Weise ansprechen:

  1. Aufruf zum HandelnDie Tweets forderten die Follower auf, mitzuteilen, wie sie ihren Kaffee am liebsten mögen, und ermutigten sie, sich mit der Marke zu beschäftigen und zu interagieren.
  2. AnreizeDas Versprechen von kostenlosem Kaffee ist ein großer Anreiz für die Leute, sich mit den Tweets zu beschäftigen und Ideen auszutauschen.
  3. Registerkarte (eines Fensters) (Computertechnik)Die Verwendung relevanter Hashtags wie # Coffee, # Coffee Addiction und # Morning Power hilft, ein breiteres Publikum zu erreichen und neue Anhänger zu gewinnen.
  4. Personalisierter KontaktDer Tweet beginnt mit einem freundlichen "Guten Morgen" und bezeichnet das Publikum als "Kaffeeliebhaber", wodurch er persönlicher und intimer wirkt.

Durch die Beantwortung dieses Tweets können Kaffeemarken einen Dialog mit ihren Followern beginnen, Feedback einholen und ein Gemeinschaftsgefühl rund um die Marke aufbauen. """"

Optimierte Leistung

auf etw. aufmerksam machen = """Erstellen Sie überzeugende Inhalte für soziale Medien zu einem bestimmten Thema oder einer Marke. Befolgen Sie die nachstehenden Leitlinien:

  1. Bestimmen Sie das Zielpublikum und die Plattform (falls angegeben).
  2. Geben Sie das Hauptziel des Inhalts an (z. B. Sichtbarkeit, Engagement, Werbung).
3 Wählen Sie das geeignete Inhaltsformat (z. B. Text, Bilder, Video).
4. einen einzigartigen Blickwinkel oder ein Konzept in Bezug auf aktuelle Trends entwickeln.
5 Erstellen Sie eine einprägsame Überschrift oder einen einleitenden Satz (maximal 10 Wörter).
6. prägnante, plattformgerechte Inhalte entwickeln (50-100 Wörter).
7. 2-3 relevante Tags einfügen.
8. eine klare Aufforderung zum Handeln hinzufügen.
9. ein visuelles Element oder eine Aufwertung vorschlagen.
Erstellen Sie einen Social-Media-Inhalt, der auf diesen Richtlinien basiert und an ein bestimmtes Thema oder eine Marke angepasst ist.
Konzentrieren Sie sich auf die Erstellung authentischer, relevanter Inhalte, die Ihre Zielgruppe ansprechen und den aktuellen Trends in den sozialen Medien entsprechen. Wenn keine spezifischen Anforderungen angegeben sind, stellen Sie bitte begründete Vermutungen an und erläutern Sie Ihre Wahl. """"
Frage = "Erstellen Sie einen Engagement-Tweet für eine Kaffeemarke"
Antwort =
**Zielgruppe:** Kaffeeliebhaber, junge Leute (18-35 Jahre alt)
**Plattform:** Twitter
**Primäres Ziel:** Teilnahme
**Format des Inhalts:** Text
**Einzigartige Perspektive:** Ein berührender Moment, mit dem sich Kaffeeliebhaber identifizieren können
**Eingängige Überschrift:** "Wenn Kaffee der einzige Erwachsene im Raum ist"
**Inhalt:** "Wer hat nicht schon mal einen Morgen erlebt, an dem der Kaffee das Einzige ist, was die Ordnung aufrechterhält? Teilen Sie Ihre chaotischsten Morgengeschichten und lassen Sie uns gemeinsam klagen # Coffee Saves the Day # Morning Power"
**Tagged:** # Kaffee rettet den Tag # Morgenmotivation
**Aufruf zum Handeln:** Teilen Sie Ihre eigenen unordentlichen Morgengeschichten in den Kommentaren!
**VISUELLE ELEMENTE:** Ein interessantes Modal oder GIF einer Person inmitten von Chaos mit einer Tasse Kaffee in der Mitte.
Der Tweet zielte darauf ab, Kaffeeliebhaber anzusprechen, indem ein rührender Moment geteilt wurde, mit dem sich viele identifizieren konnten. Durch den Einsatz von Humor und einen unbeschwerten Ton wurde es leicht, eine Verbindung zum Publikum herzustellen. Die Hashtags # Coffee Saves the Day (Kaffee rettet den Tag) und # Morning Power (Morgenkraft) waren beide beliebt und relevant und erhöhten die Sichtbarkeit des Tweets.
Der Aufruf zum Handeln ermutigt die Nutzer, ihre eigenen Geschichten mitzuteilen, wodurch ein Gemeinschaftsgefühl entsteht und die Beteiligung gefördert wird.
II

Voroptimierte Tweets nutzen Werbegeschenke als Köder mit einfachen Inhalten, denen es an emotionaler Resonanz fehlt, wie z. B. "Guten Morgen, Kaffeefreunde! Wir verschenken eine kostenlose Tasse ...". . Die optimierten Tweets wurden durch den humorvollen Ausdruck "wenn Kaffee der einzige Erwachsene im Raum ist" relevanter und interaktiver gestaltet, indem Kaffee subtil in Alltagsszenarien integriert wurde, z. B. "Wer hat nicht schon mal einen dieser Morgen erlebt, an denen Kaffee das Einzige ist, was die Dinge am Laufen hält? " So gelingt es, das Engagement und die emotionale Bindung der Nutzer zu fördern.

Iterationsvorlage für den BBH-Navigationsdatensatz:

SPO: Selbstüberwachte Prompt-Optimierung-13

Vor der Leistungsoptimierung

auf etw. aufmerksam machen = """Erstelle Gedichte in dem gewünschten Stil und Format.""""

Ausgaben = "Schreibe ein modernes Sonett über den Klimawandel"

Lösung = """Am glühenden Himmel sehen wir die Warnungen vor steigenden Temperaturen, eine uralte Legende des Planeten, ein Opfer unserer mutwilligen Kontrolle, da sich die Kohlenstoffemissionen wie eine Seuche ausbreiten.

Das Polareis, ein zerbrechlicher Thron, schmilzt Der Ozean, der ansteigt, droht für die menschliche Gier zu büßen, eine Schuld, die wir nicht zurückzahlen können Mit dem Klimawandel wird eine Krise umgestürzt

Doch wir zögern noch immer, sind dem Strudel der Verleugnung verfallen, während Wissenschaftler weinen und beten, schnell zu handeln, bevor es zu spät ist, um den Planeten vor unserem rücksichtslosen Verhalten zu retten

Dennoch hoffen wir, dass sich das Blatt mit Liebe und menschlicher Kraft wenden und ein neues Licht bringen wird."

Optimierte Leistung

auf etw. aufmerksam machen = """Das Verfassen von Gedichten, die traditionelle Grenzen überschreiten und konventionelle Erwartungen brechen, folgt den folgenden erweiterten Richtlinien:

  1. Die geforderte poetische Form zu dekonstruieren und neu zu erfinden, ihre strukturellen Grenzen auszuloten und gleichzeitig ihr Wesen zu bewahren.
  2. Nähern Sie sich dem Thema aus einer völlig unerwarteten Perspektive, z. B. aus der Sicht eines unbelebten Gegenstands, eines abstrakten Konzepts oder eines mikroskopischen Wesens.
  3. Surreale, avantgardistische Bilder werden verwendet, um die Realitätswahrnehmung des Lesers herauszufordern und gleichzeitig die emotionale Wahrheit zu vermitteln, die dem Thema zugrunde liegt.
  4. Integrieren Sie unkonventionelle Elemente wie mathematische Notation, wissenschaftliche Symbole oder Programmiersprachen, um eine einzigartige linguistische Landschaft zu schaffen.
  5. Experimentieren Sie mit Typografie, Zeilenumbrüchen und Leerraum, um eine visuelle Poesie zu schaffen, die die Erkundung des Themas fördert.
  6. Eine fluxartige sensorische Erfahrung, die die verschiedenen Sinne auf erstaunliche Weise miteinander verbindet und eine starke emotionale Reaktion hervorruft.
  7. Das Ende ist verwirrend und erhellend zugleich und hinterlässt den Leser mit einem tiefen Gefühl der Verwandlung.

Überlegen Sie sich vor dem Schreiben, wie Sie das Thema und die poetische Form am radikalsten angehen können. Ziel ist es, ein Werk zu schaffen, das die Definition von Poesie in Frage stellt und dennoch eine tiefe emotionale Resonanz auslöst.

Die Poesie ist nur in Ihrer Antwort enthalten und enthält keine zusätzlichen Erklärungen oder Analysen.""""

Ausgaben = "Schreibe ein modernes Sonett über den Klimawandel"

Lösung = """In fraktalem Flüstern schlägt der Puls der Erde langsam Als dunkle Flecken von Kohlenstoff in den Schnee sickern Ein Kalkül der Verzweiflung, Gleichungen wachsen In exponentiellem Zerfall, die Traurigkeit der Zukunft

Der thermodynamische Tanz des Lebens entfaltet sich, während die kalte Hand der Entropie das Herz des Planeten ergreift Der einst blaue Himmel ist nun gefesselt, eine schwere Masse aus Partikeldunst, die das Sonnenlicht blockiert

In dieser unheimlichen Dämmerung verweilen die Schatten Der Geist eines Gletschers flüstert: "Das ist unser Zuhause" Ein Requiem für das Eis, Erinnerungen sind in gefrorenen Echos gespeichert, die die Vergangenheit erforschen.

Doch in dieser trostlosen Landschaft bleibt ein Funke

Ein Quantensprung der Hoffnung, der die Liebe aufrechterhält".

Das voroptimierte Sonett ist zwar sauber strukturiert, aber es fehlt ihm an Neuartigkeit in der Verwendung traditioneller Bilder wie "steigende Temperaturen" und "schmelzendes Eis". Das optimierte Gedicht führt wissenschaftliche Konzepte wie "fraktales Geflüster" und "thermodynamische Entropie" ein, z. B. "Im fraktalen Geflüster schlägt der Puls der Erde langsam" und "Der thermodynamische Tanz des Lebens entfaltet sich", wobei interdisziplinäre Metaphern verwendet werden, um dem Klimathema eine tiefere philosophische Reflexion zu verleihen und die künstlerische und intellektuelle Tiefe des Gedichts zu erhöhen.

Iterationsvorlage für den BBH-Navigationsdatensatz:

SPO: Selbstüberwachte Prompt-Optimierung-14

Konzeptuelle Erklärungen

Vor der Leistungsoptimierung

auf etw. aufmerksam machen = """Komplexe Konzepte in Laiensprache erklären.""""

Ausgaben = Erklärung von mRNA-Impfstoffen anhand einer Kochanalogie".

Lösung =Stellen Sie sich vor, Sie sind ein Meisterkoch und bereiten ein köstliches Gericht für Ihre Gäste zu. Sie haben alle Zutaten, aber Sie müssen darauf achten, dass sie in der richtigen Reihenfolge und Kombination verwendet werden, um den perfekten Geschmack und die perfekte Textur zu erzielen.

In der Welt der mRNA-Impfstoffe ist das "Gericht" die Reaktion des Immunsystems auf ein bestimmtes Virus oder eine Krankheit. Die "Zutaten" sind genetische Anweisungen (mRNA), die dem Körper sagen, wie er bestimmte Proteine herstellen soll, die dann zur Auslösung einer Immunreaktion verwendet werden.

Es funktioniert folgendermaßen:

RezeptauswahlmRNA-Impfstoffe sind wie die Auswahl eines Rezeptbuchs. Man wählt eine bestimmte mRNA-Sequenz aus, die dem Protein entspricht, das man herstellen möchte und das der Schlüssel zur Auslösung einer Immunreaktion gegen ein bestimmtes Virus oder eine Krankheit ist.
2. Zutaten ZubereitungDie mRNA-Sequenz ist wie eine Anleitung, die dem Körper sagt, wie er ein bestimmtes Protein herstellen soll. Die mRNA wird im Labor hergestellt, so wie man auch die richtige Menge der einzelnen Bestandteile (Aminosäuren) für die Herstellung eines Proteins abmessen kann.
3. LieferungenmRNA wird dem Körper auf die gleiche Weise zugeführt, wie man Zutaten zu einem Gericht hinzufügt. In diesem Fall ist die mRNA in einem winzigen Partikel, einem so genannten Lipid-Nanopartikel (LNP), verpackt, der ihr hilft, die Zellen im Körper zu erreichen.
4. Zelluläres KochenSobald die mRNA die Zelle erreicht, ist es, als würde man Zutaten in einen Topf geben. Die Zelle liest die Anweisungen der mRNA und beginnt mit der Herstellung eines bestimmten Proteins. Dieses Protein wird dann auf der Oberfläche der Zelle wie eine Flagge angezeigt, um das Immunsystem vor einem fremden Eindringling zu warnen.

  1. ImmunreaktionDas Immunsystem reagiert auf Proteine, indem es Antikörper produziert und Immunzellen aktiviert, so wie ein Koch auf ein leckeres Aroma reagiert, um einem Gericht den letzten Schliff zu geben. Das Immunsystem merkt sich dann, wie es auf ein bestimmtes Eiweiß reagiert hat, so dass es sich bei einem erneuten Aufeinandertreffen mit diesem Eiweiß schnell zur Wehr setzen kann.

Kurz gesagt, sind mRNA-Impfstoffe wie Rezepte für das Immunsystem. Sie liefern dem Körper genetische Anweisungen zur Herstellung bestimmter Proteine, was eine Immunreaktion auslöst und zum Schutz vor Krankheiten beiträgt.""""

Optimierte Leistung

auf etw. aufmerksam machen = """Komplexe Konzepte in Laiensprache erklären.""""

Ausgaben = Erklärung von mRNA-Impfstoffen anhand einer Kochanalogie".

Lösung = """definieren.Ein mRNA-Impfstoff ist ein Impfstoff, der eine Art von genetischem Material namens Boten-RNA (mRNA) verwendet, um unseren Zellen beizubringen, wie sie Krankheiten bekämpfen können.

analogStellen Sie sich vor, Sie sind ein Meisterkoch und wollen ein neues Rezept für ein köstliches Gericht kreieren. Sie würden Ihren Chefkoch nicht in den Laden schicken, um alle Zutaten einzukaufen, und ihn dann allein mit der Zusammenstellung des Gerichts lassen. Stattdessen würden Sie ihm eine Rezeptkarte geben, auf der die genauen Schritte beschrieben sind. In ähnlicher Weise funktionieren mRNA-Impfstoffe, indem sie unseren Zellen eine Rezeptkarte - mRNA - zur Verfügung stellen, die Anweisungen für die Herstellung bestimmter Proteine enthält, die unserem Immunsystem bei der Bekämpfung von Krankheiten helfen.

Schlüsselkomponenten::

  1. mRNAEine Rezeptkarte mit Anweisungen für die Herstellung eines bestimmten Proteins. Betrachten Sie es als eine Art Blaupause für Ihre Zellen, der sie folgen sollen.
  2. ZytoplasmaDie Sous-Chefs in unserem Körper erhalten die mRNA-Rezeptkarte und verwenden sie, um Proteine herzustellen.
  3. Kohlenhydrate: das ultimative Gericht, das von unseren Zellen produziert wird und unserem Immunsystem hilft, Krankheiten zu erkennen und zu bekämpfen.

erzählen (eine Geschichte oder Information)Wenn wir einen mRNA-Impfstoff erhalten, nehmen unsere Zellen die Rezeptkarte (mRNA) auf und verwenden sie zur Herstellung eines bestimmten Proteins. Dieses Protein löst dann eine Immunreaktion aus, die unserem Körper beibringt, wie er die Krankheit erkennen und bekämpfen kann. Es ist, als würden unsere Zellen einer Rezeptkarte folgen, um ein köstliches Gericht zu kreieren, das uns hilft, gesund zu bleiben!

Interaktive ElementeKönnen Sie sich an ein Ereignis erinnern, bei dem Sie ein Rezept von jemandem erhalten haben und es nachkochen mussten? Wie haben Sie sich dabei gefühlt? Stellen Sie sich vor, dass Ihre Zellen eine Rezeptkarte von einem mRNA-Impfstoff erhalten und diese zur Herstellung von Proteinen verwenden, die zur Bekämpfung von Krankheiten beitragen. Wie würden Sie sich dabei fühlen?

SehleistungEin einfaches Diagramm, das das mRNA-Molekül, die Zelle, die die mRNA empfängt, und das produzierte Protein zeigt.

EinschränkungenmRNA-Impfstoffe sind noch eine relativ neue Technologie, und es sind weitere Forschungsarbeiten erforderlich, um ihre langfristigen Wirkungen und möglichen Nebenwirkungen zu verstehen.

ein Urteil fällenmRNA-Impfstoffe sind ein Wendepunkt im Kampf gegen Krankheiten. Indem wir unsere Zellen mit einer Rezeptkarte ausstatten, können wir unserem Immunsystem beibringen, wie es Krankheiten besser erkennen und bekämpfen kann. Wie sieht Ihrer Meinung nach die Zukunft der mRNA-Impfstoffe aus?"""

Die voroptimierten Erklärungen verwenden zwar kulinarische Analogien, sind aber langatmig und unkonzentriert, z. B. "Stellen Sie sich vor, Sie sind ein Meisterkoch...". . Die optimierte Version vereinfacht komplexe Konzepte in leicht verständliche Schritte, indem sie zentrale Metaphern wie "Rezeptkarten" verwendet, z. B. "mRNA-Sequenzen sind wie ein Satz von Anweisungen, die dem Körper sagen, wie er ein bestimmtes Protein herstellen soll", und indem sie Die Verwendung von "Chefkoch-Souschef"-Rollen macht die Erklärungen anschaulicher und intuitiver und hilft dem Leser, die wichtigsten Punkte schnell zu erfassen.

Iterative Templates im BBH-navigate-Datensatz Tipp: | Erklären Sie komplexe Konzepte in laienverständlicher Form.

SPO: Selbstüberwachende prompte Optimierung-15

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " SPO: Selbstüberwachende Promptwortoptimierung

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)