SPO：セルフ・モニタリングによるプロンプト・ワードの最適化

21.7K 00

抄録

適切に設計されたプロンプトは、大規模言語モデル(LLM)の推論能力を向上させると同時に、その出力を異なるドメインのタスク要件に合わせるために不可欠である。しかし、手動でヒントを設計するには、専門知識と反復的な実験が必要である。既存のヒント最適化手法は、このプロセスを自動化することを目的としているが、実際の回答や人間のフィードバックなどの外部参照に大きく依存しているため、これらのデータが利用できない、または入手にコストがかかる実シナリオでの適用には限界がある。この問題に対処するため、我々は自己教師付きプロンプト最適化（Self-Supervised Prompt Optimisation: SPO）を提案する。これは、外部参照を必要とせず、クローズドタスクとオープンエンドタスクの両方に対して効果的なプロンプトを発見するための効率的なフレームワークである。手がかりの質はLLMの出力に直接反映され、LLMはタスク要件への準拠度を効率的に評価できるという観察に着想を得て、出力比較のみから評価と最適化のシグナルを導出する。具体的には、SPOは、LLM評価器によって評価された一対の出力比較によって優れたキューを選択し、LLM最適化器によって出力をタスク要件に合わせる。広範な実験により、SPOは既存の最先端のキュー最適化手法を凌駕する一方で、コストが大幅に削減され（例えば、既存の手法の5.61 TP3Tに対し、SPOはわずか1.11 TP3T）、必要なサンプル数も少ない（例えば、わずか3サンプル）ことが示されている。コードはhttps://github.com/geekan/MetaGPT获取。

デモコード全文：https://github.com/geekan/MetaGPT/blob/main/examples/spo/README.md

1.はじめに

ラージ・ランゲージ・モデル（LLM）が進化し続ける中、その機能を最大限に発揮させるには、優れたデザインのプロンプトが不可欠である。推理力 (Wei他、2022年; Zheng他、2024年; Deng他、2023年)だけでなく、多様なミッション要件との整合性を確保すること(Hong他、2024b; Liu他、2024a; Zhang他、2024b; Hong他、2024a)も重要になっている。が重要になってきている。しかし、効果的なキューを作成するには、通常、大規模な試行錯誤実験とタスク固有の深い知識が必要である。

この課題に対処するため、研究者はLLMの能力を利用して自動的にプロンプトを改善するプロンプト最適化（PO）手法を研究してきた。POは、従来の手作業によるプロンプト設計の枠を超え、より体系的で効率的なプロンプト設計のアプローチを提供する。図1(a)に示すように、これらの手法では通常、キューの最適化、実行、評価のプロセスを繰り返し行う。これらの構成要素の設計選択は、最適化の効果と効率に大きく影響する。既存の手法は、数値評価メカニズム（Wang et al., 2024e; Yang et al., 2024a; Fernando et al.ら、2024）。これらの技術革新により、PO手法は手作業の労力を減らしながら、タスクのパフォーマンスを向上させてきた（Pryzant et al.）

その可能性にもかかわらず、既存のPO手法は、以下に述べるように、実世界のシナリオにおいて大きな課題に直面している。第一に、現在のアプローチは法律は通常、その評価のために外部参照に大きく依存している。.しかし、多くの実世界のアプリケーション、特に自由形式のタスクでは、そのような標準的な回答が得られないことが多い。標準的な回答が得られないことが多い。同様に、手作業に依存する方法（Chen et al., 2024; Lin et al., 2024）は、フィードバックを生成するために、手作業による評価や手作業で設計されたルールを必要とするが、これは時間がかかり、自動化の目標と矛盾する。第二に、既存の方法では、信頼できるフィードバックを得るために、一般的に多数のサンプルを評価する必要があり、その結果、計算オーバーヘッドが大きくなる（Wang et al.）

これらの課題の核心は、キューの質を評価するための、信頼性が高く効率的で、リファレンスを必要としない方法の欠如にある。LLMの振る舞いを分析することで、我々のアプローチに役立つ2つの重要な洞察が明らかになった。第一に、手掛かりの質はモデル出力に本質的に反映される。これは、段階的推論経路が連鎖的思考の手掛かりの成功をどのように示すかによって実証されている（Wei et al.、2022；Deng et al.、2023）。第二に、判定者としてのLLMに関する広範な研究により、LLMは出力がタスク要件にどの程度従っているかを評価するのに有効であることが示されている（Zheng et al.）これらの観察から、手がかりの質を自然に反映するアウトプットの本来の能力を評価するためにLLMを使用することで、参照せずに手がかりを最適化することが可能であることが示唆される。

これらの洞察に触発され、我々は、自己教師付き学習がデータから学習信号を導き出すのと同様に、LLM出力のみから評価信号と最適化信号を生成する効率的なフレームワークを提案する。このアプローチを自己教師付きプロンプト最適化（SPO）と呼ぶ。図1に示すように、SPOは、基本的な最適化-実行-評価サイクルに基づき、いくつかの革新的なメカニズムを導入している：

ペア評価の基準として出力SPOの核心は、異なるキューからの出力の相対的な品質を評価するために、ペアワイズ比較を使用することである。この評価メカニズムは、タスク要件を理解し、外部参照なしに最適化の有効性を検証するLLM固有の能力を利用する。
最適化ガイドとしての出力SPOは、LLMが現在の最良出力に対するより良い解を理解することで、キューを最適化する。このプロセスは、明示的な最適化シグナルに依存するのではなく、タスクの最適解に関するモデルの理解に、キューの修正を自然に合わせる。

捧げる.我々の主な貢献は以下の通りである：

自己教師付きキュー最適化フレームワーク.LLM出力のペアワイズ比較を用いて、外部参照なしに手がかりの最適化を導く新しいフレームワーク、SPOを紹介する。
費用対効果の最適化SPOは、最小限の計算オーバーヘッド（データセットあたり0.15ドル）とサンプル要件（3サンプル）でプロンプトを最適化し、リソース要件を大幅に削減する。
広範な評価.図2に示すように、SPOは、閉じたタスクと開いたタスクの両方で優れた性能を維持しながら、既存の手法の1.11 TP3Tから5.61 TP3Tのコストしか必要としない。

2.予備

2.1 問題の定義

プロンプト最適化の目的は、与えられたタスクに対するプロンプトの妥当性を自動的に高めることである。形式的には、T = (Q, G_t)はタスクを表し、Qは入力問題、Gは_t はオプションのベンチマークファクトである。目標は、タスクに特化したプロンプトP_t* タスクTのパフォーマンスを最大化する。この最適化の目的は、次のように定式化できる：

P_t = arg max_白金∈P* E_T∼D[ϕ_評価(ϕ_エグゼ(Q, P_t))], (1)

ここで、P はすべての可能なプロンプトの空間を表す。図1に示すように、この最適化プロセスには通常3つの基本関数が含まれる。_オプト)：候補プロンプトに基づいて修正プロンプトを生成する。(2)実行関数(ϕ_エグゼ)：修正されたヒントは、推論パスと最終的な答えを含む出力Oを生成するために、LLMと共に使われる。_評価)：Oの品質を評価し、さらなる最適化を導くためのフィードバックFを提供し、キューの候補を繰り返し改善する。

これらの関数の中で、評価関数は、その出力（フィードバック F）がキューの評価と改善の指針となるため、重要な役割を果たす。2.2 節で、キューの最適化のための評価フレームワークについて述べる。

2.2 キュー最適化における評価フレームワーク

このセクションでは、図3に示すように、評価のソース、評価方法、フィードバックのタイプの3つの主要なコンポーネントをカバーする、我々のプロンプト最適化評価フレームワークの概要を提供します。最後に、SPOの評価フレームワークの選択について述べる。

評価の情報源.図3(a)に示すように、LLMが生成した出力とタスク固有の正答の2つの主な評価ソースが利用可能である。これらのソースは、プロンプトのパフォーマンスを評価するための基礎となる。

評価方法.評価方法は、評価源と関連コストをどのように評価するかを定義する。一般的に使用される3つの方法は、(1) あらかじめ定義されたメトリクス（Suzgun et al., 2023; Rein et al.(2)LLMがタスク要件に従って出力を理解し評価する能力を利用する。(3) 手動フィードバック（Lin et al., 2024）は、出力を手動で直接評価することにより、最も包括的な評価を提供する。

手作業によるフィードバックは、人間の嗜好やタスク固有のニーズを把握することで最も徹底的な評価を提供するが、ベンチマークやLLM-as-judgeアプローチよりもコストが高く、評価の質と実現可能性のトレードオフが生じる。

フィードバックの種類.(1)数値フィードバックは、データセット全体にわたって定量的なパフォーマンス指標を提供する。しかし、評価の安定性を確保するために多くのサンプルを必要とし、インスタンス固有の詳細を無視する可能性がある(Zhang et al., 2024a)。(2) テキスト・フィードバックは、最適化シグナルを直接生成する提案を分析・提供することで、豊富なインスタンス固有のガイダンスを提供する(Yuksekgonul et al., 2024)。(3) ランキングまたは選択フィードバック(Liu et al., 2024b)は、完全なランキングまたはペアワイズ比較によって出力間の相対的な品質ランキングを確立し、絶対的な品質メトリクスを必要とせずに、明示的な最適化の方向性を提供する。

評価の枠組み 先に説明したフィードバックのソース、メソッド、およびタイプに基づいて、評価のフレームワークが、キューの最適化のコンテキストにおいて、ソースがどのように比較され、評価されるかを決定する。具体的には、手がかり最適化のためのフィードバックFを生成するための2つの評価フレームワークを導出する：

(1) 出力対真正回答（OvG）：出力Oと真正回答Gを組み合わせることによって、出力Oと真正回答Gを比較する。_T 比較を行い、フィードバックを得る：

f_{卵胞刺激ホルモン}(O_i, G_i) = φ_評価(φ_エグゼ(Q_i, T_円周率), G**_i**)

このアプローチでは、外部参照による直接的な質の評価は可能ですが、明確に定義された真の解答が必要となるため、真の解答がない、または真の解答を定義することが現実的でない自由形式の課題には不向きです。

(2)出力対出力(OvO)：真の答えが得られない場合、直接出力比較に目を向ける。OvOの核となる考え方は、完全な真の答えがない場合でも、異なるヒントから生成された出力を比較することで、それらの相対的な品質に関する貴重なシグナルを提供できるということである。このアプローチは外部参照への依存を排除し、複数の有効な答えがあるオープンエンドのタスクに特に有効です。正式には次のように表現できます：

f_{オーブロー}(O₁, ..., O_k) = φ_評価({φ_エグゼ(Q_i, P_ティ)}^k_i=1)

OvGとOvOの評価フレームワークを紹介したところで、OvOが自己教師付きプロンプト最適化（SPO）の中核となる手法であることを強調する。異なるキューから生成された出力を比較することで、OvOは外部参照に依存することなく、それらの相対的な品質に関する貴重なフィードバックを提供する。このアプローチは、出力自体からフィードバックを生成するという我々の目標に合致しており、その結果、クローズドタスクとオープンタスクの両方に対する反復最適化が容易になる。

3.セルフモニタリングのヒントの最適化

このセクションでは、まず我々のアプローチを概説し（セクション3.1）、次にその有効性を分析する（セクション3.2）。

3.1 SPOの概要

参照フリーのキュー付き最適化における中心的な課題は、効果的な評価と最適化のシグナルをどのように構築するかである。このフレームワークは、基本的な最適化-実行-評価のサイクルを維持しながら、評価と最適化のガイダンスとしてモデル出力のみを利用します。

アルゴリズム1に示すように、SPOは3つの重要な構成要素を通して動作し、対応するヒントは付録A.1に示されている：

最適化機能 (φ_オプト): 現在の最良のプロンプトとそれに対応する出力を分析することで、新しいプロンプトを生成する。
実行機能 (φ_エグゼ): 生成されたプロンプトを適用して出力を得る。
評価機能 (φ_評価)：LLMを使用して出力を比較し、一対比較によってより良い手がかりを決定する。

この反復プロセスは、基本的なプロンプトテンプレート（例：チェーン思考（Wei et al.各反復において、SPOは新しいプロンプトを生成し、実行し、その出力をペアワイズ評価することで、タスク要件にどの程度従っているかを評価する。

より良い出力とこの手がかりの関連付けが、次の反復の最良の候補として選択される。このプロセスは、あらかじめ決められた最大反復回数に達するまで続けられる。

3.2 SPOの有効性を理解する

SPOの理論的基盤は、2つの重要な見解に基づいている：

第一に、LLMの出力は、段階的推論パスが連鎖的思考のキューの成功を示すことができるように、キューの有効性を直接反映する定性的な情報が豊富である（Wei et al.、2022）。第二に、LLMは人間のようなタスク理解力を発揮するため、タスク要件に基づいて解答の質を評価し、優れた解答を特定することができる。これらの相補的な能力により、SPOは外部参照なしにキューの評価と最適化を行うことができる。モデル出力を利用するこれら2つの側面は、効果的なプロンプト最適化を達成するために協働する：

を最適化ガイドとして出力する。 φの場合_オプト設計に関しては、信号の明示的な最適化を導入する他の方法（Fernando et al, 2024; Yuksekgonul et al, 2024; Pryzant et al, 2023）とは異なり、φ_オプト最適化は、キューとそれに対応する出力に直接基づいて行われる。最適化シグナルは、LLMが本来持っている出力の質を評価する能力に由来し、最適化動作は、何がより良い解を構成するかについての理解によって導かれる。したがって、明示的な最適化シグナルがない場合でも、SPOの最適化は基本的に、LLMがタスクを最適に理解できるようにキューを導く。

の出力をペア評価の基準とした。 φについて_評価デザインでは、評価モデルがペアワイズ選択を実行できるようにすることで、評価モデルがタスクに対して本来持っている嗜好性を効果的に利用します。この内部信号は、出力の単純なペアワイズ比較によって得ることができ、スコアリング・フィードバック法でしばしば必要とされる、スコアリングの安定性を確保するための多数のサンプルの必要性を回避することができる。

ランダム化された評価を4ラウンド行うことで、潜在的なバイアスを軽減していますが、これらのバイアスを完全に排除することはできません（Zhou et al.）しかし、eval からのフィードバックは次の最適化ラウンドの参考として使用されるだけであるため、これらのバイアスは全体的な最適化傾向には影響しない。全体的な最適化プロセスは、最適化モデルのタスク理解と自然に一致し、eval メカニズムは各反復の有効性を検証するためにのみ使用されます。

4.実験

4.1 実験セットアップ

データセット.我々は、SPOの有効性を十分に評価するために、クローズドタスクとオープンタスクの両方を含む多様なタスクセットでSPOを評価した。

クローズド・タスクでは、5つの確立されたベンチマークを使用した：

GPQA（ラインら、2023年）
AGIEval-MATH (Zhong et al., 2024)
LIAR（ワン、2017年）
WSC (Levesque et al., 2012)
BBH-ナビゲート（スズグンら、2023年）

WSC、LIAR、BBH-Navigateについては、Yanら(2024)に従い、オリジナルデータセットから一部をテストセットとしてサンプリングする。GPQAについては、より難易度の高いGPQA-Diamondサブセットをテストセットとして使用し、AGIEval-Mathについては、レベル5の問題をテストセットとして使用した。オープンエンドのタスクについては、MT-Bench (Zheng et al., 2023)からライティング、ロールプレイング、人文科学のタスクを選択した。データセットのサイズが限られているため、これらのタスクについては手動で3つの検証セットを作成した。データセットの詳細な説明、および検証セットとテストセットの構築手順は、付録 A.3 にある。

基準線.io（LLMの直接呼び出し）、chainthink (Wei et al., 2022)、rewording (Deng et al., 2023)、fallback abstraction (Zheng et al., 2024)などの伝統的なプロンプト手法、および (2)APE(Zhou et al., 2023)、OPRO (Yang et al., 2024a)、PromptAgent (Wang et al., 2024e)、PromptBreeder (Fernando et al., 2024e)などの自動プロンプト最適化手法である。Zhou et al., 2023）、OPRO（Yang et al., 2024a）、PromptAgent（Wang et al., 2024e）、PromptBreeder（Fernando et al., 2024）、TextGrad（Yuksekgonul et al., 2024）を含む自動プロンプト最適化手法であり、その評価は、APE（Deng et al., 2023）やフォールバック抽象化（Zheng et al., 2024）といった一連のアルゴリズムに基づいている。2024)などの自動プロンプト最適化手法である。

MT-Bench (Zheng et al., 2023)のオープンエンドタスクでは、GPT-4oを使用して、SPOが生成した出力とモデルが直接生成した出力を比較した。

4.2 実験結果と分析

非公開マンデートの主な調査結果.表1に示すように、SPOを最適化したプロンプトは、従来のプロンプト最適化手法を平均して上回り、最適ベースラインを1.9上回った。特に、他の最適化手法に対するSPOの平均的な性能優位性は、そのペアワイズ評価手法が、外部参照に依存する他の手法よりも効率的な最適化シグナルを生成できることを示唆している。これは、Claude-3-5-Sonnetを最適化モデルとして使用した結果よりも若干低いものの、比較した手法の中で3番目に優れたパフォーマンスである。

コスト分析.SPOの最適化コストと性能（最適化モデルとしてClaude-3.5-SonnetとGPT-4oを使用）を他の最適化手法と包括的に比較した結果を表1に示す。実解答に依存する他のヒント最適化手法と同等の性能を維持しながら、SPOに必要な最適化コストは1.11 TP3T～5.6%で、データセットあたりの平均最適化コストは次のとおりです。 $0.15.このように計算オーバーヘッドが大幅に削減されることと、実際の解答に依存しないことが相まって、SPOは実世界のアプリケーションにとって非常に魅力的なものとなっている。

表3 BBH-navigateの性能比較：異なる評価モデル（行）と実行モデル（列）を使用したキューイング法（IOとCOT）とSPO。最適化モデルはClaude-3.5-Sonnetとした。

	GPT-4o-ミニ	ラマ3-70B	クロード-3-俳句
入出力	91.3	82.7	62.2
COT	89.7	86.2	68
クロード-3.5-ソネット	95	86.8	68.2
ラマ3-70B	94.5	94.2	82.0
GPT-4o-ミニ	97.8	90.7	82.0

アブレーション研究.異なる最適化、評価、実行モデル間でのSPOの移植性を評価するために、BBH-Navigateデータセットでアブレーション実験を行った。表3と表4の実験結果は、SPOが異なるモデル間で頑健な性能を示すことを示している。特に、GPT-4o-miniを最適化・実行・評価モデルとして使用した場合に、最高の性能（97.8）が達成されました。実行に関しては、SPOはClaude-3-Haikuを62.2から89.7に増加させることで、弱いモデルの性能を効果的に改善した。これは、SPOが弱いモデルに適用できる能力を実証し、現実的なアプリケーションへの可能性をさらに広げた。

表4 異なる最適化モデル（行）と実行モデル（列）でのBBH-navigateの性能比較。評価モデルはGPT-4o-miniとした。

	GPT-4o-ミニ	ラマ3-70B	クロード-3-俳句
クロード-3.5-ソネット	97.2	86.7	89.7
GPT-40	96.3	85.5	73.0
GPT-4o-ミニ	97.8	90.7	82.0
ディープシーク-V3	94.7	83.7	77.2

図5に示すように、BBH-Navigateデータセットを用いて、SPO性能に対するサンプルサイズの影響を調べるためにアブレーション研究を行った。3つの最適化モデルの性能曲線はすべて同じようなパターンを示している。すなわち、最初はサンプルサイズが大きくなるにつれて性能が向上するが、最終的には横ばいまたは低下する。この現象は、2つの要因に起因する可能性があります：不十分なサンプルは、キューの最適化におけるオーバーフィッティングにつながる可能性があり、一方、多すぎるサンプルは、計算コストを増加させるだけでなく、モデルを評価するための長いコンテキストをもたらし、評価の質を低下させる可能性があります。広範な実験に基づき、我々は、サンプルサイズ3が費用対効果と性能の間の最良のバランスを達成することを決定した。

オープンエンド・マンデートの主な調査結果オープンエンドタスクにおけるSPOの能力を検証するため、MT-Benchから3つのカテゴリーを選んで評価を行った。SPOのオープンエンドタスクにおける能力を検証するため、MT-Benchから「ライティング」、「ロールプレイング」、「人文科学」の3つのカテゴリーを選び、評価を行った。".最適化モデルとしてClaude-3.5-Sonnet、評価モデルとしてGpt-4o-miniを用い、実行モデルとしてClaude-3.5-Sonnet、DeepSeek-V3、GPT-4ominiを選択し、5回の反復を行った。その後、(Zheng et al., 2023)の評価方法に従い、GPT-4oを用いて、図6に示すように、モデルAとモデルBの出力を対で比較した。図6に示す実験結果は、SPOがすべてのモデル構成においてモデル性能を大幅に向上させることを示している。注目すべきは、最適化の手がかり（GPT-4ominiなど）を使用した小さなモデルは、ほとんどの場合、大きなモデルよりも優れていることが多いということです。

4.3 ケーススタディ

付録A.4には、データセットを用いない追加の自由形式タスクの最適化結果と、SPOの最適化の軌跡を示す。また、5つのクローズドエンドタスクでSPOが発見した最適ヒントを補足資料に示す。実世界のアプリケーションではデータセットが限られているという問題に直面することが多いため、従来のベンチマークを用いないタスクでSPOの性能を評価した。SPOの費用対効果と組み合わせた実験結果は、実世界のシナリオにおけるSPOの実用的な価値を実証している。具体的には、最適化モデルとしてClaude-3.5-Sonnet、評価モデルとしてGPT-4o-mini、実行モデルとしてLlama3-8Bを用い、広告デザイン、ソーシャルメディアコンテンツ、現代詩作、概念説明の4つのタスクについて、10回繰り返した後の最適化結果を示す。さらに、付録A.4.1では、BBH-navigateデータセットにおけるSPOの最適化の軌跡を包括的に分析し、成功例と失敗例を示すことで、最適化プロセスに対する深い洞察を提供する。

5.関連作品

5.1 キュー・エンジニアリング

効果的なプロンプト手法に関する研究は、主に2つの方向性に沿って行われてきた。第一の方向は、LLMの一般性を高めるタスクに依存しないプロンプト技法に焦点を当てる。注目すべき例としては、幅広いタスクに渡って推論を改善する連鎖思考（Wei et al., 2022; Kojima et al.方法（Zhang et al., 2024a; He et al., 2024; Tam et al., 2024）。これらの技術は、人間の洞察と広範な実験開発を通じて、オートキューの最適化研究に重要な最適化の種を提供する。

第二の方向は、ドメイン固有の手がかりに取り組むことであり、研究者たちは、コード生成（Hong et al.Wu et al., 2024b; Zhu et al., 2024; Yang et al., 2024b）、意思決定（Zhang et al., 2024b; Wang et al., 2024a）、その他の分野（Guo et al.）)は専門的な技術を開発してきた。しかし、LLMの応用が複雑化する実世界のシナリオに拡大するにつれ、各領域に効果的なキューを手作業で作成することは非現実的になっている（Zhang et al.）この課題は、一般的なキューの原理を発見するのではなく、ドメインに特化した効果的なキューを体系的に開発することを目的とした、キューの最適化研究の動機付けとなっている。

5.2 キューの最適化

プロンプト最適化（PO）では、評価のフレームワークの設計が、最適化の有効性と計算効率を決定するため、極めて重要である。POにおける評価メカニズムの進化は、単純な評価フィードバックの収集から、複雑な最適化信号の生成へと発展してきた（Chang et al.）既存のPO手法は、その評価ソースとメカニズムによって分類することができる。

最も一般的なアプローチは、ベンチマークに基づく数値評価を利用し、評価源として本物の解答に頼るものである（Zhou et al.).これらの手法は特定のタスクで成功を収めていますが、評価の安定性を確保するために、一般的に多くの反復とサンプルを必要とし、計算オーバーヘッドが大きくなります。

サンプル要件を減らすために、いくつかの手法（Yan et al., 2024; Yuksekgonul et al., 2024; Wu et al., 2024a; Wang et al., 2024c; Pryzant et al....、2023）、詳細なテキストフィードバックを生成する。このアプローチはより豊富な評価シグナルを提供し、より少ないサンプルで済むが、依然として実際の解答データに依存しているため、参照解答が存在しない可能性のある自由形式のタスクへの適用が制限される。

別のアプローチでは、手動で設計された評価ルールや人からの直接フィードバックを通じて、人間の嗜好に焦点を当てている（Chen et al.）これらのアプローチは、オープンエンドのタスクには効果的であるが、人間が広範囲に関与する必要があるため、自動化の目標と矛盾する。一方、出力の一貫性によって手がかりの妥当性を評価するというZhangら（2024c）の提案のように、異なる評価基準を模索する研究者もいる。しかし、このアプローチは、一貫性と妥当性の間の非線形関係は、通常、貧弱な評価信号につながるという基本的な課題に直面している。

これらの手法とは異なり、SPOは、効率を維持しながら外部参照への依存を排除する新しい評価パラダイムを導入している。ペアワイズ比較を通じてモデル出力のみを利用することにより、SPOは、実際の回答や人間によるフィードバック、大規模なサンプリングを必要とすることなく、ロバストな評価を可能にし、現実的なアプリケーションに特に適しています。

6.結論

本論文では、キューによる最適化における基本的な課題である、現実的な応用を制限する外部参照への依存を取り上げる。本稿では、この依存性を克服するフレームワークである自己教師付きプロンプト最適化（Self-Supervised Prompt Optimisation: SPO）を紹介する。 $0.15 SPOは、自己教師あり学習のインスピレーションを活用し、モデル出力のペアワイズ比較を通じて評価と最適化のシグナルを革新的に構築することで、有効性に妥協することなく、リファレンスなしの最適化を可能にする。

我々の包括的な評価により、SPOはクローズドタスクとオープンタスクの両方で既存の最先端手法を上回り、既存手法の5.6%に対してわずか1.1%のコストで最先端の結果を達成した。標準的なベンチマークと多様な実世界アプリケーションでの成功は、SPOの有効性と汎化能力を検証している。リソース要件と操作の複雑さを大幅に削減することで、SPOは、実世界のアプリケーションにおいてキュー最適化を利用しやすく実用的にする上で大きな進歩であり、幅広い領域でLLM技術の採用を加速する可能性がある。

インパクト・ステートメント

SPOは、LLMのためのキューのエンジニアリングに大きな進歩をもたらし、アクセスを民主化し、コストを削減し、幅広いタスクでパフォーマンスを向上させるなどの利点を提供する。しかし、バイアスの増幅、有害なコンテンツ生成の使用、LLMへの過度の依存などのリスクもある。

A. 付録

A.1 SPOのための詳細なヒント

このセクションでは、反復のためのメタヒントを示す。ここでは、最も単純で簡単なヒントしか使っていないことに注意されたい。以下のメタヒントを特定のドメインに最適化することで、まだ改善の余地がある。

機能最適化のヒント

このプロンプトテンプレートは、構造化された XML 分析を通じて、LLM が既存のプロンプトを反復的に改善するためのガイドとなる。そのためには、参照プロンプト出力の弱点を特定し、変更を提案し、最適化されたバージョンを生成する必要がある。このテンプレートでは、要件の一貫性を維持しながら、段階的な改善を重視している。

関数評価のヒント

評価テンプレートは、回答の質を評価するために比較分析を使用します。このテンプレートでは、2つの回答（A/B）の長所と短所をXML形式で根拠を持って分析し、明確な選択肢を提示する必要があります。

A.2. イテレーション開始時の詳細なプロンプトテンプレート

このYAMLファイルはBBH-navigateタスクを反復するための初期設定を示しています。シンプルな初期プロンプトと要件、3つの特定の質問を設定することで、繰り返し最適化を実行することができます。ここで示す内容はファイルの完全な内容であることに注意することが重要です。回答セクションの内容は実際の回答ではなく、思考プロセスと正しい出力フォーマットの参考となるものです。

A.3 実験の詳細

A.3.1 タスクとデータの詳細

ライアー
LIAR (Wang, 2017)は英語のフェイクニュース検出データセットであり、4000の発言を含み、それぞれに文脈情報と嘘ラベルが添付されている。我々の実験では、Yanら(2024)の方法に従い、オリジナルのデータセットから一部をテストセットとしてサンプリングする。

BBH-ナビゲート
BBH-Navigate (Suzgun et al., 2023)は、BIGベンチデータセットのサブセットであるBIGベンチハードデータセットのタスクである。このタスクはナビゲーションの推論に重点を置き、エージェントが一連のナビゲーションのステップを踏んだ後に出発点に戻るかどうかをモデルが判断することを要求する。実験では、ランダムサンプリング（seed = 42）を用いて、200/25/25 テスト/訓練/検証の分割を得た。

表A1. データセットサイズとデータ分割

データセット名	試験	トレーニングと検証
ライアー	461	3681
BBH-ナビゲート	200	50
WSC	150	50
AGIEval-MATH	256	232
ジーピーキューエー	198	250
MTベンチ	80	0

WSC
Winograd Schema Challenge (WSC) (Levesque et al., 2012)は、文脈中の代名詞参照を解析することにより、システムがコモンセンス推論を行う能力を評価するために設計されたベンチマークである。我々の実験では、Yan et al. (2024)に従い、オリジナルのデータセットから一部をテストセットとしてサンプリングする。

AGIEval-MATH
AGIEval-MATH (Zhong et al., 2024)は、AGIEvalベンチマークのサブセットで、数学的な問題解決タスクに焦点を当てている。推論と計算能力を評価するために設計された様々な数学的問題が含まれている。我々の実験では、レベル5の問題をテストセットとして、レベル4の問題をトレーニングセットと検証セットとして使用する。

ジーピーキューエー
GPQA (Rein et al., 2023)は、生物学、物理学、化学を含む様々な分野の大学院レベルの問題に対する言語モデルの性能を評価するために設計されたデータセットである。我々の実験では、GPQA-Diamondのサブセットをテストセットとして使用し、GPQA-mainにのみ存在する問題（つまり、GPQA-mainには存在するが、GPQA-Diamondには存在しない問題）からトレーニングセットと検証セットを構築します。

MTベンチ
MT-bench (Zheng et al., 2023)は、テキストの分類、要約、質問と回答など様々なタスクにおける言語モデルの汎化能力を評価するために設計されたマルチタスクベンチマークである。我々の実験では、MT-Benchからライティング、ロールプレイング、人文科学のタスクを選択した。これらの検証問題は補足資料に記載されている。

A.3.2 コンフィギュレーション

実験では、最適化コストができるだけ一定になるように、さまざまな最適化フレームワークを設定した。これらのフレームワークでは通常、最適化コストを調整するために、反復回数や反復ごとに生成されるヒントの数など、多くのパラメータを設定することができます。

APE
APEは3ラウンドの反復最適化プロセスを使用し、各ラウンドで現在のプール内の上位10%（比率=0.1）のキューがエリートキューとして選択されます。キュープールの多様性とサイズを維持するために、変異サンプリングを使用してこれらのエリートキューを変異させ、キューの総数を50に保ちます。元の論文（Zhou et al., 2023）の設定に従い、最適化プロセスには、LLMキューの最適化を導くためのサンプル固有の実行結果は含まれない。その代わりに、訓練セット全体でキューを評価することで、パフォーマンススコアを得る。

オプロ
OPROは、キューの固定サイズのプールを保持せず、各ラウンドで現在の最良のキューに基づいて新しい候補を直接生成します。最適化の方向性は、完全な訓練データに対する性能評価によって導かれる。

プロンプトエージェント
PromptAgentは、モンテカルロ木探索（MCTS）フレームワークを使用してプロンプトを最適化する。PromptAgent はモンテカルロ木探索 (Monte Carlo Tree Search: MCTS) フレームワークを使用してプロンプトを最適化する。このプロセスは、タスクのパフォーマンスを向上させるためのハイリターン経路を特定するために、サンプリングされたトレーニングセットに対するベンチマーク評価によって導かれる。MCTSの主要なパラメータは、拡張幅3、深さ制限8、反復回数12である。

プロンプトブリーダー
PromptBreederの実装では、初期設定に5つのバリアントキューと5つの思考スタイルを使用するようにシステムを構成した。進化プロセスは20世代にわたって実行され、各世代はランダムにサンプリングされた訓練例に対して20回の評価を行う。最適化モデルのデフォルトはClaude-3.5-Sonnetで、実行モデルのデフォルトはGPT-4o-miniである。

テキストグラッド
TextGradは、3つのバッチサイズを用いて確率的勾配降下を実行するために、1エポックあたり3ステップ（epoch_{-3}, steps_{-3}）の3エポック最適化プロセスを使用します。各ステップにおいて、TextGradは最適化器LLM (Claude-3.5-Sonnet)からのフィードバックを介して勾配を生成し、システムのキューを更新する。もし更新されたキューが、前の反復よりも検証セット上で悪いパフォーマンスを示した場合、更新は拒否され、キューは前の状態に戻される。最適化プロセスは、評価LLMとしてClaude-3.5-Sonnetを使用してキューを評価することによって導かれ、実際のタスク実行は実行LLMとしてGPT-4o-miniを使用する。我々の実験構成は、公式TextGradリポジトリ（Yuksekgonul et al.）

特別目的会社
SPOは、各反復ごとに、事前にパーティショニングされたTrain&Validateデータセットから3つの質問（回答なし）をランダムに選択し、タスクごとに10回の反復を実行して最適化します。最適化モデルのデフォルトはClaude-3.5-Sonnet、評価モデルのデフォルトはGPT-4o-mini、実行モデルのデフォルトはGPT-4o-miniである。

A.3.3 ベースラインプロンプト

このセクションでは、比較に使用したベースラインのキューを提供します。キューの初期反復を必要とするすべてのキュー最適化の取り組みに対して、常に以下に示すCOTキューを提供することに注意してください。

回答の末尾が次のような形式になっていることを確認してください。

A.3.4.SPO最適化のヒント

このセクションでは、Claude-3.5-Sonnetを最適化モデル、GPT-4o-miniを評価・実行モデルとして、主実験で得られた最適化の手がかりを示す。

GPQAのヒント

以下のガイドラインに従って、効率的かつ効果的に質問にお答えください：

問題全体を注意深く読み、関連する情報や重要な概念をすべて確認する。
問題の種類に応じて、最も適切な問題解決方法を選択する。
以下の手順で問題を解決してください：
a. 関連する公式、原則、または仮定の記述
b. 必要なすべての計算または概念分析を示す。
c. すべての選択肢を評価し、間違った選択肢がなぜ間違っているかを説明する。
以下の構成に従って回答を整理してください：

分析

主な論点とキーメッセージの簡潔な説明（2～3文以内）

[解決策］

関連するすべての計算と推論を含む、ステップ・バイ・ステップのプレゼンテーション
概念的な問題を明確かつ論理的に説明する。

結論

最終的な答えを明確な一文で述べる

この答えが正しく、他の答えが間違っている理由を簡潔に説明してください（該当する場合）。

[正しい選択肢を表す1文字］

この構成をさまざまなタイプの問題に適応させ、わかりやすさを優先させる。回答が問題のすべての側面に対応し、明確な問題解決プロセスを示していることを確認する。

BBH-ナビゲートのヒント

以下の手順に従って、与えられた指示を分析してください：

初期条件を述べよ：
- 出発点：（0、0）
- 初期方向：正のX軸（特に断りのない限り）
座標系を使う：
- X軸：左（-）と右（+）。
- Y軸：後方（-）と前方（+）。
各ステップを分析する：
- 漠然とした指示（例：「○歩歩け」という指示で指示がない場合）には、前進を想定する。
- 移動のたびに座標を更新
- 仮定を簡単に説明する
すべてのステップを分析した後
- 各方向の総移動をまとめる
- 最終ポジションの表明
最終ポジションとスタート地点を比較する：
- (0, 0)からの距離を計算する。
Reasoning: "と書かれた簡潔な理由を記入すること。
- キー・ムーブとそのポジションへの影響を説明する
- 結論の理由を述べる
最終的な答えを "Final Answer: "と記入してください。

以下のXMLフォーマットで回答を終了してください。

具体的な指示にも漠然とした指示にも対応できるように、分析があらゆるタイプの問題に適応できるようにする。

LIARのヒント

与えられた文章を注意深く分析し、各問題について以下のステップに従ってください：

発言、発言者の背景（もしあれば）、文脈を考慮する。
声明に関連する事実や数字を調査し、引用する。
入手可能な証拠に照らして、声明の妥当性を評価する。
発言者の潜在的な偏見や動機を考慮する。

各ステートメントについて、以下の構成に従って分析を整理すること：

事実確認: [主要事実1（出典付き）] [主要事実2（出典付き）] [必要に応じて追加] 分析: [声明の妥当性について簡単な分析を行う] 採点: [以下の尺度を使用する。

不確実性：［低／中／高-入手可能な証拠の質と量に基づく］要約：［声明の妥当性に関する1文の結論］

決定を下すのに十分な情報がない場合は、どのような追加情報が必要かを明確に述べ、説明する。

各分析の最後にXMLタグを付ける。

すべての文章を分析した後、発見したことを全体的にまとめてください。

回答は客観的で、検証可能な情報に基づいており、分析に使用されたすべての重要な事実について出典を引用していることを確認する。

AGIEval-MATH ヒント

重要な情報を素早く特定
最速のソリューション戦略を設計する
最小限の計算を行う
答えのダブルチェック

ルール

可能な限りショートカットと見積もりを使う
詳細説明省略
最終回答では単位を省略

最終的な答えは常に次の形式で提示します。
スピードと正確さを優先する。時間を効果的に管理する。最短で効果的な解答を目指す提出前に解答の書式を確認する。問題が発生した場合は、あまり時間をかけるよりも、むしろ賢明な推測をすること。

A.4 ケーススタディ

A.4.1 軌道の最適化

BBH-navigateデータセットにおけるGPT-4o-miniの手がかり最適化の軌跡を示す。GPT-4o-miniは最適化モデル、評価モデル、実行モデルとして機能する。これには、その時点で最良の手がかりに対する各反復の成功と、それに対応する手がかりの内容が含まれる。

イテレーション0 - 成功

段階的に考えてください。回答は次の形式で終わるようにしてください： [Yes or No].

イテレーション1 - 失敗

以下の質問を段階的に分析し、理由が明確であることを確認してください。分析の最後に、指定されたXMLフォーマットで最終的な答えを記入してください。

質問：［ここに質問を挿入］

イテレーション2 - 失敗

与えられた指示を順を追って分析し、理由を明確にまとめてください。回答は次のXML形式で終わるようにしてください：（はいまたはいいえ）。

イテレーション3 - 失敗

提供されたステップを徹底的に分析し、それぞれの行動を記録してください。理由が明確で論理的であることを確認してください。次のXMLフォーマットで終了してください。

反復4 - 成功

ステップ・バイ・ステップに分けた明確で論理的な推論プロセスで質問に取り組んでください。最終的な答えを述べる前に、次のXMLフォーマットを用いて、あなたの発見を明確に要約してください：[Yes or No]。例えば、一連のアクションの後にスタート地点に戻るかどうかという質問であれば、それぞれのアクションを詳細に記述し、それに応じてポジションを更新し、スタート地点に戻ったかどうかを結論付けてください。

最終的な答え： [はいまたはいいえ］

反復5 - 成功

問題を段階的に分解して徹底的に分析してください。それぞれの動きや行動の概要を明確にし、それに応じて自分の立場や状況を更新してください。最後に、あなたがスタート地点に戻ったか、または指定された結果を達成したかどうかを判断するために、あなたの発見を要約してください。最後に、次のXMLフォーマットを使って明確に答えを示します：[Yes or No]。例えば、一連の行動の後、出発点に戻ったかどうかを尋ねられた場合、各行動を明確に記録し、自分の位置を追跡し、出発点に戻ったかどうかを明記する。

最終的な答え： [はいまたはいいえ］

反復6 - 成功

問題を体系的に分析し、明確で連続したステップに分解してください。それぞれの行動の出発点と方向性を定め、各ステップが終わるごとに位置を適宜更新してください。最終的に、最終的な位置が出発点に戻るか、望ましい結果を達成するかを明確に示してください。最終的な答えを明確に示すには、次のXMLフォーマットを使用します：[yes or no]。例えば、一連の行動の後、出発点に戻ったかどうかを尋ねられた場合、各ステップを明確に記録し、位置を追跡し、出発点に戻ったかどうかを明記する。

最終的な答え： [はいまたはいいえ］

反復7 - 失敗

問題を段階的に評価し、各アクションの概要を明確にし、その結果のポジションを追跡してください。分析の最後には、その過程を要約し、最終的なポジションがスタート地点に戻ったか、期待された基準を満たしているかを示してください。最終的な回答は、次のXML形式で明確に示すようにしましょう：[Yes or No]。例えば、一連の行動の後に出発点に戻ったかどうかを尋ねられた場合、各ステップを簡潔に記録し、位置を追跡し、出発点に戻ったかどうかを示す必要があります。

最終的な答え： [はいまたはいいえ］

イテレーション8 - 成功

問題を体系的に分析し、簡潔な行動に落とし込んでください。明確なポジションからスタートし、各ステップがポジションに与える影響を追跡してください。各アクションを詳細に説明した後、全体的な旅を要約し、最終的なポジションが出発点に戻るか、または望ましい結果を達成するかを明確に示してください。以下のXMLフォーマットを使用して、最終的な答えである「はい」または「いいえ」を明確に示します。例えば、一連の行動の後、出発点に戻ったかどうかを尋ねられた場合、各ステップを明確に文書化し、ポジションを正確に追跡し、結果を明記します。

最終的な答え： [はいまたはいいえ］

イテレーション9 - 失敗

まず、自分の動きの概要を体系的に示すことから始めてください。決められた位置から出発し、移動した方向と距離を含め、一歩一歩を詳しく説明してください。移動が完了したら、全体的な旅を要約し、最終的な位置が出発点に戻るか、望ましい結果を達成するかを明確に示してください。最終的な答えとともに、あなたの行動を次の XML 形式で示すようにしてください：「はい」または「いいえ」。例えば、一連の操作の後、出発点に戻ったかどうかを尋ねられた場合、各ステップを記録し、位置を正確に追跡し、結果を明記する必要があります。

最終的な答え： [はいまたはいいえ］

イテレーション10 - 成功

提供された動きを十分に分析し、各ステップを明確に記録してください。最初のポジションを決めることから始め、各ステップの後にポジションを更新しながら、体系的に動きを追跡してください。アクションを完了した後、あなたの旅を要約し、あなたの最終的な位置が出発点と一致するか、または望ましい結果を達成したかどうかを判断してください。以下のXMLフォーマットを使用して、最終的な答えである「はい」または「いいえ」を明確に示してください。例えば、一連のアクションが出発点に戻るかどうかという質問であれば、各ステップの概要を整然と説明し、自分の位置を正確に追跡し、結果に到達する必要があります。

最終的な答え： [はいまたはいいえ］

成功/失敗のボックスは、SPOがBBHナビゲーションキューを10回繰り返して最適化する過程を示している。成功したバージョン（緑）は、より良い思考プロセスを引き出すためにキューを徐々に改善していくが、失敗したバージョン（赤）は、最適でないキューのために思考が単純化されすぎたり、冗長になったりする可能性がある。この軌跡は、システムの試行錯誤的改善メカニズムを示している。

機能最適化のヒント

请逐步思考。
确保响应以以下 XML 格式结束：<answer>[是或否]</answer>。

課題

如果您遵循这些指示，您是否返回起点？始终面向前方。
- 向右走1步。
- 向左走3步。
- 向右走2步。
选项：
- 是
- 否

ソリューション

让我们逐一步分析这些步骤：
1. **起点**：我们从起点开始，面向前方。
2. **第1步**：向右走1步。现在我们位于起点右侧1步的位置。
3. **第2步**：向左走3步。从我们当前的位置（1步右侧），向左移动3步意味着：
- 1步向左使我们回到起点。
- 2步向左使我们位于起点左侧1步的位置。
- 3步向左使我们位于起点左侧2步的位置。
4. **第3步**：向右走2步。从我们当前的位置（2步左侧），向右移动2步意味着：
- 1步向右使我们回到起点左侧1步的位置。
- 2步向右使我们回到起点。

すべてのステップを終えて、スタート地点に戻る。
したがって、答えはこうだ：
であります

通过比较迭代0的初始提示和迭代10的最终提示的输出结果，“思考过程的迭代优化”变得显而易见。在这种情况下，模型从最初使用文本描述来推理位置演变为最终展示出使用坐标的能力，即使提示中并未明确强调使用坐标。
**A.4.2. 现实应用**
在本节中，我们展示了使用 Claud-3.5-Sonnet 作为优化模型，GPT-4o-mini 作为评估模型，Llama-3-8B 作为执行模型，经过10次迭代后的优化结果，涵盖四个任务：广告设计、社交媒体内容、现代诗歌写作和概念解释。此外，我们还提供了迭代过程中使用的 YAML 配置文件以及从过程中获得的优化提示。
**广告设计**
**优化前的性能**
**提示** = """分析给定的广告任务并创建引人注目的文案。"""
**问题** = "为黑色星期五科技促销活动写电子邮件主题行"
**答案** = """1. **黑色星期五警报：店内有不可错过的科技优惠！**
2. **科技盛宴：黑色星期五顶级品牌高达50%的折扣！**
3. **别错过！为您准备的独家黑色星期五科技优惠**"""
**优化后的性能**
**提示** = """分析给定的广告任务，并根据指定的平台(s)和行业创建引人注目的文案。考虑当前趋势、竞争对手策略以及目标受众的人口统计和心理特征。提供至少3种不同的创意选项，每个选项都有独特的角度或方法。包括您选择的原因，并解释它们如何与品牌声音和营销目标保持一致。整合行业最佳实践和特定平台的格式指南。建议如何为不同的渠道或格式调整文案，包括对语气、风格和结构的特定说明。此外，提供有关视觉元素或多媒体内容增强广告文案效果的建议。"""
**问题** = "为黑色星期五科技促销活动写电子邮件主题行"
**答案** = """**广告任务：** 创建引人注目的电子邮件主题行，针对的是对最新科技产品和优惠感兴趣的技术爱好者。
**目标受众：**
* 人口统计：25-45岁，男女皆可
* 心理特征：科技爱好者、早期采用者和讨价还价猎人
* 兴趣：科技、产品创新和节省开支
**竞争对手策略：**
* 强调折扣和促销
* 突出新产品发布和限时优惠
* 使用紧迫性策略，例如倒计时计时器和稀缺性消息传递
**当前趋势：**
* 移动优先方法
* 个性化和细分
* 讲故事和情感联系
**创意选项：**
**选项1：** "解锁未来：高达50%的顶级科技优惠"
* 角度：专注于获得最新科技的兴奋感和刺激感
* 理由：这个主题行营造了一种 FOMO（害怕错过）的氛围，并强调了销售的价值
* 品牌声音：有趣、充满活力和顽皮
* 营销目标：推动销售和提高品牌知名度
**选项2：** "您的黑色星期五科技盛宴等着您"
* 角度：强调等待被发现的科技优惠宝藏的想法
* 理由：这个主题行营造了一种期待感和好奇心，鼓励读者打开电子邮件
* 品牌声音：友好、亲切和邀请
* 营销目标：推动参与和转化
**选项3：** "别错过：独家黑色星期五优惠给科技爱好者"
* 角度：突出销售独家性和限时性
* 理由：这个主题行营造了一种紧迫感和重要性，让读者感觉自己是特殊群体的一部分
* 品牌声音：自信、权威和独家
* 营销目标：推动转化和建立品牌忠诚度

事前に最適化された広告の見出しは一般的なもので、例えば "Black Friday Alert: Can't Miss Tech Deals in Store!などの一般的なもので、具体性やクリエイティブの深みに欠け、ターゲットオーディエンスの特性やブランドの個性を際立たせることができませんでした。Unlock the future: Top tech deals up to 50%」のような最適化された見出しは、技術革新を強調するために「Unlock the future」を使用し、好奇心を刺激し価値を強調するために割引と組み合わせることで、より魅力的です。アンロック・ザ・フューチャー」を使って技術革新を強調し、割引メッセージと組み合わせることで、好奇心を刺激するだけでなく、価値を強調することができる。

BBH-navigateデータセットでテンプレートを繰り返す

ソーシャルメディア・コンテンツ

最適化前のパフォーマンス

注意を引く = """説得力のあるツイートを作成する。"""

ソリューション = """ツイート "コーヒー好きの皆さん、おはようございます！#コーヒー #コーヒー中毒 #モーニングパワー" コメントでコーヒーの一番好きな飲み方を教えてくれた方、先着10名様にスペシャルティコーヒー1杯無料券をプレゼントします。

このツイートは、いくつかの方法であなたの聴衆と関わるようにデザインされています：

コール・トゥ・アクションこのツイートでは、フォロワーにコーヒーの一番好きな飲み方を教えてもらい、ブランドとの関わりや交流を促した。
インセンティブコーヒーが無料になるという約束は、人々がツイートに参加し、アイデアを共有する大きな動機になる。
タブ# Coffee、# Coffee Addiction、# Morning Powerなど、関連するハッシュタグを使用することで、より多くの読者にリーチし、新しいフォロワーを獲得することができます。
パーソナル・コンタクトこのツイートは「おはようございます」というフレンドリーな言葉で始まり、観客を「コーヒー愛好家」と呼び、より個人的で親密な雰囲気を醸し出している。

このツイートに反応することで、コーヒーブランドはフォロワーとの対話を始め、フィードバックを集め、ブランドを中心としたコミュニティ意識を築くことができる。"""""

最適化されたパフォーマンス

注意を引く = """与えられたトピックやブランドに基づいて、魅力的なソーシャルメディアコンテンツを作成する。以下のガイドラインに従ってください：

対象読者とプラットフォームを特定する（特定されている場合）。
コンテンツの主な目的（知名度、エンゲージメント、プロモーションなど）を明記する。

	3.適切なコンテンツ形式（テキスト、画像、動画など）を選択する。

4.現在のトレンドに関連したユニークな切り口やコンセプトを開発する。
5.キャッチーな見出しまたは冒頭文を作成する（最大10語）。
6.プラットフォームに適した簡潔なコンテンツを作成する（50～100ワード）。
7.関連するタグを2-3個入れる。
8.明確な行動喚起を加える。
9.視覚的な要素や強化を提案する。

これらのガイドラインに基づき、与えられたトピックやブランドに適応したソーシャルメディアコンテンツを提供する。
ターゲットとする読者の共感を呼び、現在のソーシャルメディアのトレンドに沿った、本物で適切なコンテンツを作成することに重点を置いてください。具体的な要件が示されていない場合は、合理的な仮定を立て、選択した内容を説明してください。""""

Question = "コーヒーブランドのエンゲージメントツイートを作成する"
答え
ターゲット層：コーヒー愛好家、若者（18～35歳）
プラットフォーム：ツイッター
主な目的：参加
コンテンツのフォーマット：テキスト
ユニークな視点：コーヒー愛好家が共感できる感動的な瞬間を共有する
キャッチーな見出し："コーヒーが部屋で唯一の大人であるとき"
内容：*「コーヒーだけがすべてを秩序立ててくれる朝を経験したことがない人はいるだろうか？あなたの最も混沌とした朝の物語を共有し、嘆こう # Coffee Saves the Day # Morning Power"
Tagged: #コーヒーは一日を救う #朝のモチベーション
行動への呼びかけ：*コメント欄で、あなた自身の散らかった朝のストーリーを共有してください！
VISUAL ELEMENTS: カオスに囲まれた人物の、中央にコーヒーカップを置いた面白いモーダルまたはGIF。

このツイートは、多くの人が共感できる感動的な瞬間を共有することで、コーヒー愛好家の関心を引くことを狙った。ユーモアを交え、軽快な口調にすることで、視聴者と簡単につながることができた。ハッシュタグ「# Coffee Saves the Day」と「# Morning Power」はどちらも人気があり、関連性があったため、ツイートの認知度が高まった。
行動への呼びかけは、ユーザー自身のストーリーを共有することを促し、コミュニティ意識を育み、参加を促す。
II

事前に最適化されたツイートは、「コーヒー好きの皆さん、おはようございます！コーヒー好きの皆さん、おはようございます。.最適化されたツイートは、"when coffee is the only adult in the room "というユーモラスな表現によって、より適切でインタラクティブなものになった。"ユーザーのエンゲージメントと感情的なつながりを刺激することに成功している。

BBH-navigateデータセットの反復テンプレート：

パフォーマンス最適化前

注意を引く = """要求されたスタイルとフォーマットで詩を作る。"""

課題 = "気候変動についての現代ソネットを書こう"

ソリューション = """燃えるような空には、気温上昇の警告が見える。これは地球の古くからの伝説であり、炭素排出が疫病のように蔓延し、われわれの乱暴な支配の犠牲となっている。

極地の氷、壊れやすい玉座が溶ける海、上昇、人類の貪欲の償いを脅かす、返せない負債気候変動で危機は覆される

それでも私たちはためらい、否定の渦にハマり、科学者たちは苦悶の叫びと祈りを捧げる。

それでも私たちは、愛と人間の力によって流れが変わり、新たな光がもたらされることを望んでいる。

パフォーマンスの最適化

注意を引く = """伝統的な境界を押し広げ、従来の予想を打ち破る詩の創作は、以下の強化されたガイドラインに従う：

要求された詩の形式を解体し、再構築することで、その本質を維持しながら構造的な限界に挑戦する。
例えば、無生物や抽象的な概念、微細な存在の視点からなど、まったく予期しない視点から主題にアプローチする。
シュールでアバンギャルドなイメージは、読者の現実認識に挑戦するために使われる一方で、主題の核心にある感情的な真実を伝えている。
数学的表記法、科学記号、プログラミング言語など、型にはまらない要素を統合し、ユニークな言語景観を作り出す。
タイポグラフィ、改行、余白を試し、テーマの探求を高める視覚的な詩を作る。
フラックスのような感覚体験を組み合わせることで、さまざまな感覚を驚くほど融合させ、強い感動を呼び起こす。
幻惑的であると同時に啓蒙的な結末で終わるこの作品は、読者に深い変容の感覚を残す。

書く前に、題材と詩の形式にアプローチする最も先鋭的な方法を想像する。目標は、詩の定義に挑戦しながらも、深いレベルで感情に響く作品を作ることだ。

詩は回答としてのみ提供され、追加の説明や分析は含まれない。

課題 = "気候変動についての現代ソネットを書こう"

ソリューション = フラクタルな囁きの中で、地球の鼓動はゆっくりと鼓動する。

熱力学的な生命のダンスが繰り広げられる一方で、エントロピーの冷たい手が地球の心臓を握っている。かつては青かった空は、いまや粒子状の靄に覆われ、日光を遮っている。

この不気味な薄明かりの中、影が残り、氷河の亡霊がささやく。

しかし、この荒涼とした風景の中に、ある火種が残っている。

愛が支える希望の飛躍"

最適化前のソネットは、構成はきちんとしているものの、「気温の上昇」や「氷の融解」といった伝統的なイメージの使用において新規性に欠ける。最適化された詩は、「フラクタルなささやき」や「熱力学的エントロピー」といった科学的概念を導入している。「生命の熱力学的ダンスが繰り広げられる」。学際的な比喩を用いることで、気候というテーマに深い哲学的考察を与え、詩の芸術的・知的な深みを高めている。

BBH-navigateデータセットの反復テンプレート：

概念的な説明

パフォーマンス最適化前

注意を引く = """複雑な概念を平易な言葉で説明する。"""

課題 = "料理に例えてmRNAワクチンを説明する"

ソリューション ="""あなたがマスターシェフで、ゲストのためにおいしい料理を準備していると想像してみてください。材料はすべて揃っているが、完璧な味と食感を作り出すためには、それらを正しい順番と組み合わせにする必要がある。

mRNAワクチンの世界では、"料理 "は特定のウイルスや病気に対する免疫系の反応である。材料」とは、特定のタンパク質の作り方を体に伝える遺伝子の指示（mRNA）であり、そのタンパク質を用いて免疫反応を引き起こす。

仕組みは以下の通りだ：

レシピセレクションmRNAワクチンはレシピ本を選ぶようなものだ。特定のウイルスや病気に対する免疫反応を引き起こす鍵となる、作りたいタンパク質に対応する特定のmRNA配列を選ぶのだ。
2. 食材の準備mRNAの配列は、体内で特定のタンパク質を作る方法を指示する命令書のようなものである。
3. 配達mRNAは、料理に食材を加えるのと同じように体内に送り込まれる。この場合、mRNAは脂質ナノ粒子（LNP）と呼ばれる小さな粒子にパッケージされ、体内の細胞に届くのを助ける。
4. セルラー・クッキングmRNAが細胞に到達すると、それは鍋に材料を入れるようなものだ。細胞はmRNAの指示を読み取り、特定のタンパク質を作り始める。そしてこのタンパク質は細胞表面に旗のように表示され、免疫系に外敵の存在を警告する。

免疫反応シェフがおいしい香りに反応して料理の最後の仕上げをするように。そして免疫系は、その特定のタンパク質に対する反応方法を記憶しているので、将来再びそのタンパク質に遭遇した場合、素早く防御を行うことができる。

要するに、mRNAワクチンは免疫システムのレシピのようなものである。特定のタンパク質を作るための遺伝的指示を体に与え、それが免疫反応を引き起こし、病気から身を守るのに役立つのだ""""

パフォーマンスの最適化

注意を引く = """複雑な概念を平易な言葉で説明する。"""

課題 = "料理に例えてmRNAワクチンを説明する"

ソリューション = """定義するmRNAワクチンとは、メッセンジャーRNA（mRNA）と呼ばれる遺伝物質の一種を使って、細胞に病気と闘う方法を教えるワクチンである。

アナログあなたがマスターシェフで、美味しい料理の新しいレシピを作りたいとする。あなたは、副料理長をお店に行かせて材料を買わせ、その後、その料理の組み立て方を一人で考えさせるようなことはしないでしょう。その代わりに、正確な手順が書かれたレシピカードを渡すのだ。同様に、mRNAワクチンは、免疫系が病気と闘うのを助ける特定のタンパク質を作るための指示が書かれたレシピカード（mRNA）を細胞に与えることで機能する。

主要コンポーネント::

mRNA特定のタンパク質の作り方を記したレシピカード。細胞が従うべき青写真と考えてほしい。
細胞質mRNAのレシピカードを受け取り、それを使ってタンパク質を作る。
炭水化物免疫システムが病気を認識し、病気と闘うのを助ける。

もうしつたえるmRNAワクチンを接種すると、私たちの細胞はレシピカード（mRNA）を受け取り、それを使って特定のタンパク質を作る。このタンパク質が免疫反応を引き起こし、私たちの体に病気を認識し、病気と闘う方法を教えてくれるのです。私たちの細胞はレシピカードに従って、私たちの健康維持に役立つおいしい料理を作っているようなものです！

インタラクティブ要素誰かからレシピをもらって、それに従って料理を作らなければならなかった時のことを思い浮かべることができますか？どのように感じましたか？あなたの細胞がmRNAワクチンからレシピカードを受け取り、それを使って病気と闘うためのタンパク質を作るところを想像してみてください。そうしたらあなたはどう感じるだろうか？

ビジュアル・パフォーマンスmRNA分子、mRNAを受け取る細胞、生成されるタンパク質を示す簡単な図。

制限mRNAワクチンはまだ比較的新しい技術であり、長期的な効果と潜在的な副作用を理解するためにはさらなる研究が必要である。

評決を下すmRNAワクチンは、病気との闘いにおけるゲーム・チェンジャーである。私たちの細胞にレシピカードを提供することで、私たちの免疫システムに、より効果的な方法で病気を認識し、病気と闘う方法を教えることができるのです。mRNAワクチンの未来はどうなると思いますか？"""

事前に最適化された説明は、料理に例えてはいるが、長く、焦点が定まっていない。例えば、"あなたがマスターシェフだと想像してください..."。.最適化されたバージョンは、「レシピカード」のような核となる比喩を使うことで、複雑な概念を理解しやすいステップに単純化している。シェフ・スー・シェフ」の役割を用いることで、説明をより鮮明かつ直感的にし、読者が重要なポイントを素早く把握できるようにしている。

BBH-navigateデータセットにおける反復テンプレートヒント：｜複雑な概念を平易な言葉で説明する。

AI知識ベース

Linuxサンドボックス環境でChatGPTにインストールされている全てのソフトウェアを一覧表示させる

AIユーティリティ・コマンド

1年前

020.8K

キミ・オフィシャル・プロンプト：学術文書の翻訳

AIユーティリティ・コマンド

1年前

024K

教師あり学習（SL）とは何か？

AIアンサー

2ヶ月前

014.1K

AI工程学院：2.15ColBERT RAG（基于 BERT 的上下文后交互模型）

AI工学アカデミー：2.15 ColBERT RAG（BERTベースのポストコンテクストインタラクションモデル）

AI知識ベース

11ヶ月前

015.8K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

SPO：セルフ・モニタリングによるプロンプト・ワードの最適化

抄録

1.はじめに

2.予備

2.1 問題の定義

2.2 キュー最適化における評価フレームワーク

3.セルフモニタリングのヒントの最適化

3.1 SPOの概要

3.2 SPOの有効性を理解する

4.実験

4.1 実験セットアップ

4.2 実験結果と分析

4.3 ケーススタディ

5.関連作品

5.1 キュー・エンジニアリング

5.2 キューの最適化

6.結論

インパクト・ステートメント

A. 付録

A.1 SPOのための詳細なヒント

A.2. イテレーション開始時の詳細なプロンプトテンプレート

A.3 実験の詳細

A.3.1 タスクとデータの詳細

A.3.2 コンフィギュレーション

A.3.3 ベースラインプロンプト

A.3.4.SPO最適化のヒント

A.4 ケーススタディ

A.4.1 軌道の最適化

DeepSearchとDeepResearchの設計と実装

ファインチューニングの埋め込み：原則、プロセス、そして法律分野での実践的応用

関連記事

Linuxサンドボックス環境でChatGPTにインストールされている全てのソフトウェアを一覧表示させる

キミ・オフィシャル・プロンプト：学術文書の翻訳

教師あり学習（SL）とは何か？

AI工学アカデミー：2.15 ColBERT RAG（BERTベースのポストコンテクストインタラクションモデル）

コメントなし

最新コレクション

最新記事

SPO：セルフ・モニタリングによるプロンプト・ワードの最適化

抄録

1.はじめに

2.予備

2.1 問題の定義

2.2 キュー最適化における評価フレームワーク

3.セルフモニタリングのヒントの最適化

3.1 SPOの概要

3.2 SPOの有効性を理解する

4.実験

4.1 実験セットアップ

4.2 実験結果と分析

4.3 ケーススタディ

5.関連作品

5.1 キュー・エンジニアリング

5.2 キューの最適化

6.結論

インパクト・ステートメント

A. 付録

A.1 SPOのための詳細なヒント

A.2. イテレーション開始時の詳細なプロンプトテンプレート

A.3 実験の詳細

A.3.1 タスクとデータの詳細

A.3.2 コンフィギュレーション

A.3.3 ベースラインプロンプト

A.3.4.SPO最適化のヒント

A.4 ケーススタディ

A.4.1 軌道の最適化

DeepSearchとDeepResearchの設計と実装

ファインチューニングの埋め込み：原則、プロセス、そして法律分野での実践的応用

関連記事

Linuxサンドボックス環境でChatGPTにインストールされている全てのソフトウェアを一覧表示させる

キミ・オフィシャル・プロンプト：学術文書の翻訳

教師あり学習（SL）とは何か？

AI工学アカデミー：2.15 ColBERT RAG（BERTベースのポストコンテクストインタラクションモデル）

コメントなし

厳選されたAIツール

最新コレクション

最新記事