I. Die Grundursache des Teststichworts:
- LLM reagiert sehr empfindlich auf Hinweise, und subtile Änderungen in der Formulierung können zu deutlich unterschiedlichen Ergebnissen führen
- Es können ungeprüfte Schlagwörter erzeugt werden:
- Fehlinformationen
- Irrelevante Antworten
- Unnötig verschwendete API-Kosten
Zweitens, eine systematische Optimierung der Stichworte:
- Vorbereitungsphase
- Protokollierung von LLM-Anfragen mit dem Beobachtungswerkzeug
- Verfolgen Sie wichtige Kennzahlen: Nutzung, Latenz, Kosten, erste Antwortzeit usw.
- Überwachung von Anomalien: erhöhte Fehlerraten, plötzlicher Anstieg der API-Kosten, geringere Nutzerzufriedenheit
- Prüfverfahren
- Erstellen mehrerer Stichwortvarianten unter Verwendung von Techniken wie Kettendenken und mehreren Beispielen
- Getestet mit echten Daten:
- Goldene Datensätze: sorgfältig kuratierte Inputs und erwartete Outputs
- Stichproben von Produktionsdaten: die Herausforderung, realen Szenarien besser gerecht zu werden
- Vergleichende Bewertung der Auswirkungen der verschiedenen Versionen
- Bereitstellung des optimalen Programms für die Produktionsumgebung
III. eingehende Analyse der drei wichtigsten Bewertungsmethoden:
- Echtes Benutzer-Feedback
- Vorteil: spiegelt direkt die tatsächliche Nutzung des Effekts wider
- Merkmale: können durch explizite Bewertungen oder implizite Verhaltensdaten erhoben werden
- Einschränkungen: Es dauert eine gewisse Zeit, bis es aufgebaut ist, das Feedback kann subjektiv sein.
- manuelle Bewertung
- Anwendungsszenarien: subjektive Aufgaben, die eine feinkörnige Beurteilung erfordern
- Bewertungsmethoden:
- Ja/Nein-Urteil
- Punktzahl 0-10
- A/B-Test-Vergleich
- Beschränkungen: ressourcenintensiv und schwer zu skalieren
- Automatisierte LLM-Bewertung
- Anwendbare Szenarien:
- Klassifizierung der Aufgaben
- Validierung der strukturierten Ausgabe
- Prüfung der Einschränkungen
- Schlüsselelemente:
- Qualitätskontrolle der Bewertungsaufforderungen selbst
- Anleitung zur Bewertung anhand von Lernbeispielen geben
- Temperaturparameter auf 0 gesetzt, um Konsistenz zu gewährleisten
- Stärken: Skalierbar und effizient
- Vorbehalt: mögliche Vererbung von Modellverzerrungen
- Anwendbare Szenarien:
IV. praktische Empfehlungen für einen Bewertungsrahmen:
- Klären Sie die Bewertungsdimensionen:
- Genauigkeit: ob die Aufgabe richtig gelöst wurde
- Geläufigkeit: Grammatik und Natürlichkeit
- Relevanz: ob es die Absicht des Nutzers trifft
- Kreativität: Phantasie und Engagement
- Kohärenz: Abstimmung mit historischen Ergebnissen
- Spezifische Bewertungsstrategien für verschiedene Aufgabentypen:
- Kategorie Technischer Support: Schwerpunkt auf Genauigkeit und Professionalität bei der Problemlösung
- Kategorie Kreatives Schreiben: Fokus auf Originalität und Markenton
- Strukturierte Aufgaben: Schwerpunkt auf Formatierung und Datengenauigkeit
V. Eckpunkte für eine kontinuierliche Optimierung:
- Schaffung einer vollständigen Feedbackschleife
- Beibehaltung einer Denkweise des iterativen Experimentierens
- Datengesteuerte Entscheidungsfindung
- Gleichgewicht zwischen Wirkungssteigerung und Ressourceninvestition