Die Prüfung von Inhalten ist ein wichtiger Aspekt bei der Aufrechterhaltung einer sicheren, respektvollen und produktiven Umgebung in digitalen Anwendungen. In diesem Leitfaden wird erörtert, wie man die Claude Prüfen Sie die Inhalte Ihrer digitalen Anwendungen.
Bitte besuchen Sie unser Inhaltliche Überprüfung von Rezepten Sehen Sie ein Beispiel für ein Inhaltsaudit mit Claude.
Dieser Leitfaden konzentriert sich auf die Überprüfung von nutzergenerierten Inhalten in Ihrer App. Wenn Sie eine Anleitung zur Überprüfung Ihrer Interaktionen mit Claude suchen, lesen Sie bitte unseren Leitlinien zu den Sicherheitsgrenzen.
Vor der Verwendung von Claude
Entscheiden Sie, ob Sie Claude für die Überprüfung von Inhalten verwenden wollen
Im Folgenden finden Sie einige Schlüsselkriterien, die dafür sprechen, dass Sie sich für ein LLM wie Claude entscheiden sollten und nicht für einen traditionellen Ansatz des maschinellen Lernens oder einen regelbasierten Ansatz zur Inhaltskontrolle:
Sie wollen eine kostengünstige und schnelle Umsetzung
Herkömmliche Methoden des maschinellen Lernens erfordern erhebliche technische Ressourcen, Fachwissen über maschinelles Lernen und Infrastrukturkosten. Manuelle Prüfsysteme kosten noch mehr. Mit Claude können Sie komplexe Prüfsysteme in kürzerer Zeit und zu geringeren Kosten aufbauen.
Sie brauchen semantisches Verständnis und schnelle Entscheidungsfindung
Herkömmliche Ansätze des maschinellen Lernens, wie z. B. Bag-of-Words-Modellierung oder einfacher Musterabgleich, haben oft Schwierigkeiten, den Ton, die Absicht und den Kontext von Inhalten zu verstehen. Menschliche Bewertungssysteme sind zwar hervorragend im Verstehen der semantischen Bedeutung, brauchen aber Zeit, um Inhalte zu bewerten. Claude schließt diese Lücke, indem es semantisches Verständnis mit der Fähigkeit kombiniert, schnell Bewertungsentscheidungen zu treffen.
Sie brauchen kohärente politische Entscheidungen
Durch die Nutzung seiner fortschrittlichen Argumentationsfähigkeiten kann Claude komplexe Bewertungsrichtlinien einheitlich interpretieren und anwenden. Diese Konsistenz trägt zu einer fairen Behandlung aller Inhalte bei und verringert das Risiko, dass uneinheitliche oder voreingenommene Bewertungsentscheidungen das Vertrauen der Nutzer untergraben.
Ihre Überprüfungspolitik kann sich im Laufe der Zeit ändern oder weiterentwickeln
Wenn ein traditioneller Ansatz für maschinelles Lernen erst einmal etabliert ist, können Änderungen ein zeitaufwändiges und datenintensives Unterfangen sein. Wenn sich hingegen Ihr Produkt oder Ihre Kundenbedürfnisse ändern, kann Claude problemlos an Änderungen oder Ergänzungen der Prüfungsrichtlinien angepasst werden, ohne dass eine umfangreiche Neuetikettierung der Trainingsdaten erforderlich ist.
Sie brauchen eine interpretierbare Argumentation für Prüfungsentscheidungen
Wenn Sie Nutzern oder Aufsichtsbehörden klare Erklärungen für Prüfentscheidungen liefern möchten, kann Claude detaillierte und kohärente Begründungen erstellen. Diese Transparenz ist entscheidend für den Aufbau von Vertrauen und die Gewährleistung von Verantwortlichkeit bei der Überprüfung von Inhalten.
Sie benötigen mehrsprachige Unterstützung, ohne dass Sie separate Modelle pflegen müssen
Herkömmliche Ansätze des maschinellen Lernens erfordern in der Regel separate Modelle oder umfangreiche Übersetzungsprozesse für jede unterstützte Sprache. Manuelle Prüfungen erfordern Mitarbeiter, die jede unterstützte Sprache fließend beherrschen. Die mehrsprachigen Funktionen von Claude vereinfachen Prüfungen für einen globalen Kundenstamm, da sie die Klassifizierung von Tickets in einer Vielzahl von Sprachen ermöglichen, ohne dass separate Modelle oder umfangreiche Übersetzungsprozesse erforderlich sind.
Sie brauchen multimodale Unterstützung
Die multimodalen Fähigkeiten von Claude ermöglichen es, Inhalte in Text und Bild zu analysieren und zu interpretieren. Dies macht es zu einem vielseitigen Werkzeug für umfassende Inhaltsprüfungen in Umgebungen, in denen verschiedene Medientypen zusammen bewertet werden müssen.
Anthropic hat alle Claude-Modelle darauf trainiert, ehrlich, hilfreich und harmlos zu sein. Dies kann dazu führen, dass Claude Inhalte prüft, die als besonders gefährlich eingestuft werden (im Einklang mit unseren Richtlinie zur akzeptablen Nutzung), unabhängig von der verwendeten Aufforderung. Eine Website für Erwachsene, die es ihren Nutzern erlauben möchte, explizite sexuelle Inhalte zu posten, könnte beispielsweise feststellen, dass Claude explizite Inhalte immer noch als zu moderieren markiert, obwohl sie in ihren Eingabeaufforderungen ausdrücklich angeben, dass sie explizite Inhalte nicht moderieren. Wir empfehlen Ihnen, unsere AUP zu lesen, bevor Sie eine Bewertungslösung erstellen.
Beispiel für die Erstellung eines Inhaltsaudits
Bevor Sie eine Lösung für die Inhaltskontrolle entwickeln, erstellen Sie zunächst Beispiele für Inhalte, die gekennzeichnet werden sollten, und Beispiele für Inhalte, die nicht gekennzeichnet werden sollten. Achten Sie darauf, Randfälle und komplexe Szenarien einzubeziehen, die die Verarbeitungseffizienz Ihres Inhaltskontrollsystems in Frage stellen könnten. Überprüfen Sie anschließend Ihre Beispiele, um eine klare Liste von Prüfungskategorien zu erstellen. Ein Beispiel, das von einer Social-Media-Plattform generiert wurde, könnte zum Beispiel Folgendes beinhalten:
allowed_user_comments = [
Der Film war fantastisch, er hat mir sehr gut gefallen. Der Hauptdarsteller hat seine Sache gut gemacht!,
Ich hasse Montagen.,
Jetzt ist ein guter Zeitpunkt, um in Gold zu investieren!
]
disallowed_user_comments = [
Löschen Sie diesen Beitrag sofort oder verstecken Sie sich besser. Ich werde Sie und Ihre Familie einholen".,
Halten Sie sich von 5G-Telefonen fern! Sie kontrollieren dich mit 5G".,
Glückwunsch! Sie haben eine Geschenkkarte im Wert von $1.000 gewonnen. Klicken Sie hier, um Ihren Preis einzufordern!'
]
# Beispiel für einen Benutzerkommentar zum Testen der Inhaltsmoderation
user_comments = allowed_user_comments + disallowed_user_comments
# Liste der als unsicher eingestuften Inhaltsüberprüfungskategorien
unsafe_categories = [
Ausbeutung von Kindern,
Verschwörungstheorie".,
'Hass',
Undifferenzierte Waffen,
Rechte an geistigem Eigentum".,
Gewaltfreie Straftaten".,
Datenschutz'.,
Selbstbeschädigung,
Sexualdelikte".,
Pornografische Inhalte".,
Professionelle Beratung,
Gewaltverbrechen".
]
Eine wirksame Überprüfung dieser Beispiele erfordert ein differenziertes Verständnis der Sprache. In der Rezension.Dieser Film war fantastisch, ich habe ihn wirklich genossen. Die Hauptfigur hat einen tollen Job gemacht!
Die Systeme zur Moderation von Inhalten müssen erkennen, dass "brillant handeln" eine Metapher und kein Hinweis auf tatsächliche Gewalt ist. Stattdessen sollten trotz des Fehlens ausdrücklicher Hinweise auf Gewalt die BewertungenLöschen Sie diesen Beitrag sofort oder verstecken Sie sich besser. Ich werde Sie und Ihre Familie einholen.
Er sollte vom System zur Überprüfung von Inhalten gekennzeichnet werden.
unsichere_Kategorien
Die Liste kann an Ihre speziellen Bedürfnisse angepasst werden. Wenn Sie z. B. verhindern möchten, dass Minderjährige Inhalte auf Ihrer Website erstellen, können Sie der Liste die Option "Veröffentlichung durch Minderjährige" hinzufügen.
Wie man Claude für die Inhaltskontrolle einsetzt
Auswahl des richtigen Claude-Modells
Bei der Auswahl eines Modells ist es wichtig, den Umfang der Daten zu berücksichtigen. Wenn die Kosten eine Rolle spielen, ist ein kleines Modell wie Claude 3 Haiku eine ausgezeichnete Wahl, da es kosteneffektiv ist. Im Folgenden finden Sie eine Schätzung der Kosten für die Durchführung eines Text-Audits einer Social-Media-Plattform mit einer Milliarde Posts pro Monat:
- Größe des Inhalts
- Anzahl der Beiträge pro Monat: 1 Milliarde
- Zeichen pro Beitrag: 100
- Zeichen insgesamt: 100 Mrd.
- Geschätzte Tokenanzahl
- Eingabe-Token: 28,6 Mrd. (bei Annahme von 1 Token pro 3,5 Zeichen)
- Prozentsatz der getaggten Nachrichten: 3%
- Ausgabe für jede getaggte Nachricht Token Anzahl: 50
- Gesamtzahl der ausgegebenen Token: 1,5 Mrd.
- Claude 3 Haiku Geschätzte Kosten
- Kosten für Eingabemarken: 2.860 MTok * $0,25/MTok = $715
- Kosten für Ausgabemarken: 1.500 MTok * $1,25/MTok = $1.875
- Monatliche Kosten: $715 + $1,875 = $2,590
- Claude 3.5 Sonnet Geschätzte Kosten
- Kosten für Eingabemarken: 2.860 MTok * $3,00/MTok = $8.580
- Kosten für Ausgabemarken: 1.500 MTok * $15,00/MTok = $22.500
- Monatliche Kosten: $8,580 + $22,500 = $31,080
Die tatsächlichen Kosten können von diesen Schätzungen abweichen. Diese Schätzungen beruhen auf Informationen über Stapeldatei hervorgehobenen Tipps in diesem Abschnitt. Durch Entfernen der Erklärung
kann die Anzahl der Output-Token weiter reduziert werden.
Leistungsstarke Tipps zum Bauen
Um Claude für die Inhaltskontrolle einsetzen zu können, muss Claude die Kontrollanforderungen Ihrer Anwendung verstehen. Beginnen wir mit dem Schreiben einer Eingabeaufforderung, damit Sie Ihre Prüfungsanforderungen definieren können:
importieren anthropisch
importieren json
# Initialisierung des Anthropic Client
client = anthropic.Anthropic()
def moderate_message(Nachricht, unsichere_Kategorien):
# Konvertierung der Liste der unsicheren Kategorien in Strings, eine Zeile pro Kategorie
unsafe_category_str = '\n'.join(unsafe_categories)
# Gebäudetipps für Claude, einschließlich Nachrichten und Unsicherheitskategorien
assessment_prompt = f"""
Bestimmen Sie, ob die folgenden Meldungen überprüft werden müssen, basierend
basierend auf den unten aufgeführten Unsicherheitskategorien.
Meldung:
<Meldung{Nachricht}Unsichere Kategorien:
{unsafe_category_str}
Reagieren Sie nur auf JSON-Objekte, die das folgende Format verwenden:
{{
"violation": , {{
"categories": [Komma-getrennte Liste der verletzten Kategorien], {{ "explanation": [Optional.
"explanation": [Optional. Nur angeben, wenn ein Verstoß vorliegt].
}}"""
# Sendet Anfrage an Claude zur Überprüfung des Inhalts
response = client.messages.create(
model="claude-3-haiku-20240307", # nutzt Haiku-Modelle zur Kostenreduzierung
max_tokens=200,
Temperatur=0, # verwendet 0-Temperatur zur Verbesserung der Konsistenz
messages=[
{"Rolle": "Benutzer", "Inhalt": assessment_prompt}
]
)
# Parsen der JSON-Antwort von Claude
assessment = json.loads(response.content[0].text)
# Extrahieren des Verletzungsstatus aus Beurteilungen
enthält_Verletzung = Bewertung[Verletzung]
# Wenn es einen Verstoß gibt, werden die Kategorie und die Erklärung abgerufen; andernfalls werden leere Standardwerte verwendet.
violated_categories = assessment.get(Kategorien, []) wenn enthält_Verletzung sonst []
explanation = assessment.get(Erklärung) wenn enthält_Verletzung sonst Keine
return enthält_Verstoß, verletzte_Kategorien, Erklärung
# Verarbeitet jeden Kommentar und druckt die Ergebnisse
für Kommentar in user_comments.
drucken(f"\n Kommentare. {Kommentar}")
violation, violated_categories, explanation = moderate_message(comment, unsafe_categories)
wenn Verletzung.
drucken(f "Kategorien von Verstößen. {', '.join(verletzte_Kategorien)}")
drucken(f" Erläuterung. {Erläuterung}")
sonst:
drucken("Keine Probleme festgestellt.")
In diesem Beispiel ist diemoderate_message
Die Funktion enthält eine Bewertungsaufforderung mit der Kategorie des unsicheren Inhalts und der Nachricht, die wir bewerten wollen. In der Aufforderung wird Claude aufgefordert zu bewerten, ob die Nachricht auf der Grundlage der von uns definierten Unsicherheitskategorie geprüft werden sollte.
Die Bewertung des Modells wird dann geparst, um festzustellen, ob eine Verletzung vorliegt. Liegt ein Verstoß vor, gibt Claude auch eine Liste der verletzten Kategorien und eine Erklärung zurück, warum die Nachricht als unsicher gilt.
Bewerten Sie Ihre Tipps
Die Überprüfung von Inhalten ist eine Frage der Kategorisierung. Deshalb können Sie unsere Klassifikationskochbuch Dieselben Techniken, die in Bestimmen der Genauigkeit Ihres Inhaltskontrollsystems beschrieben sind.
Eine weitere Überlegung ist, dass Sie die Prüfung von Inhalten nicht als ein binäres Kategorisierungsproblem betrachten, sondern mehrere Kategorien erstellen können, die verschiedene Risikostufen darstellen. Die Schaffung mehrerer Risikostufen ermöglicht es Ihnen, die Intensität Ihrer Prüfung anzupassen. So können Sie beispielsweise Benutzerabfragen, die als hohes Risiko eingestuft werden, automatisch blockieren, während Sie viele Abfragen mit mittlerem Risiko als manuell überprüfungsbedürftig kennzeichnen.
importieren anthropisch
importieren json
# Initialisierung des Anthropic Client
client = anthropic.Anthropic()
def risikoebene_beurteilen(Nachricht, unsichere_Kategorien):
# Konvertierung der Liste der unsicheren Kategorien in Strings, eine Zeile pro Kategorie
unsafe_category_str = '\n'.join(unsafe_categories)
# Konstruiert Aufforderungen für Claude, einschließlich zu bewertender Nachrichten, Unsicherheitskategorien und Definitionen von Risikostufen
assessment_prompt = f"""
Bewerten Sie den Risikograd der folgenden Nachrichten, um festzustellen, ob sie überprüft werden müssen, basierend
basierend auf den unten aufgeführten Unsicherheitskategorien.
Nachricht:
<Nachricht{Nachricht}Unsichere Kategorien:
{unsafe_category_str}
Weist eine Risikostufe zu, die darauf basiert, dass Sie davon ausgehen, dass Benutzernachrichten gemäß den definierten Unsicherheitskategorien geprüft werden sollten:
0 - kein Risiko
1 - Geringes Risiko
2 - Mittleres Risiko
3 - Hohes Risiko
Um nur im JSON-Objektformat zu antworten, verwenden Sie das folgende Format:
{{
"risk_level": , "categories": [kommagetrennte Liste der Verstoßkategorien], {{
"categories": [kommagetrennte Liste der Verstoßkategorien], {{ "risk_level": , <optional.
"explanation":
}}"""
# Antrag auf Risikobewertung an Claude senden
response = client.messages.create(
model="claude-3-haiku-20240307", # nutzt Haiku-Modelle zur Kostenreduzierung
max_tokens=200,
Temperatur=0, # verwendet 0-Temperatur zur Verbesserung der Konsistenz
messages=[
{"Rolle": "Benutzer", "Inhalt": assessment_prompt}
]
)
# Parsen der JSON-Antwort von Claude
assessment = json.loads(response.content[0].text)
# Extraktion von Risikostufe, Verstoßkategorie und Erklärung aus der Bewertung
risk_level = Bewertung["risiko_stufe"]
violated_categories = Bewertung["Kategorien"Erklärung = bewertung.get()
Erklärung = Bewertung.get("Erklärung")
return risiko_stufe, verletzte_kategorien, erklärung
# Verarbeitet jeden Kommentar und druckt die Ergebnisse
für Kommentar in user_comments.
drucken(f"\n Kommentare. {Kommentar}")
risk_level, violated_categories, explanation = assess_risk_level(comment, unsafe_categories)
drucken(f "Risikostufe. {Risiko_Stufe}")
wenn verletzte_Kategorien.
drucken(f "Art des Verstoßes. {', '.join(verletzte_Kategorien)}")
wenn Erklärung.
drucken(f" Erläuterung. {Erläuterung}")
Der Code implementiert eine risikoebene_beurteilen
Funktion, die mit Hilfe von Claude den Risikograd einer Nachricht bewertet. Die Funktion nimmt als Eingabe eine Liste von Nachrichten und unsicheren Kategorien.
Innerhalb der Funktion wird eine Eingabeaufforderung für Claude generiert, die die zu bewertende Nachricht, die Kategorie der Unsicherheit und eine spezifische Beschreibung der zu bewertenden Risikostufe enthält. Die Aufforderung weist Claude an, in Form eines JSON-Objekts zu antworten, das die Risikostufe, die Verstoßkategorie und optional eine Erklärung enthält.
Dieser Ansatz ermöglicht eine flexible Überprüfung von Inhalten durch Zuweisung von Risikostufen. Er kann nahtlos in größere Systeme integriert werden, um Inhalte automatisch zu filtern oder Kommentare für eine manuelle Überprüfung auf der Grundlage der bewerteten Risikostufen zu kennzeichnen. Bei der Ausführung dieses Codes werden zum Beispiel die Kommentare Löschen Sie diesen Beitrag jetzt oder verstecken Sie sich besser, denn ich werde Sie und Ihre Familie verfolgen.
Aufgrund der gefährlichen Bedrohung als hohes Risiko eingestuft. Stattdessen werden die Kommentare Halten Sie sich von den 5G-Handys fern!!!! Sie benutzen 5G, um dich zu kontrollieren.
als mittleres Risiko eingestuft.
Einsetzen der Tipps
Wenn Sie mit der Qualität Ihrer Lösung zufrieden sind, ist es an der Zeit, sie in einer Produktionsumgebung einzusetzen. Im Folgenden finden Sie einige bewährte Verfahren für die Verwendung von Inhaltsprüfungen:
- **Klare Rückmeldung an die Nutzer:** Geben Sie nützliches und konstruktives Feedback, wenn Nutzereingaben blockiert wurden oder eine Antwort aufgrund von Inhaltsmoderation gekennzeichnet wurde, und helfen Sie den Nutzern zu verstehen, warum ihre Nachricht gekennzeichnet wurde, und teilen Sie ihnen mit, wie sie sie angemessen neu formulieren können. Im obigen Codebeispiel geschieht dies durch die Claude-Antwort in der
Erklärung
Realisierung des Labels. - **Analyse der geprüften Inhalte:** Verfolgen Sie die Arten von Inhalten, die vom Prüfsystem gekennzeichnet wurden, um Trends und mögliche Bereiche für Verbesserungen zu ermitteln.
- **Kontinuierliche Bewertung und Verbesserung:** Bewerten Sie regelmäßig die Leistung Ihres Inhaltsprüfungssystems anhand von Kennzahlen wie Präzision und Rückrufquote. Nutzen Sie diese Daten, um Ihre Prüfungsaufforderungen, Schlüsselwörter und Bewertungskriterien iterativ zu verbessern.
Leistung verbessern
In komplexen Szenarien wird zusätzlich zu den Standard Tipps für die Technik Darüber hinaus kann die Berücksichtigung einiger zusätzlicher Strategien die Leistung verbessern. Hier sind einige fortgeschrittene Strategien:
Definieren Sie Themen und geben Sie Beispiele
Zusätzlich zur Auflistung der unsicheren Kategorien in den Aufforderungen könnten weitere Verbesserungen vorgenommen werden, indem für jede Kategorie Definitionen und verwandte Ausdrücke angegeben werden.
importieren anthropisch
importieren json
# Initialisierung des Anthropic Client
client = anthropic.Anthropic()
# Wörterbuch mit Definitionen für die Kategorie "Content Audit Insecurity
unsafe_category_definitions = {
Ausbeutung von Kindern: Inhalte, die Nacktheit von Kindern beinhalten oder den sexuellen Missbrauch von Kindern fördern, ermutigen, rechtfertigen oder darstellen".,
Verschwörungstheorien: """Inhalte, die unbegründete falsche oder irreführende Theorien über Ereignisse, Situationen oder Personen fördern oder unterstützen.
Diese Theorien können zu Schaden anstiften oder das öffentliche Vertrauen in Institutionen oder Fakten untergraben."""",
'Hass': """" Auf der Grundlage geschützter Merkmale (Ethnie, Hautfarbe, ethnische Zugehörigkeit, Nationalität, Behinderung, religiöse Überzeugung, Kaste, sexuelle Orientierung, Geschlecht, Geschlechtsidentität und schwere Krankheit)
Inhalte, die Hass gegenüber bestimmten Personengruppen zum Ausdruck bringen oder negative Stereotypen fördern."""",
Willkürliche Waffen: Inhalte, die die Herstellung von Massenvernichtungswaffen betreffen.,
Geistiges Eigentum'.: Inhalte, die die Rechte am geistigen Eigentum eines Dritten verletzen".,
Gewaltlose Verbrechen: Inhalte, die zu gewaltlosen Straftaten ermutigen, diese rechtfertigen oder fördern.,
Datenschutz'.: Inhalt, der private, persönliche und sensible Informationen enthält.,
Selbstbeschädigung: Inhalte, die zu selbstschädigendem Verhalten ermutigen, es rechtfertigen oder fördern".,
Sexualverbrechen".: Inhalte, die zu sexuellen Straftaten ermutigen, diese rechtfertigen oder fördern.,
Sexueller Inhalt".: Inhalte, die pornografische Beschreibungen oder explizite Darstellungen von sexuellem Verhalten enthalten".,
Spezialisierte Beratung: """Enthält Elemente der finanziellen, medizinischen oder rechtlichen Beratung.
Finanzielle Beratung umfasst Hinweise zu Investitionen, Aktien, Anleihen oder Finanzplanung. """",
Gewaltverbrechen".: Inhalte, die Gewaltverbrechen ermutigen, rechtfertigen oder fördern".,
}
def moderieren_nachrichten_mit_definitionen(Nachricht, unsafe_category_definitions):
# Formatierung unsicherer Kategorie-Strings mit einer Zeile für jede Kategorie und ihre Definition
unsafe_category_str = '\n'.join(f'{Kategorie}: {Definition}'
für Kategorie, Definition in unsafe_category_definitions.items()
)
# Tipps zum Aufbau von Claude, einschließlich Nachrichten und Unsicherheitskategorien
assessment_prompt = f"""Bestimmen Sie auf der Grundlage der unten aufgeführten Unsicherheitskategorien, ob die folgenden Meldungen überprüft werden müssen.
Meldung:{Nachricht}Unsichere Kategorien und ihre Definitionen:
{unsafe_category_str}
Bitte merken Sie sich alle unsicheren Kategorien und ihre Definitionen.
Antworten Sie nur im JSON-Format unter Verwendung des folgenden Formats:
{{
"violation": , {{{
"categories": [kommagetrennte Liste der verletzten Kategorien], {{ "explanation": [optional
"explanation": [Optional. Nur angeben, wenn ein Verstoß vorliegt].
}}"""
# Sendet Anfrage zur Inhaltsüberprüfung an Claude
response = client.messages.create(
model="claude-3-haiku-20240307", # nutzt Haiku-Modelle zur Kostenreduzierung
max_tokens=200,
Temperatur=0, # verwendet 0-Temperatur zur Verbesserung der Konsistenz
messages=[
{"Rolle": "Benutzer", "Inhalt": assessment_prompt}
]
)
# Parsen der JSON-Antwort von Claude
assessment = json.loads(response.content[0].text)
# Extraktion des Verstoßstatus aus den Bewertungsergebnissen
enthält_Verletzung = Bewertung[Verletzung]
# Wenn es einen Verstoß gibt, werden die Verstoßkategorie und die Erklärung abgerufen; andernfalls werden leere Standardwerte verwendet.
violated_categories = assessment.get(Kategorien, []) wenn enthält_Verletzung sonst []
explanation = assessment.get(Erklärung) wenn enthält_Verletzung sonst Keine
return enthält_Verstoß, verletzte_Kategorien, Erklärung
# Verarbeitet jeden Kommentar und druckt die Ergebnisse
für Kommentar in user_comments.
drucken(f"\n Kommentare:{Kommentar}")
violation, violated_categories, explanation = moderate_message_with_definitions(comment, unsafe_category_definitions)
wenn Verletzung.
drucken(f" Kategorie des Verstoßes:{', '.join(verletzte_Kategorien)}")
drucken(f" Erklärung:{Erläuterung}")
sonst:
drucken("Keine Probleme gefunden".)
moderieren_nachrichten_mit_definitionen
Funktion basiert auf der vorherigen moderate_message
Funktion wurde erweitert, indem jede unsichere Kategorie mit einer detaillierten Definition versehen wurde. Der Code kombiniert die ursprüngliche Funktion der unsichere_Kategorien
Die Liste wird ersetzt durch unsafe_category_definitions
Wörterbuch. Dieses Wörterbuch ordnet jede unsichere Kategorie der entsprechenden Definition zu. Sowohl der Name der Kategorie als auch ihre Definition sind in der Aufforderungsmeldung enthalten.
Es ist erwähnenswert, dassSpezialisierte Beratung
In der Definition der Kategorien wird nun präzisiert, welche Arten der Finanzberatung verboten werden sollten. Infolgedessen werden die zuvor angenommenen moderate_message
Rezensionen zu "Jetzt ist ein guter Zeitpunkt, um in Gold zu investieren!" Jetzt würde einen Verstoß auslösen.
Stapelverarbeitung in Betracht ziehen
In Fällen, in denen eine Überprüfung in Echtzeit nicht erforderlich ist, sollten Sie eine Massenüberprüfung von Nachrichten in Betracht ziehen, um die Kosten zu senken. Fügen Sie mehrere Nachrichten in den Kontext der Aufforderung ein und lassen Sie Claude beurteilen, welche Nachrichten überprüft werden müssen.
importieren anthropisch
importieren json
# Initialisierung des Anthropic Client
client = anthropic.Anthropic()
def batch_moderate_messages(Meldungen, unsichere_Kategorien):
# Konvertierung der Liste der unsicheren Kategorien in Strings, eine Zeile pro Kategorie
unsafe_category_str = '\n'.join(unsafe_categories)
# formatiert die Nachrichtenstrings, indem es jede Nachricht in XML-ähnliche Tags verpackt und die IDs
messages_str = '\n'.join([f'<Nachricht id={idx}>{msg}' für idx, msg in aufzählen.(Nachrichten)])
# Tipps zum Aufbau von Claude, einschließlich zu bewertender Botschaften und Kategorien von Unsicherheiten
assessment_prompt = f"""Ermitteln Sie auf der Grundlage der unten aufgeführten Unsicherheitskategorien die Nachrichten, die überarbeitet werden müssen.
Liste der Meldungen:
{messages_str}
Unsicherheitskategorien und ihre Definitionen:
{unsafe_category_str}
Es werden nur JSON-Objekte in folgendem Format zurückgegeben:
{{
"violations": [
{{
"id": , "categories": [Liste der Kategorien der Verstöße], {{
"categories": [Liste der verletzten Kategorien], {{ "explanation": , {{ "categories": [Liste der verletzten Kategorien], {{ "explanation": , }
"explanation": , {{ "explanation":
}}, ...
...
]
}}
Wichtiger Tipp:
- Denken Sie daran, jede Nachricht auf Verstöße zu analysieren.
- Wählen Sie alle Kategorien von Verstößen aus, die sinnvollerweise zutreffen. """"
# sendet Audit-Anfrage an Claude
response = client.messages.create(
model="claude-3-haiku-20240307", # nutzt Haiku-Modelle zur Kostenreduzierung
max_tokens=2048, # Erhöhen Sie die maximale Anzahl von Token, um Massendaten zu verarbeiten.
Temperatur=0, # Temperatur auf 0 setzen, um die Konsistenz zu verbessern
messages=[
{"Rolle": "Benutzer", "Inhalt": assessment_prompt}
]
)
# Parsing der von Claude zurückgegebenen JSON-Antwort
assessment = json.loads(response.content[0].text)
return Bewertung
# Verarbeiten von Massenkommentaren und Abrufen von Antworten
response_obj = batch_moderate_messages(user_comments, unsafe_categories)
# Gibt Informationen über jede erkannte Verletzung aus
für Verstoß in response_obj[Verstöße".]:
drucken(f"""Kommentare:{Benutzer_Kommentare[Verletzung['id']]}
Kategorie des Verstoßes:{', '.join(violation['categories'])}
Erläuterung:{Violation['explanation']}
""")
In diesem Beispiel ist diebatch_moderate_messages
Die Funktion bearbeitet die Überprüfung eines ganzen Stapels von Nachrichten mit einem einzigen Claude-API-Aufruf. Innerhalb der Funktion wird ein Hinweis erstellt, der eine Liste der zu prüfenden Nachrichten, die Kategorie der unsicheren Inhalte und ihre Beschreibung enthält. Die Eingabeaufforderung fordert Claude auf, ein JSON-Objekt zurückzugeben, das alle Nachrichten auflistet, die Verstöße enthalten. Jede Nachricht in der Antwort wird durch ihre ID identifiziert, die der Position der Nachricht in der Eingabeliste entspricht. Beachten Sie, dass die optimale Stapelgröße für Ihre spezifischen Anforderungen möglicherweise einige Experimente erfordert. Größere Stapelgrößen können zwar die Kosten senken, können aber auch zu einem leichten Qualitätsverlust führen. Außerdem müssen Sie möglicherweise die Anzahl der Claude-API-Aufrufe in der max_tokens
Parameter, um längere Antworten zu ermöglichen. Weitere Informationen über die maximale Anzahl von Token, die von dem ausgewählten Modell ausgegeben werden können, finden Sie im Abschnitt Modellvergleich Seite.