Mit der rasanten Entwicklung der KI-Technologie verändern große Sprachmodelle (Large Language Models, LLMs) unser Leben in einem noch nie dagewesenen Tempo. Der technologische Fortschritt hat jedoch auch neue Herausforderungen mit sich gebracht: LLMs können böswillig ausgenutzt werden, um schädliche Informationen weiterzugeben oder sogar zur Herstellung chemischer, biologischer, radiologischer und nuklearer Waffen (CBRN) verwendet werden. Um diesen Bedrohungen zu begegnen, hat das Anthropic-Sicherheitsforschungsteam einen innovativen Verteidigungsmechanismus entwickelt - dieRegelklassifikatoren (Konstitutionsklassifikatoren)Diese Forschung zielt darauf ab, "generische Jailbreak"-Angriffe abzuwehren, die systematisch die Modellsicherheit umgehen, indem Klassifikatoren auf der Grundlage natürlicher Sprachregeln trainiert werden. Diese Forschung zielt darauf ab, sich gegen "generische Jailbreak"-Angriffe zu verteidigen, die systematisch die Modellsicherheit umgehen, indem sie Klassifikatoren auf der Grundlage natürlicher Sprachregeln trainieren.
-Verfassungsrechtliche Klassifikatoren: Verteidigung gegen generische Gefängnisausbrüche
Anthropisch Forschungsteam Schutzmaßnahmen Ein neues Papier wurde veröffentlicht beschreibt eine Methode zur Verteidigung von KI-Modellen gegen generische Jailbreak-Angriffe. Eine Prototypversion der Methode erwies sich in Tausenden von Stunden manueller Red-Team-Tests als robust gegenüber generischen Jailbreak-Angriffen, wenn auch mit einer hohen Überabweisungsrate und einem hohen Rechenaufwand. Eine aktualisierte Version erreicht eine ähnliche Robustheit in synthetischen Auswertungen und erhöht die Ablehnungsrate um nur 0,38% bei einem moderaten Anstieg der Rechenkosten.
Das Anthropic-Team hostet derzeit eine temporäre Online-Demoversion des Constitutional Classifiers-Systems und bittet Leser mit Erfahrung im Jailbreaking von KI-Systemen, beim "Red-Team-Test" zu helfen. Bitte klicken Sie Demo-Seite Erfahren Sie mehr.
Update 5. Februar 2025: Das Anthropic-Team bietet jetzt eine Belohnung in Höhe von 10.000 $ für die erste Person, die alle acht Level durch einen Jailbreak demonstriert, und eine Belohnung in Höhe von 20.000 $ für die erste Person, die dies mit einer universellen Jailbreak-Strategie schafft. Alle Einzelheiten zu den Belohnungen und den damit verbundenen Bedingungen finden Sie unter HackerOne.
Große Sprachmodelle werden einem umfangreichen Sicherheitstraining unterzogen, um schädliche Ausgaben zu verhindern. Anthropic trainiert zum Beispiel Claude Verweigerung der Beantwortung von Nutzeranfragen, die die Herstellung von biologischen oder chemischen Waffen betreffen.
Das Modell bleibt jedoch anfällig für Jailbreak (ein iOS-Gerät usw.) Angriffe: Eingaben, die darauf abzielen, die Sicherheitsvorkehrungen des Systems zu umgehen und eine schädliche Reaktion zu erzwingen. Einige Jailbreak-Angriffe verwenden Sehr lange Multi-Proben-Spitzen Hochwassermodelle; andere modifizieren Eingabestil zum Beispiel durch die Verwendung dieses ungewöhnlichen Fallbeispiels. In der Vergangenheit haben sich Jailbreak-Angriffe als schwierig zu erkennen und zu stoppen erwiesen: Solche Angriffe waren Sie wurde vor über 10 Jahren beschrieben. Soweit Anthropic weiß, gibt es jedoch noch keine vollständig robusten Deep-Learning-Modelle in Produktionsumgebungen.
Anthropic entwickelt bessere Schutzmaßnahmen gegen Jailbreak-Angriffe, damit in Zukunft immer leistungsfähigere Modelle sicher eingesetzt werden können. Im Einklang mit Anthropics Strategie der verantwortungsvollen Skalierung kann Anthropic solche Modelle einsetzen, solange Anthropic in der Lage ist, das Risiko durch geeignete Sicherheitsmaßnahmen auf ein akzeptables Niveau zu reduzieren - Jailbreak-Angriffe ermöglichen es Nutzern jedoch, diese Sicherheitsmaßnahmen zu umgehen. Anthropic erwartet insbesondere, dass Systeme, die von Constitutional Classifiers verteidigt werden, Anthropic in die Lage versetzen, das Risiko von Jailbreak-Modellen zu mindern, die die in Anthropics Responsible Extension Strategy ^1^ genannten Schwellenwerte für CBRN-Fähigkeiten überschritten haben.
existieren Neue Papiere von Anthropic Darin beschreibt Anthropic ein System, das auf den Verfassungsrechtliche Klassifikatoren eines Systems, das Modelle vor Jailbreak-Angriffen schützt. Bei diesen Constitutional Classifiers handelt es sich um Input- und Output-Klassifikatoren, die auf synthetisch generierten Daten trainiert wurden und die große Mehrheit der Jailbreak-Angriffe herausfiltern, während sie gleichzeitig eine Überablehnung minimieren und keinen erheblichen Rechenaufwand verursachen.
Ergebnisse der manuellen Red-Team-Tests
Anthropic hat zwei Haupttypen von Tests durchgeführt, um die Effektivität von Constitutional Classifiers zu bewerten.
Zunächst entwickelte Anthropic eine Prototypversion des Systems, um spezifische wissenschaftliche Erkenntnisse über chemische, biologische, radiologische und nukleare Gefahren zu ermitteln und zu sperren. Anschließend lud Anthropic unabhängige Ausbrecher zur Teilnahme an einem Bug-Bounty-Programm ein, bei dem sie aufgefordert wurden, das System im "Red-Team-Test" zu testen (d. h. zu versuchen, das System unter experimentellen Bedingungen zu knacken, um seine Robustheit zu prüfen).
Konkret erhielten sie eine Liste mit zehn "verbotenen" Anfragen, und ihre Aufgabe bestand darin, mit Hilfe beliebiger Jailbreaking-Techniken eines der aktuellen Modelle von Anthropic (in diesem Fall Claude 3.5 Sonnet, Juni 2024) dazu zu bringen, alle diese Anfragen unter dem Schutz der Prototypversion von Constitutional Classifiers zu beantworten. unter dem Schutz der Prototypversion von Constitutional Classifiers alle Fragen beantworten. Dies ist nur möglich, wenn das Modell ein gutes Verständnis der Eigentum Anthropic betrachtete es nur dann als einen erfolgreichen "generischen" Jailbreak, wenn die Fragen im Detail beantwortet wurden.
Während des zweimonatigen Experiments verbrachten 183 aktive ^2^ Teilnehmer schätzungsweise mehr als 3.000 Stunden mit dem Versuch, das Modell zu knacken. Wenn sie einen generischen Jailbreak fanden, wurden sie mit einer Geldprämie von bis zu 15.000 Dollar belohnt. Trotz des Aufwands war keiner der Teilnehmer in der Lage, das Modell dazu zu bringen, alle zehn verbotenen Abfragen mit einem einzigen Jailbreak zu beantworten - d.h. es wurden keine generischen Jailbreaks gefunden.
Dieses Prototypsystem ist zwar robust gegenüber Jailbreak-Angriffen, hat aber einige Probleme: Es lehnt zu viele harmlose Anfragen ab und ist teuer im Betrieb. Ein System, das diese beiden Probleme nicht hat, könnte sicherer sein, aber es könnte auch nicht einfach zu implementieren sein. Seitdem hat Anthropic sein System verbessert, um ein ähnliches Maß an Robustheit zu erreichen und gleichzeitig diese Probleme zu verringern.
Ergebnisse aus automatisierten Bewertungen
Anthropic führte eine Reihe automatischer Evaluierungen durch, bei denen Anthropic 10.000 Jailbreak-Hinweise synthetisch generierte, darunter viele der Angriffe, die gegen das aktuelle große Sprachmodell am effektivsten sind, sowie Angriffe, die darauf abzielen, die Sicherheitsmaßnahmen des Klassifizierers zu umgehen.Anthropic probierte diese Hinweise an der durch Constitutional Classifiers geschützten Claude 3.5 Sonnet Version (Oktober 2024), die durch Constitutional Classifiers geschützt ist, und an einer Version von Claude, die nicht durch Classifiers geschützt ist.
In der Ausgangsbedingung ohne defensive Klassifikatoren betrug die Erfolgsrate beim Jailbreak 86% - das heißt, Claude selbst blockierte nur 14% dieser fortgeschrittenen Jailbreak-Versuche. Der Schutz von Claude mit Constitutional Classifiers führt jedoch zu einer deutlichen Verbesserung: Die Erfolgsrate beim Jailbreak sinkt auf 4,4%, was bedeutet, dass mehr als 95% der Jailbreak-Versuche abgewiesen werden.
Abbildung 1: Ergebnisse der automatischen Bewertungen. Für alle Diagramme gilt: je niedriger der Wert, desto besser. (a) Die Erfolgsrate von Jailbreaks ist bei Systemen, die durch Constitutional Classifiers geschützt sind, viel niedriger; (b) es gibt keinen statistisch signifikanten Anstieg der Ablehnungsrate von Systemen im produktiven Claude.ai Free- und Pro-Verkehr, wenn Constitutional Classifiers verwendet werden; (c) die relativen Rechenkosten von Systemen, die Constitutional Classifiers verwenden, sind nur mäßig höher. (c) Die relativen Rechenkosten des Systems sind mit Constitutional Classifiers nur mäßig höher. Die Fehlerbalken stellen 95%-Konfidenzintervalle dar, die mit binomialproportionalen Standardfehlern unter der Annahme asymptotischer Normalität berechnet wurden.
Gleichzeitig erhöhen die konstitutionellen Klassifikatoren von Anthropic die Rate der Überablehnung von harmlosen Benutzeranfragen nicht wesentlich: Es gibt einen leichten Anstieg der Ablehnungsrate von Claude mit den Klassifikatoren (ein Anstieg von 0,381 TP3T), aber dieser ist bei einer Stichprobe von 5.000 Gesprächen statistisch nicht signifikant. Schließlich kommt es zu einem moderaten Anstieg der Rechenkosten (ein Anstieg von 23,71 TP3T), der höher ist als beim ungeschützten Modell.Anthropic arbeitet daran, die Ablehnungsrate und die Rechenkosten weiter zu senken, während Anthropic diese Technik verbessert.
Insgesamt ergab die automatisierte Analyse von Anthropic, dass diese aktualisierte Version des Constitutional Classifiers-Systems die Robustheit von KI-Modellen gegen Jailbreak-Angriffe deutlich verbessert - und das bei minimalen Zusatzkosten.
Arbeitsprinzip
Constitutional Classifiers basiert auf denselben Prinzipien wie Konstitutionelle KI In einem ähnlichen Prozess ist die konstitutionelle KI eine weitere Technik, die Anthropic verwendet, um Claude auszurichten. Beide Techniken verwenden eine Charta: eine Liste von Prinzipien, an die sich das Modell halten soll. Im Falle von Constitutional Classifiers definieren diese Prinzipien zulässige und unzulässige Inhaltskategorien (z. B. sind Rezepte für Senf zulässig, Rezepte für Senfgas jedoch nicht).
Mit Hilfe von Claude hat Anthropic diese Charta genutzt, um eine große Anzahl von synthetischen Hinweisen und synthetischen Modellergänzungen für alle Inhaltskategorien zu generieren, die Anthropic erweitert hat, um sicherzustellen, dass die Listen vielfältig sind: Dazu gehörte die Übersetzung in verschiedene Sprachen und die Umwandlung in einen bekannten Jailbreak-Stil.
Abbildung 2: Training und Implementierung von konstitutionellen Klassifikatoren. a) Es werden Chartas entwickelt, um harmlose und schädliche Kategorien zu spezifizieren; b) Chartas werden als Grundlage für die Generierung einer großen Anzahl von synthetischen Stichwörtern und Ergänzungen verwendet, die weiter ausgebaut (stilistische und sprachliche Variationen) und in einen Trainingssatz umgewandelt werden; c) Klassifikatoren, die auf diesem Trainingssatz trainiert wurden, werden als Modell verwendet. Sicherheitsmaßnahmen, um schädliche Inhalte zu erkennen und zu blockieren.
Anhand dieser synthetischen Daten trainiert Anthropic dann die Eingabe- und Ausgabeklassifikatoren von Anthropic, um potenziell schädliche Inhalte auf der Grundlage einer bestimmten Charta zu kennzeichnen (und zu blockieren). Um eine übermäßige Ablehnung (d. h. die fälschliche Einstufung harmloser Inhalte als schädlich) zu vermeiden, trainiert Anthropic die Klassifikatoren auch anhand einer festen Menge gutartiger, von Auftragnehmern generierter Abfragen.
Einschränkungen
Konstitutionelle Klassifizierer sind zwar nicht in der Lage, jeden generischen Jailbreak zu stoppen, aber Anthropic ist der Ansicht, dass selbst die geringe Anzahl von Jailbreak-Angriffen, die an Anthropics Klassifizierern vorbeikommen, einen höheren Aufwand erfordern, wenn Sicherheitsmaßnahmen eingesetzt werden. Es ist auch möglich, dass in Zukunft neue Jailbreak-Techniken entwickelt werden, die auf diesem System wirksam sind; daher empfiehlt Anthropic die Verwendung von ergänzenden Abwehrmaßnahmen. Die Charta, mit der der Klassifikator trainiert wird, kann jedoch schnell angepasst werden, um neue Arten von Angriffen abzudecken, sobald sie entdeckt werden.
Das vollständige Papier enthält alle Einzelheiten über die Methode der Constitutional Classifiers und die Klassifikatoren selbst.
Online-Demo der Verfassungsklassifikatoren
Wenn Sie Claude selbst mit dem Red Team testen möchten, lädt Anthropic Sie ein, eine Demo von Anthropic's Constitutional-Classifiers-geschütztem System auszuprobieren und zu versuchen, die durch Anthropic's neue Technologie geschützte 3.5 Sonnet-Version von Claude zu jailbreaken.
Die Technologie von Constitutional Classifiers ist so flexibel, dass sie an jedes Thema angepasst werden kann. Anthropic hat sich jedoch dafür entschieden, seine Präsentation auf Abfragen zu chemischen Waffen zu konzentrieren.
Die Aufforderung an die Benutzer, zu versuchen, die Produkte von Anthropic zu knacken, dient einem wichtigen Sicherheitszweck: Anthropic wollte die Systeme von Anthropic unter realen Bedingungen einem Stresstest unterziehen, der über den Umfang der Tests hinausgeht, die Anthropic für die Studie durchgeführt hat. Dies ermöglicht es Anthropic, mehr Daten zu sammeln und die Robustheit der Methode zu verbessern, bevor sie in Zukunft auf den Produktionssystemen von Anthropic eingesetzt wird.
Demonstrationen wird veröffentlicht in 3. Februar 2025 bis 10. Februar 2025 Anthropic wird es während der Dauer des Jailbreaks online zur Verfügung stellen. Es enthält ein Feedback-Formular, mit dem Sie Anthropic kontaktieren können, um erfolgreiche Jailbreaks zu melden, sowie Informationen über Anthropic's Responsible Disclosure Policy, die Anthropic von den Teilnehmern einfordert.Anthropic wird alle Erfolge und allgemeinen Ergebnisse der Demo in Updates zu diesem Beitrag bekannt geben.
Update 5. Februar 2025: Wie oben erwähnt, bietet Anthropic jetzt eine Geldprämie für den erfolgreichen Jailbreak des Anthropic-Systems an. Die erste Person, die alle acht Level der Jailbreak-Demo schafft, gewinnt 10.000 USD. Die erste Person, die alle acht Levels mit der allgemeinen Jailbreak-Strategie schafft, gewinnt 20.000 USD. Vollständige Informationen zu den Prämien und den damit verbundenen Bedingungen finden Sie auf HackerOne.