In den letzten Jahren hat die rasante Entwicklung der generativen KI (GAI) und der großen Sprachmodelle (LLM) dazu geführt, dass die Fragen ihrer Sicherheit und Zuverlässigkeit viel Aufmerksamkeit auf sich gezogen haben. Eine kürzlich durchgeführte Studie hat eine neue Art von KI namens Best-of-N Jailbreak (kurz: BoN) in einer einfachen, aber effizienten Angriffsmethode. Indem sie den Eingabeinhalt nach dem Zufallsprinzip veränderten und dies wiederholt versuchten, umgingen die Forscher erfolgreich die Sicherheitsbeschränkungen mehrerer gängiger KI-Systeme und zwangen sie dazu, schädliche oder unangemessene Inhalte zu erzeugen. Schockierenderweise liegt die Erfolgsquote dieser Methode zwischen 70% und 90%, was die erhebliche Anfälligkeit der derzeitigen KI-Sicherheitsmechanismen offenbart.
Grundprinzipien des BoN-Ansatzes
Die Kernidee der Best-of-N-Jailbreak-Methode besteht darin, nach und nach Eingaben zu finden, die die Sicherheitseinschränkungen des Systems durchbrechen können, indem wiederholt kleine Verformungen an den Eingaben (Text, Bilder, Audio) vorgenommen werden, ohne dass die interne Struktur des KI-Modells verstanden werden muss. Diese Verformungen umfassen:
- Texteingabe Groß- und Kleinschreibung willkürlich ändern, Zeichen neu anordnen oder Symbole hinzufügen, usw.
- Bildeingabe Ändern Sie Hintergründe, überlagern Sie Text in verschiedenen Schriftarten.
- Audioeingang Passt die Tonhöhe und die Wiedergabegeschwindigkeit an oder fügt Hintergrundgeräusche hinzu.
Diese Verformungen ändern nicht die Kernsemantik der Eingabe, können aber in einigen Fällen eine falsche Reaktion des KI-Systems auslösen. Durch wiederholte Versuche gelang es den Forschern, eine "optimale Morph"-Eingabe zu finden, die das Modell dazu veranlasste, Inhalte zu erzeugen, die gegen die Sicherheitsvorschriften verstießen.
Angriffserfolg und Deckung
Das Forschungsteam testete mehrere gängige KI-Systeme mit der BoN-Methode, und die Ergebnisse zeigten, dass diese Systeme im Allgemeinen ein hohes Maß an Anfälligkeit für diesen einfachen Angriff aufwiesen. Beispiel:
- GPT-4 Die Eingangsverformung des 89% ist in der Lage, seine Sicherheitsgrenzen zu überschreiten.
- Claude 3.5 Der Morph-Angriff von 78% war erfolgreich.
- Andere gängige Systeme Ähnliche Schwachstellen werden festgestellt, obwohl die genaue Erfolgsquote von System zu System variiert.
Die Erfolgsquote von BoN-Angriffen ist dank ihrer Zufälligkeit und Skalierbarkeit deutlich höher als bei herkömmlichen KI-Jailbreak-Techniken. Die Methode ist besonders effektiv bei generativen KI-Aufgaben, was darauf hindeutet, dass das Sicherheitsdesign aktueller KI-Systeme nicht ausreichend robust ist.
Ausmaß und Vorhersagbarkeit von Angriffen
Die Studie zeigt auch, dass die Angriffserfolgsrate mit der Anzahl der Versuche (N-Wert) potenzgesetzlich ansteigt. Das bedeutet, dass die BoN-Methode mit zunehmender Anzahl von Stichproben oder Rechenleistung höhere Angriffserfolgsquoten erzielen kann. Diese Eigenschaft ermöglicht es den Forschern, genaue Vorhersagen über die Erfolgsrate zu treffen und somit die Angriffsstrategie für ein bestimmtes Modell anzupassen. Beispiel:
- Bei GPT-4 erhöht sich die Erfolgsquote um 10%, wenn man die Anzahl der Versuche auf 20% erhöht.
- Durch eine Kombination von BoN-Angriffen und anderen Techniken wird die Erfolgsquote weiter erhöht und gleichzeitig die Anzahl der erforderlichen Proben und Versuche reduziert.
Dies zeigt, dass die BoN-Methode nicht nur effizient ist, sondern auch eine gute Skalierbarkeit aufweist, um durch die Kombination mit anderen Angriffsmethoden schnellere und genauere Durchbrüche zu erzielen.
Warum funktioniert der BoN-Ansatz?
Der Forscher stellte fest, dass der Erfolg des BoN-Ansatzes vor allem auf Folgendes zurückzuführen ist:
- Die Eingangsverformung stört den Sicherheitsbewertungsmechanismus des Modells
Die meisten KI-Systeme verlassen sich auf bestimmte Merkmale oder Muster von Eingaben, um potenzielle Bedrohungen zu erkennen. Die zufällige Verformung des BoN verfälscht diese Merkmale, so dass das System Eingaben leichter als sicher einstufen kann.
- Blackbox-Charakter der Interaktion mit Modellen
BoN ist nicht auf die Kenntnis der internen Mechanismen des KI-Modells angewiesen und erfordert nur eine externe Interaktion mit dem System, um den Angriff auszuführen. Dadurch ist es in der Praxis besser einsetzbar.
- Modalübergreifende Anwendbarkeit
Die Methode ist nicht nur auf Texteingaben anwendbar, sondern auch in der Lage, visuelle Sprachmodelle und Sprachverarbeitungsmodelle anzugreifen. Indem sie beispielsweise Text zu einem Bild hinzufügten oder die Eigenschaften einer Audiodatei anpassten, umgingen die Forscher erfolgreich die Sicherheitsregeln dieser Systeme.
Ein Weckruf für KI-Sicherheit
Das Auftauchen der Best-of-N-Jailbreak-Methode ist ein Weckruf für die Sicherheit von KI-Systemen. Obwohl die BoN-Methode einfach erscheinen mag, zeigt ihr überraschend effektiver Angriff, dass der derzeitige Sicherheitsschutz von KI-Systemen angesichts nicht-traditioneller Bedrohungen immer noch sehr anfällig ist.
Die Forscher schlagen vor, dass KI-Entwickler ihre Sicherheit auf folgende Weise verbessern müssen:
- Verbesserte Robustheit der Eingaben
Die Entwicklung strengerer Eingabevalidierungsmechanismen für zufällige Verformungen verringert die Wahrscheinlichkeit, dass das System umgangen wird.
- Gemeinsamer multimodaler Schutz
Kombinieren Sie umfassende Text-, Bild- und Audioauswertungen, um die Gesamtsicherheit des Systems zu erhöhen.
- Einführung fortschrittlicherer Prüfmechanismen
Automatische Erkennung potenziell bösartiger Eingaben mithilfe von Generative Adversarial Networks (GAN) oder anderen fortschrittlichen Techniken.
Schlussbemerkungen
Die Forschungsergebnisse der Best-of-N-Jailbreak-Methode erinnern uns daran, dass sich die Entwicklung der KI-Technologie nicht nur auf die Verbesserung der Leistung konzentrieren darf, sondern sich auch mit ihrer Sicherheit und Zuverlässigkeit auseinandersetzen muss. Nur durch die kontinuierliche Verbesserung von Sicherheitsschutzmechanismen können KI-Systeme wirklich sicher und zuverlässig für ein breites Spektrum von Anwendungen sein.