Best-of-N-Jailbreak-Methode: Eine einfache zufällige Veränderung der Eingaben und wiederholte Versuche können es Mainstream-KI-Systemen ermöglichen, Sicherheitseinschränkungen zu durchbrechen und schädliche Reaktionen zu erzeugen

🚀 DeepSeek verzögert? Diese Seite ist kostenlos! Vollblütiger DeepSeek-R1, reibungslos und netzwerkfähig! Unbegrenzte Nutzung!

In den letzten Jahren hat die rasante Entwicklung der generativen KI (GAI) und der großen Sprachmodelle (LLM) dazu geführt, dass die Fragen ihrer Sicherheit und Zuverlässigkeit viel Aufmerksamkeit auf sich gezogen haben. Eine kürzlich durchgeführte Studie hat eine neue Art von KI namens Best-of-N Jailbreak (kurz: BoN) in einer einfachen, aber effizienten Angriffsmethode. Indem sie den Eingabeinhalt nach dem Zufallsprinzip veränderten und dies wiederholt versuchten, umgingen die Forscher erfolgreich die Sicherheitsbeschränkungen mehrerer gängiger KI-Systeme und zwangen sie dazu, schädliche oder unangemessene Inhalte zu erzeugen. Schockierenderweise liegt die Erfolgsquote dieser Methode zwischen 70% und 90%, was die erhebliche Anfälligkeit der derzeitigen KI-Sicherheitsmechanismen offenbart.

Grundprinzipien des BoN-Ansatzes

Die Kernidee der Best-of-N-Jailbreak-Methode besteht darin, nach und nach Eingaben zu finden, die die Sicherheitseinschränkungen des Systems durchbrechen können, indem wiederholt kleine Verformungen an den Eingaben (Text, Bilder, Audio) vorgenommen werden, ohne dass die interne Struktur des KI-Modells verstanden werden muss. Diese Verformungen umfassen:

Texteingabe Groß- und Kleinschreibung willkürlich ändern, Zeichen neu anordnen oder Symbole hinzufügen, usw.
Bildeingabe Ändern Sie Hintergründe, überlagern Sie Text in verschiedenen Schriftarten.
Audioeingang Passt die Tonhöhe und die Wiedergabegeschwindigkeit an oder fügt Hintergrundgeräusche hinzu.

Diese Verformungen ändern nicht die Kernsemantik der Eingabe, können aber in einigen Fällen eine falsche Reaktion des KI-Systems auslösen. Durch wiederholte Versuche gelang es den Forschern, eine "optimale Morph"-Eingabe zu finden, die das Modell dazu veranlasste, Inhalte zu erzeugen, die gegen die Sicherheitsvorschriften verstießen.

Angriffserfolg und Deckung

Das Forschungsteam testete mehrere gängige KI-Systeme mit der BoN-Methode, und die Ergebnisse zeigten, dass diese Systeme im Allgemeinen ein hohes Maß an Anfälligkeit für diesen einfachen Angriff aufwiesen. Beispiel:

GPT-4 Die Eingangsverformung des 89% ist in der Lage, seine Sicherheitsgrenzen zu überschreiten.
Claude 3.5 Der Morph-Angriff von 78% war erfolgreich.
Andere gängige Systeme Ähnliche Schwachstellen werden festgestellt, obwohl die genaue Erfolgsquote von System zu System variiert.

Die Erfolgsquote von BoN-Angriffen ist dank ihrer Zufälligkeit und Skalierbarkeit deutlich höher als bei herkömmlichen KI-Jailbreak-Techniken. Die Methode ist besonders effektiv bei generativen KI-Aufgaben, was darauf hindeutet, dass das Sicherheitsdesign aktueller KI-Systeme nicht ausreichend robust ist.

Ausmaß und Vorhersagbarkeit von Angriffen

Die Studie zeigt auch, dass die Angriffserfolgsrate mit der Anzahl der Versuche (N-Wert) potenzgesetzlich ansteigt. Das bedeutet, dass die BoN-Methode mit zunehmender Anzahl von Stichproben oder Rechenleistung höhere Angriffserfolgsquoten erzielen kann. Diese Eigenschaft ermöglicht es den Forschern, genaue Vorhersagen über die Erfolgsrate zu treffen und somit die Angriffsstrategie für ein bestimmtes Modell anzupassen. Beispiel:

Bei GPT-4 erhöht sich die Erfolgsquote um 10%, wenn man die Anzahl der Versuche auf 20% erhöht.
Durch eine Kombination von BoN-Angriffen und anderen Techniken wird die Erfolgsquote weiter erhöht und gleichzeitig die Anzahl der erforderlichen Proben und Versuche reduziert.

Dies zeigt, dass die BoN-Methode nicht nur effizient ist, sondern auch eine gute Skalierbarkeit aufweist, um durch die Kombination mit anderen Angriffsmethoden schnellere und genauere Durchbrüche zu erzielen.

Warum funktioniert der BoN-Ansatz?

Der Forscher stellte fest, dass der Erfolg des BoN-Ansatzes vor allem auf Folgendes zurückzuführen ist:

Die Eingangsverformung stört den Sicherheitsbewertungsmechanismus des ModellsDie meisten KI-Systeme verlassen sich auf bestimmte Merkmale oder Muster von Eingaben, um potenzielle Bedrohungen zu erkennen. Die zufällige Verformung des BoN verfälscht diese Merkmale, so dass das System Eingaben leichter als sicher einstufen kann.
Blackbox-Charakter der Interaktion mit ModellenBoN ist nicht auf die Kenntnis der internen Mechanismen des KI-Modells angewiesen und erfordert nur eine externe Interaktion mit dem System, um den Angriff auszuführen. Dadurch ist es in der Praxis besser einsetzbar.
Modalübergreifende AnwendbarkeitDie Methode ist nicht nur auf Texteingaben anwendbar, sondern auch in der Lage, visuelle Sprachmodelle und Sprachverarbeitungsmodelle anzugreifen. Indem sie beispielsweise Text zu einem Bild hinzufügten oder die Eigenschaften einer Audiodatei anpassten, umgingen die Forscher erfolgreich die Sicherheitsregeln dieser Systeme.

Ein Weckruf für KI-Sicherheit

Das Auftauchen der Best-of-N-Jailbreak-Methode ist ein Weckruf für die Sicherheit von KI-Systemen. Obwohl die BoN-Methode einfach erscheinen mag, zeigt ihr überraschend effektiver Angriff, dass der derzeitige Sicherheitsschutz von KI-Systemen angesichts nicht-traditioneller Bedrohungen immer noch sehr anfällig ist.

Die Forscher schlagen vor, dass KI-Entwickler ihre Sicherheit auf folgende Weise verbessern müssen:

Verbesserte Robustheit der EingabenDie Entwicklung strengerer Eingabevalidierungsmechanismen für zufällige Verformungen verringert die Wahrscheinlichkeit, dass das System umgangen wird.
Gemeinsamer multimodaler SchutzKombinieren Sie umfassende Text-, Bild- und Audioauswertungen, um die Gesamtsicherheit des Systems zu erhöhen.
Einführung fortschrittlicherer PrüfmechanismenAutomatische Erkennung potenziell bösartiger Eingaben mithilfe von Generative Adversarial Networks (GAN) oder anderen fortschrittlichen Techniken.

Schlussbemerkungen

Die Forschungsergebnisse der Best-of-N-Jailbreak-Methode erinnern uns daran, dass sich die Entwicklung der KI-Technologie nicht nur auf die Verbesserung der Leistung konzentrieren darf, sondern sich auch mit ihrer Sicherheit und Zuverlässigkeit auseinandersetzen muss. Nur durch die kontinuierliche Verbesserung von Sicherheitsschutzmechanismen können KI-Systeme wirklich sicher und zuverlässig für ein breites Spektrum von Anwendungen sein.

Best-of-N Jailbreak: ein einfaches zufälliges Morphen von Eingaben und wiederholte Versuche, Mainstream-KI-Systeme dazu zu bringen, Sicherheitsbeschränkungen zu durchbrechen und schädliche Reaktionen zu erzeugen

Grundprinzipien des BoN-Ansatzes

Angriffserfolg und Deckung

Ausmaß und Vorhersagbarkeit von Angriffen

Warum funktioniert der BoN-Ansatz?

Ein Weckruf für KI-Sicherheit

Schlussbemerkungen

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis