AI Personal Learning
und praktische Anleitung

Best-of-N Jailbreak: ein einfaches zufälliges Morphen von Eingaben und wiederholte Versuche, Mainstream-KI-Systeme dazu zu bringen, Sicherheitsbeschränkungen zu durchbrechen und schädliche Reaktionen zu erzeugen

In den letzten Jahren hat die rasante Entwicklung der generativen KI (GAI) und der großen Sprachmodelle (LLM) dazu geführt, dass die Fragen ihrer Sicherheit und Zuverlässigkeit viel Aufmerksamkeit auf sich gezogen haben. Eine kürzlich durchgeführte Studie hat eine neue Art von KI namens Best-of-N Jailbreak (kurz: BoN) in einer einfachen, aber effizienten Angriffsmethode. Indem sie den Eingabeinhalt nach dem Zufallsprinzip veränderten und dies wiederholt versuchten, umgingen die Forscher erfolgreich die Sicherheitsbeschränkungen mehrerer gängiger KI-Systeme und zwangen sie dazu, schädliche oder unangemessene Inhalte zu erzeugen. Schockierenderweise liegt die Erfolgsquote dieser Methode zwischen 70% und 90%, was die erhebliche Anfälligkeit der derzeitigen KI-Sicherheitsmechanismen offenbart.

 

Grundprinzipien des BoN-Ansatzes

Die Kernidee der Best-of-N-Jailbreak-Methode besteht darin, nach und nach Eingaben zu finden, die die Sicherheitseinschränkungen des Systems durchbrechen können, indem wiederholt kleine Verformungen an den Eingaben (Text, Bilder, Audio) vorgenommen werden, ohne dass die interne Struktur des KI-Modells verstanden werden muss. Diese Verformungen umfassen:

  • Texteingabe Groß- und Kleinschreibung willkürlich ändern, Zeichen neu anordnen oder Symbole hinzufügen, usw.
  • Bildeingabe Ändern Sie Hintergründe, überlagern Sie Text in verschiedenen Schriftarten.
  • Audioeingang Passt die Tonhöhe und die Wiedergabegeschwindigkeit an oder fügt Hintergrundgeräusche hinzu.


Diese Verformungen ändern nicht die Kernsemantik der Eingabe, können aber in einigen Fällen eine falsche Reaktion des KI-Systems auslösen. Durch wiederholte Versuche gelang es den Forschern, eine "optimale Morph"-Eingabe zu finden, die das Modell dazu veranlasste, Inhalte zu erzeugen, die gegen die Sicherheitsvorschriften verstießen.

Angriffserfolg und Deckung

Das Forschungsteam testete mehrere gängige KI-Systeme mit der BoN-Methode, und die Ergebnisse zeigten, dass diese Systeme im Allgemeinen ein hohes Maß an Anfälligkeit für diesen einfachen Angriff aufwiesen. Beispiel:

  • GPT-4 Die Eingangsverformung des 89% ist in der Lage, seine Sicherheitsgrenzen zu überschreiten.
  • Claude 3.5 Der Morph-Angriff von 78% war erfolgreich.
  • Andere gängige Systeme Ähnliche Schwachstellen werden festgestellt, obwohl die genaue Erfolgsquote von System zu System variiert.

Die Erfolgsquote von BoN-Angriffen ist dank ihrer Zufälligkeit und Skalierbarkeit deutlich höher als bei herkömmlichen KI-Jailbreak-Techniken. Die Methode ist besonders effektiv bei generativen KI-Aufgaben, was darauf hindeutet, dass das Sicherheitsdesign aktueller KI-Systeme nicht ausreichend robust ist.

 

Ausmaß und Vorhersagbarkeit von Angriffen

Die Studie zeigt auch, dass die Angriffserfolgsrate mit der Anzahl der Versuche (N-Wert) potenzgesetzlich ansteigt. Das bedeutet, dass die BoN-Methode mit zunehmender Anzahl von Stichproben oder Rechenleistung höhere Angriffserfolgsquoten erzielen kann. Diese Eigenschaft ermöglicht es den Forschern, genaue Vorhersagen über die Erfolgsrate zu treffen und somit die Angriffsstrategie für ein bestimmtes Modell anzupassen. Beispiel:

  • Bei GPT-4 erhöht sich die Erfolgsquote um 10%, wenn man die Anzahl der Versuche auf 20% erhöht.
  • Durch eine Kombination von BoN-Angriffen und anderen Techniken wird die Erfolgsquote weiter erhöht und gleichzeitig die Anzahl der erforderlichen Proben und Versuche reduziert.

Dies zeigt, dass die BoN-Methode nicht nur effizient ist, sondern auch eine gute Skalierbarkeit aufweist, um durch die Kombination mit anderen Angriffsmethoden schnellere und genauere Durchbrüche zu erzielen.

 

Warum funktioniert der BoN-Ansatz?

Der Forscher stellte fest, dass der Erfolg des BoN-Ansatzes vor allem auf Folgendes zurückzuführen ist:

  1. Die Eingangsverformung stört den Sicherheitsbewertungsmechanismus des Modells

    Die meisten KI-Systeme verlassen sich auf bestimmte Merkmale oder Muster von Eingaben, um potenzielle Bedrohungen zu erkennen. Die zufällige Verformung des BoN verfälscht diese Merkmale, so dass das System Eingaben leichter als sicher einstufen kann.

  2. Blackbox-Charakter der Interaktion mit Modellen

    BoN ist nicht auf die Kenntnis der internen Mechanismen des KI-Modells angewiesen und erfordert nur eine externe Interaktion mit dem System, um den Angriff auszuführen. Dadurch ist es in der Praxis besser einsetzbar.

  3. Modalübergreifende Anwendbarkeit

    Die Methode ist nicht nur auf Texteingaben anwendbar, sondern auch in der Lage, visuelle Sprachmodelle und Sprachverarbeitungsmodelle anzugreifen. Indem sie beispielsweise Text zu einem Bild hinzufügten oder die Eigenschaften einer Audiodatei anpassten, umgingen die Forscher erfolgreich die Sicherheitsregeln dieser Systeme.

Ein Weckruf für KI-Sicherheit

Das Auftauchen der Best-of-N-Jailbreak-Methode ist ein Weckruf für die Sicherheit von KI-Systemen. Obwohl die BoN-Methode einfach erscheinen mag, zeigt ihr überraschend effektiver Angriff, dass der derzeitige Sicherheitsschutz von KI-Systemen angesichts nicht-traditioneller Bedrohungen immer noch sehr anfällig ist.

Die Forscher schlagen vor, dass KI-Entwickler ihre Sicherheit auf folgende Weise verbessern müssen:

  1. Verbesserte Robustheit der Eingaben

    Die Entwicklung strengerer Eingabevalidierungsmechanismen für zufällige Verformungen verringert die Wahrscheinlichkeit, dass das System umgangen wird.

  2. Gemeinsamer multimodaler Schutz

    Kombinieren Sie umfassende Text-, Bild- und Audioauswertungen, um die Gesamtsicherheit des Systems zu erhöhen.

  3. Einführung fortschrittlicherer Prüfmechanismen

    Automatische Erkennung potenziell bösartiger Eingaben mithilfe von Generative Adversarial Networks (GAN) oder anderen fortschrittlichen Techniken.

 

Schlussbemerkungen

Die Forschungsergebnisse der Best-of-N-Jailbreak-Methode erinnern uns daran, dass sich die Entwicklung der KI-Technologie nicht nur auf die Verbesserung der Leistung konzentrieren darf, sondern sich auch mit ihrer Sicherheit und Zuverlässigkeit auseinandersetzen muss. Nur durch die kontinuierliche Verbesserung von Sicherheitsschutzmechanismen können KI-Systeme wirklich sicher und zuverlässig für ein breites Spektrum von Anwendungen sein.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Best-of-N Jailbreak: ein einfaches zufälliges Morphen von Eingaben und wiederholte Versuche, Mainstream-KI-Systeme dazu zu bringen, Sicherheitsbeschränkungen zu durchbrechen und schädliche Reaktionen zu erzeugen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)