Best-of-N Jailbreak : un simple morphage aléatoire des entrées et des tentatives répétées pour amener les systèmes d'IA classiques à franchir les contraintes de sécurité afin de produire des réponses nuisibles.

Base de connaissances sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

9.1K 00

Ces dernières années, avec le développement rapide de l'IA générative (GAI) et des grands modèles de langage (LLM), les questions de leur sécurité et de leur fiabilité ont attiré beaucoup d'attention. Une étude récente a identifié un nouveau type d'IA appelé Jailbreak Best-of-N (BoN en abrégé) dans une méthode d'attaque simple mais efficace. En transformant de manière aléatoire le contenu d'entrée et en tentant à plusieurs reprises de le faire, les chercheurs ont réussi à contourner les restrictions de sécurité de plusieurs systèmes d'IA classiques, les forçant à générer un contenu nuisible ou inapproprié. Il est choquant de constater que le taux de réussite de cette méthode varie de 70% à 90%, ce qui met en évidence la grande vulnérabilité des mécanismes de sécurité actuels de l'IA.

Principes fondamentaux de l'approche BoN

L'idée centrale de la méthode Best-of-N jailbreak est de trouver progressivement des entrées qui peuvent franchir les contraintes de sécurité du système en effectuant de manière répétée de petites déformations sur les entrées (texte, images, audio) sans qu'il soit nécessaire de comprendre la structure interne du modèle d'intelligence artificielle. Ces déformations comprennent

saisie de texte Les caractères peuvent être changés de manière aléatoire, réorganisés ou ajoutés à des symboles, etc.
saisie d'images Les fonctions suivantes sont disponibles : changement d'arrière-plan, superposition de texte dans différentes polices.
entrée audio : Permet de régler la hauteur, la vitesse de lecture ou d'ajouter un bruit de fond.

Best-of-N 越狱法：对输入内容进行简单的随机变形并反复尝试，就能让主流 AI 系统突破安全限制产生有害回应

Ces déformations ne modifient pas la sémantique de base de l'entrée, mais peuvent dans certains cas déclencher une réponse incorrecte de la part du système d'IA. Grâce à des tentatives répétées, les chercheurs ont pu trouver une "morphologie optimale" qui a incité le modèle à générer un contenu qui violait les règles de sécurité.

Succès de l'attaque et couverture

L'équipe de recherche a testé plusieurs systèmes d'IA grand public en utilisant la méthodologie BoN, et les résultats ont montré que ces systèmes présentaient généralement un degré élevé de vulnérabilité à cette attaque simple. Exemple :

GPT-4 La déformation de l'entrée du 89% est capable de dépasser les limites de sécurité.
Claude 3.5 : L'attaque morphologique de 78% a réussi.
Autres systèmes généraux Les vulnérabilités sont similaires, bien que le taux de réussite exact varie d'un système à l'autre.

Le taux de réussite des attaques BoN est nettement plus élevé que celui des techniques traditionnelles de jailbreak par l'IA, grâce au caractère aléatoire et à l'évolutivité de la méthode. La méthode est particulièrement efficace dans les tâches d'IA générative, ce qui suggère que la conception de la sécurité des systèmes d'IA actuels n'est pas suffisamment robuste.

Ampleur et prévisibilité des attaques

L'étude montre également que le taux de réussite de l'attaque augmente selon une loi de puissance avec le nombre de tentatives (valeur N). Cela signifie qu'en augmentant le nombre d'échantillons ou la puissance de calcul, la méthode BoN est capable d'atteindre des taux de réussite plus élevés. Cette propriété permet aux chercheurs de prédire avec précision le taux de réussite et donc d'ajuster la stratégie d'attaque pour un modèle particulier. Exemple :

Pour le GPT-4, l'augmentation du nombre de tentatives pour 20% augmente le taux de réussite de 10%.
L'utilisation d'une combinaison d'attaques BoN et d'autres techniques permet d'augmenter encore le taux de réussite tout en réduisant le nombre d'échantillons et de tentatives nécessaires.

Cela montre que la méthode BoN n'est pas seulement efficace, mais qu'elle a aussi une bonne évolutivité pour réaliser des percées plus rapides et plus précises en combinant d'autres méthodes d'attaque.

Pourquoi l'approche BoN fonctionne-t-elle ?

Le chercheur a noté que le succès de l'approche BoN est largement dû aux éléments suivants :

La déformation des entrées perturbe le mécanisme d'évaluation de la sécurité du modèleLa plupart des systèmes d'intelligence artificielle s'appuient sur des caractéristiques ou des modèles spécifiques pour identifier les menaces potentielles. La déformation aléatoire du BoN corrompt ces caractéristiques, ce qui permet au système d'estimer plus facilement que les entrées sont sûres.
Nature boîte noire de l'interaction avec les modèlesLa BoN ne repose pas sur la connaissance des mécanismes internes du modèle d'IA et ne nécessite qu'une interaction externe avec le système pour mener à bien l'attaque. Cela la rend plus opérationnelle dans la pratique.
Applicabilité multimodaleLa méthode n'est pas seulement applicable à la saisie de texte, mais elle est également capable d'attaquer les modèles de langage visuel et les modèles de traitement de la parole. Par exemple, en ajoutant du texte à une image ou en ajustant les propriétés d'un fichier audio, les chercheurs ont réussi à contourner les règles de sécurité de ces systèmes.

Un signal d'alarme pour la sécurité de l'IA

L'émergence de la méthode Best-of-N jailbreak est un signal d'alarme pour la sécurité des systèmes d'intelligence artificielle. Bien que la méthode BoN puisse sembler simple, son attaque étonnamment efficace montre que la protection actuelle des systèmes d'IA est encore très vulnérable face aux menaces non traditionnelles.

Les chercheurs suggèrent que les développeurs d'IA doivent renforcer leur sécurité de la manière suivante :

Amélioration de la robustesse des entréesLa conception de mécanismes de validation des données plus stricts pour les déformations aléatoires réduit la probabilité que le système soit contourné.
Protection multimodale conjointeCombinez des évaluations textuelles, visuelles et sonores complètes pour renforcer la sécurité globale du système.
Introduction de mécanismes de test plus avancésIdentifier automatiquement les entrées potentiellement malveillantes à l'aide de réseaux adverbiaux génératifs (GAN) ou d'autres techniques avancées.

remarques finales

Les résultats de la recherche sur la méthode Best-of-N nous rappellent que le développement de la technologie de l'IA ne doit pas seulement se concentrer sur l'amélioration des performances, mais qu'il doit aussi se préoccuper de sa sécurité et de sa fiabilité. Ce n'est que par l'amélioration continue des mécanismes de protection de la sécurité que les systèmes d'IA pourront être véritablement sûrs et fiables pour un large éventail d'applications.