Anthropic Releases Rule Classifier : une défense efficace contre les attaques de type "Jailbreak" sur les grands modèles de langage, participez aux tests pour obtenir des bonus !

Avec le développement rapide de la technologie de l'IA, les grands modèles de langage (LLM) changent nos vies à un rythme sans précédent. Cependant, les progrès technologiques ont également engendré de nouveaux défis : les LLM peuvent être exploités de manière malveillante pour divulguer des informations nuisibles ou même être utilisés pour créer des armes chimiques, biologiques, radiologiques et nucléaires (CBRN). Pour contrer ces menaces, l'équipe de recherche sur la sécurité d'Anthropic a mis au point un mécanisme de défense innovant, leClassificateurs de règles (Classificateurs constitutionnels)Cette recherche vise à se défendre contre les attaques de type "generic jailbreak" qui contournent systématiquement la sécurité du modèle en formant des classificateurs basés sur des règles de langage naturel. Cette recherche vise à se défendre contre les attaques de type "generic jailbreak" qui contournent systématiquement la sécurité du modèle en formant des classificateurs basés sur des règles de langage naturel.

--Classificateurs constitutionnels : défense contre les attaques génériques de type "jailbreak".

Anthropique Équipe de recherche sur les garanties Un nouveau document a été publié Le présent article décrit une méthode de défense des modèles d'intelligence artificielle contre les attaques génériques de type "jailbreak". Une version prototype de la méthode s'est avérée robuste face aux attaques génériques de type "jailbreak" lors de milliers d'heures de tests manuels de l'équipe rouge, bien qu'avec un taux de rejet excessif et un surcoût de calcul élevés. Une version mise à jour atteint une robustesse similaire dans les évaluations synthétiques et augmente le taux de rejet de seulement 0,38% avec une augmentation modérée du coût de calcul.

L'équipe Anthropic héberge actuellement une version temporaire de démonstration en ligne du système des Classificateurs constitutionnels, et encourage les lecteurs ayant de l'expérience dans le jailbreak de systèmes d'IA à l'aider à le "tester en équipe rouge". Veuillez cliquer sur Site de démonstration En savoir plus.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!

Mise à jour du 5 février 2025 : L'équipe d'Anthropic offre désormais une récompense de 10 000 $ pour la première personne à faire la démo des huit niveaux via un jailbreak, et une récompense de 20 000 $ pour la première personne à le faire en utilisant une stratégie de jailbreak universelle. Pour plus de détails sur les récompenses et les conditions associées, veuillez consulter le site suivant HackerOne.

 

Les grands modèles de langage font l'objet d'une formation approfondie en matière de sécurité afin d'éviter les résultats nuisibles. Par exemple, Anthropic trains Claude Refuser de répondre aux demandes des utilisateurs concernant la production d'armes biologiques ou chimiques.

Cependant, le modèle reste vulnérable aux jailbreak (un appareil iOS, etc.) Attaques : entrées conçues pour contourner ses gardes de sécurité et forcer une réponse nuisible. Certaines attaques de type "jailbreak" utilisent Embouts multi-échantillons très longs modèles d'inondation ; d'autres modifient Style d'entrée Les attaques de type "jailbreak" ont toujours été difficiles à détecter et à stopper : elles sont en effet difficiles à détecter et à stopper. Historiquement, les attaques de type "jailbreak" se sont révélées difficiles à détecter et à stopper : elles ont été Elle a été décrite il y a plus de 10 ans. Mais à la connaissance d'Anthropic, il n'existe pas encore de modèles d'apprentissage profond totalement robustes dans les environnements de production.

Anthropic développe de meilleures défenses contre le jailbreak afin que des modèles de plus en plus puissants puissent être déployés en toute sécurité à l'avenir. Conformément à la stratégie de développement responsable d'Anthropic, Anthropic peut déployer de tels modèles tant qu'elle est en mesure de réduire le risque à un niveau acceptable grâce à des mesures de sécurité appropriées. En particulier, Anthropic s'attend à ce que les systèmes défendus par les classificateurs constitutionnels lui permettent d'atténuer le risque de jailbreak des modèles qui ont dépassé les seuils de capacité CBRN décrits dans la stratégie d'extension responsable d'Anthropic ^1^.

existent Nouveaux articles d'Anthropic Dans ce document, Anthropic décrit un système basé sur les principes suivants Classificateurs constitutionnels d'un système qui protège les modèles contre les attaques de type "jailbreak". Ces classificateurs constitutionnels sont des classificateurs d'entrée et de sortie formés sur des données générées synthétiquement qui filtrent la grande majorité des attaques de jailbreak tout en minimisant le sur-rejet et sans encourir de surcharge de calcul significative.

Résultats des tests manuels de l'équipe rouge

Anthropic a mené deux types de tests principaux pour évaluer l'efficacité des classificateurs constitutionnels.

Anthropic a d'abord développé une version prototype du système pour identifier et bloquer des connaissances scientifiques spécifiques liées aux risques chimiques, biologiques, radiologiques et nucléaires. Anthropic a ensuite invité des "jailbreakers" indépendants à participer à un programme de "bug bounty", dans le cadre duquel il leur était demandé de "red-team test" le système (c'est-à-dire d'essayer de cracker le système dans des conditions expérimentales afin de tester sa robustesse).

Plus précisément, on leur a donné une liste de dix requêtes "interdites", et leur tâche consistait à utiliser toutes les techniques de jailbreaking qu'ils souhaitaient pour que l'un des modèles actuels d'Anthropic (en l'occurrence Claude 3.5 Sonnet, juin 2024) réponde à toutes ces requêtes sous la protection de la version prototype des Classificateurs constitutionnels. Le modèle, sous la protection de la version prototype des Classificateurs constitutionnels, répondra à toutes les questions. Ceci n'est possible que si le modèle a une bonne compréhension de l'environnement. propriété Anthropic a considéré qu'il s'agissait d'un jailbreak "générique" réussi uniquement lorsque les questions ont été répondues en détail.

Au cours de l'expérience de deux mois, 183 participants actifs ^2^ ont passé environ plus de 3 000 heures à essayer de pirater le modèle. S'ils trouvaient un jailbreak générique, ils recevaient une récompense monétaire pouvant aller jusqu'à 15 000 dollars. Malgré les efforts déployés, aucun des participants n'a été en mesure d'inciter le modèle à répondre aux dix requêtes interdites avec un seul jailbreak - c'est-à-dire qu'aucun jailbreak générique n'a été trouvé.

Bien que ce prototype soit résistant aux attaques de type "jailbreak", il présente certains problèmes : il rejette trop de requêtes inoffensives et son fonctionnement est coûteux. Un système présentant ces deux problèmes pourrait être plus sûr, mais il pourrait aussi ne pas être facile à déployer. Depuis, Anthropic a amélioré son système pour atteindre un niveau de robustesse similaire tout en réduisant considérablement ces problèmes.

Résultats des évaluations automatisées

Anthropic a effectué une série d'évaluations automatisées dans lesquelles Anthropic a généré synthétiquement 10 000 indices de jailbreak, y compris un grand nombre des attaques les plus efficaces contre le grand modèle de langage actuel, ainsi que des attaques conçues pour contourner les mesures de sécurité des classificateurs.Anthropic a essayé ces indices sur la version de Claude 3.5 Sonnet (octobre 2024) protégée par les classificateurs constitutionnels, et sur une version de Claude non protégée par les classificateurs.

Dans la condition de base, sans classificateurs défensifs, le taux de réussite de l'évasion était de 86% - c'est-à-dire que Claude lui-même n'a bloqué que 14% de ces tentatives avancées d'évasion. Cependant, la protection de Claude par des classificateurs constitutionnels produit une amélioration significative : le taux de réussite des tentatives d'évasion tombe à 4,4%, ce qui signifie que plus de 95% des tentatives d'évasion sont rejetées.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!
Figure 1 : Résultats des évaluations automatisées. Pour tous les graphiques, plus la valeur est faible, mieux c'est. (a) le taux de réussite des jailbreaks est beaucoup plus faible sur les systèmes protégés par les classificateurs constitutionnels ; (b) il n'y a pas d'augmentation statistiquement significative du taux de rejet des systèmes sur le trafic de production Claude.ai Free et Pro lors de l'utilisation des classificateurs constitutionnels ; (c) le coût de calcul relatif des systèmes utilisant les classificateurs constitutionnels n'est que modérément plus élevé. (c) Le coût de calcul relatif du système n'est que modérément plus élevé avec les classificateurs constitutionnels. Les barres d'erreur représentent des intervalles de confiance 95% calculés à l'aide d'erreurs standard proportionnelles binomiales sous l'hypothèse de normalité asymptotique.

En même temps, les classificateurs constitutionnels d'Anthropic n'augmentent pas substantiellement le taux de rejet excessif des requêtes inoffensives des utilisateurs : il y a une légère augmentation du taux de rejet de Claude avec les classificateurs (une augmentation de 0,381 TP3T), mais ce n'est pas statistiquement significatif dans un échantillon aléatoire de 5 000 conversations. Enfin, il y a une augmentation modérée du coût de calcul (une augmentation de 23,71 TP3T), ce qui est plus élevé que le modèle non protégé. Anthropic travaille à réduire davantage le rejet et le coût de calcul au fur et à mesure qu'Anthropic améliore cette technique.

Dans l'ensemble, l'analyse automatisée d'Anthropic a révélé que cette version actualisée du système Constitutional Classifiers améliore considérablement la robustesse des modèles d'IA face aux attaques de jailbreak, et ce pour un coût supplémentaire minime.

Principe de fonctionnement

Constitutional Classifiers est basé sur les mêmes principes que IA constitutionnelle Dans un processus similaire, l'IA constitutionnelle est une autre technique utilisée par Anthropic pour aligner Claude. Les deux techniques utilisent une charte : une liste de principes auxquels le modèle doit adhérer. Dans le cas des classificateurs constitutionnels, ces principes définissent les catégories de contenu autorisées et non autorisées (par exemple, les recettes de moutarde sont autorisées, mais les recettes de gaz moutarde ne le sont pas).

Avec l'aide de Claude, Anthropic a utilisé cette charte pour générer un grand nombre d'indices synthétiques et de compléments de modèles synthétiques dans toutes les catégories de contenu. Anthropic a enrichi ces indices et compléments pour s'assurer que les listes étaient diversifiées : cela comprenait leur traduction dans différentes langues et leur conversion pour qu'ils soient rédigés dans un style connu de jailbreak.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!
Figure 2 : Formation et mise en œuvre de classificateurs constitutionnels. (a) Des chartes sont élaborées pour spécifier les catégories inoffensives et nuisibles ; (b) Les chartes sont utilisées comme base pour générer un grand nombre d'indices et de compléments synthétiques qui sont ensuite développés (variations stylistiques et linguistiques) et transformés en un ensemble de formation ; (c) Les classificateurs formés sur cet ensemble de formation sont utilisés comme modèle pour la détection et le blocage des contenus nuisibles. des mesures de sécurité pour détecter et bloquer les contenus nuisibles.

Anthropic utilise ensuite ces données synthétiques pour entraîner les classificateurs d'entrée et de sortie d'Anthropic à signaler (et à bloquer) les contenus potentiellement nuisibles sur la base d'une charte donnée. Afin de minimiser les rejets excessifs (c'est-à-dire l'étiquetage incorrect d'un contenu inoffensif comme étant nuisible), Anthropic entraîne également les classificateurs sur un ensemble fixe de requêtes bénignes générées par les contractants.

limitations

Les classificateurs constitutionnels peuvent ne pas être en mesure d'arrêter tous les jailbreaks génériques, mais Anthropic estime que même le petit nombre d'attaques de jailbreak qui parviennent à passer les classificateurs d'Anthropic nécessiteront plus d'efforts pour être détectées lorsque des mesures de sécurité sont utilisées. Il est également possible que de nouvelles techniques de jailbreak soient développées à l'avenir et qu'elles soient efficaces sur ce système ; Anthropic recommande donc l'utilisation de défenses complémentaires. Cependant, la charte utilisée pour entraîner le classificateur peut être rapidement adaptée pour couvrir de nouveaux types d'attaques au fur et à mesure de leur découverte.

L'article complet contient tous les détails de la méthode des classificateurs constitutionnels et des classificateurs eux-mêmes.

Démonstration en ligne des classificateurs constitutionnels

Anthropic vous invite à tester une démo du système protégé par les Classificateurs Constitutionnels d'Anthropic et à essayer de jailbreaker la version 3.5 Sonnet de Claude protégée par la nouvelle technologie d'Anthropic.

Bien que la technologie de Constitutional Classifiers soit suffisamment flexible pour s'adapter à n'importe quel sujet, Anthropic a choisi de concentrer sa présentation sur les requêtes liées aux armes chimiques.

Le fait de mettre les utilisateurs au défi de tenter de jailbreaker les produits d'Anthropic répond à un objectif de sécurité important : Anthropic souhaitait tester les systèmes d'Anthropic dans des conditions réelles, au-delà de la portée des tests effectués par Anthropic dans le cadre de l'article. Cela permet à Anthropic de collecter plus de données et d'améliorer la robustesse de la méthode avant de la déployer sur les systèmes de production d'Anthropic à l'avenir.

démonstrations sera publié dans 3 février 2025 jusqu'à 10 février 2025 Anthropic le mettra en ligne pendant toute la durée du Jailbreak. Il comprend un formulaire de feedback permettant de contacter Anthropic pour signaler tout jailbreak réussi, ainsi que des informations sur la politique de divulgation responsable d'Anthropic, à laquelle Anthropic demande aux participants d'adhérer.

Mise à jour 5 février 2025 : Comme mentionné ci-dessus, Anthropic offre maintenant une récompense monétaire pour avoir réussi à jailbreaker le système Anthropic. La première personne à passer les huit niveaux de la démo de jailbreak gagnera 10 000 USD. La première personne à passer les huit niveaux en utilisant la stratégie générique de jailbreak gagnera 20 000 USD. Pour plus de détails sur les récompenses et les conditions associées, visitez le site HackerOne.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...