Anthropic lanza un clasificador de reglas: defensa eficaz contra los ataques a grandes modelos lingüísticos, ¡participa en las pruebas para obtener bonificaciones!

Con el rápido desarrollo de la tecnología de IA, los grandes modelos lingüísticos (LLM) están cambiando nuestras vidas a un ritmo sin precedentes. Sin embargo, los avances tecnológicos también han traído consigo nuevos retos: los LLM pueden ser maliciosamente explotados para filtrar información perjudicial o incluso ser utilizados para crear armas químicas, biológicas, radiológicas y nucleares (QBRN). Para contrarrestar estas amenazas, el equipo de investigación en seguridad de Anthropic ha ideado un innovador mecanismo de defensa: elClasificadores de reglas (clasificadores constitucionales)El objetivo de esta investigación es defenderse de los ataques de "jailbreak genérico" que burlan sistemáticamente la seguridad del modelo mediante el entrenamiento de clasificadores basados en reglas de lenguaje natural. El objetivo de esta investigación es defenderse de los ataques de "jailbreak genérico" que burlan sistemáticamente la seguridad del modelo mediante el entrenamiento de clasificadores basados en reglas de lenguaje natural.

--Clasificadores constitucionales: defensa contra ataques genéricos de fuga

Antrópico Equipo de investigación sobre salvaguardias Se ha publicado un nuevo documento describe un método para defender modelos de inteligencia artificial contra ataques genéricos de fuga de la cárcel. Una versión prototipo del método resultó robusta frente a los ataques genéricos de fuga de la cárcel en miles de horas de pruebas manuales del equipo rojo, aunque con una elevada tasa de rechazo excesivo y sobrecarga computacional. Una versión actualizada logra una robustez similar en evaluaciones sintéticas y aumenta la tasa de rechazo en sólo 0,38% con un aumento moderado del coste computacional.

El equipo de Anthropic alberga actualmente una versión demo temporal en línea del sistema de Clasificadores Constitucionales, y anima a los lectores con experiencia en jailbreaking de sistemas de IA a que ayuden al "equipo rojo a probarlo". Haga clic en Sitio de demostración Más información.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!

Actualización 5 de febrero de 2025: El equipo de Anthropic ofrece ahora una recompensa de 10.000 dólares a la primera persona que consiga demostrar los ocho niveles mediante jailbreak, y de 20.000 dólares a la primera persona que lo consiga utilizando una estrategia de jailbreak universal. Para más detalles sobre las recompensas y las condiciones asociadas, visite HackerOne.

 

Los grandes modelos lingüísticos se someten a un exhaustivo entrenamiento de seguridad para evitar resultados perjudiciales. Por ejemplo, Anthropic entrena Claude Negarse a responder a las consultas de los usuarios relacionadas con la producción de armas biológicas o químicas.

Sin embargo, el modelo sigue siendo vulnerable a jailbreak (un dispositivo iOS, etc.) Ataques: entradas diseñadas para burlar sus guardias de seguridad y forzar una respuesta dañina. Algunos ataques de jailbreak utilizan Peticiones multimuestra muy largas modelos de inundación; otros modifican Estilo de entrada Por ejemplo, en el caso de este inusual patrón de casos. Históricamente, los ataques de fuga de la cárcel han resultado difíciles de detectar y detener: tales ataques han sido Se ha descrito hace más de 10 años. Pero que Anthropic sepa, todavía no existen modelos de aprendizaje profundo totalmente robustos en entornos de producción.

Anthropic está desarrollando mejores defensas contra el jailbreak para poder desplegar con seguridad modelos cada vez más potentes en el futuro. De acuerdo con la Estrategia de Escalado Responsable de Anthropic, Anthropic puede desplegar tales modelos siempre que Anthropic sea capaz de mitigar el riesgo a un nivel aceptable con las medidas de seguridad adecuadas - pero los ataques de jailbreak permiten a los usuarios saltarse estas medidas de seguridad. En concreto, Anthropic espera que los sistemas defendidos por Clasificadores Constitucionales permitan a Anthropic mitigar el riesgo de jailbreaking de los modelos que hayan superado los umbrales de capacidad QBRN descritos en la Estrategia de Ampliación Responsable de Anthropic ^1^.

existe Nuevos artículos de Anthropic En él, Anthropic describe un sistema basado en la Clasificadores constitucionales de un sistema que protege los modelos de los ataques de jailbreak. Estos clasificadores constitucionales son clasificadores de entrada y salida entrenados con datos generados sintéticamente que filtran la gran mayoría de los ataques de fuga de la cárcel minimizando el rechazo excesivo y sin incurrir en una sobrecarga computacional significativa.

Resultados de las pruebas manuales del equipo rojo

Anthropic realizó dos tipos principales de pruebas para evaluar la eficacia de los Clasificadores Constitucionales.

En primer lugar, Anthropic desarrolló una versión prototipo del sistema para identificar y bloquear conocimientos científicos específicos relacionados con riesgos químicos, biológicos, radiológicos y nucleares. A continuación, Anthropic invitó a "jailbreakers" independientes a participar en un programa de recompensas por fallos, en el que se les pedía que "red-team test" el sistema (es decir, intentar crackear el sistema en condiciones experimentales para comprobar su robustez).

En concreto, se les dio una lista de diez consultas "prohibidas", y su tarea consistía en utilizar las técnicas de jailbreaking que quisieran para hacer que uno de los modelos actuales de Anthropic (en este caso Claude 3.5 Sonnet, junio de 2024) respondiera a todas ellas bajo la protección de la versión prototipo de Clasificadores Constitucionales. protección de la versión prototipo de Clasificadores Constitucionales, responda a todas las consultas. Esto sólo es posible si el modelo tiene un buen conocimiento de la propiedad Anthropic lo consideró un jailbreak "genérico" exitoso sólo cuando las consultas fueron respondidas en detalle.

Durante los dos meses que duró el experimento, 183 participantes ^2^ activos dedicaron unas 3.000 horas a intentar liberar el modelo. A pesar del esfuerzo, ninguno de los participantes fue capaz de inducir al modelo a responder a las diez consultas prohibidas con un solo jailbreak, es decir, no se encontró ningún jailbreak genérico.

Aunque este prototipo de sistema es robusto frente a los ataques de jailbreak, tiene algunos problemas: rechaza demasiadas consultas inofensivas y es caro de ejecutar. Un sistema con estos dos problemas podría ser más seguro, pero también podría no ser fácil de desplegar. Desde entonces, Anthropic ha mejorado su sistema para alcanzar un nivel similar de robustez reduciendo en gran medida estos problemas.

Resultados de las evaluaciones automatizadas

Anthropic llevó a cabo una serie de evaluaciones automatizadas en las que generó sintéticamente 10.000 pistas de fuga, incluyendo muchos de los ataques más eficaces contra el actual modelo de gran lenguaje, así como ataques diseñados para eludir las medidas de seguridad de los clasificadores. 3.5 Sonnet (octubre de 2024) protegida por Clasificadores Constitucionales, y en una versión de Claude no protegida por clasificadores.

En la condición de base, sin clasificadores defensivos, la tasa de éxito de jailbreak fue de 86% - es decir, Claude bloqueó por sí mismo sólo 14% de estos intentos avanzados de jailbreak. Sin embargo, proteger a Claude con clasificadores constitucionales produce una mejora significativa: la tasa de éxito de jailbreak cae a 4,4%, lo que significa que se rechazan más de 95% de intentos de jailbreak.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!
Figura 1: Resultados de las evaluaciones automatizadas. En todos los gráficos, cuanto más bajo es el valor, mejor. (a) la tasa de éxito de los jailbreaks es mucho menor en los sistemas protegidos con Clasificadores Constitucionales; (b) no hay un aumento estadísticamente significativo en la tasa de rechazo de los sistemas en producción Claude.ai Free y Pro cuando se utilizan Clasificadores Constitucionales; (c) el coste computacional relativo de los sistemas con Clasificadores Constitucionales es sólo moderadamente superior. (c) El coste computacional relativo del sistema es sólo moderadamente superior con Clasificadores Constitucionales. Las barras de error representan intervalos de confianza 95% calculados utilizando errores estándar proporcionales binomiales bajo el supuesto de normalidad asintótica.

Al mismo tiempo, los clasificadores constitucionales de Anthropic no aumentan sustancialmente la tasa de rechazo excesivo de consultas inocuas de los usuarios: hay un ligero aumento de la tasa de rechazo de Claude con los clasificadores (un aumento de 0,381 TP3T), pero no es estadísticamente significativo en una muestra aleatoria de 5.000 conversaciones. Por último, hay un aumento moderado del coste computacional (un aumento de 23,71 TP3T), que es superior al del modelo sin protección.Anthropic está trabajando para reducir aún más el rechazo y el coste computacional a medida que Anthropic mejora esta técnica.

En general, el análisis automatizado de Anthropic concluyó que esta versión actualizada del sistema de Clasificadores Constitucionales mejora significativamente la robustez de los modelos de IA frente a los ataques de jailbreak, y lo hace con un coste adicional mínimo.

Principio de funcionamiento

Clasificadores Constitucionales se basa en los mismos principios que IA constitucional En un proceso similar, la IA constitucional es otra técnica que utiliza Anthropic para alinear a Claude. Ambas técnicas utilizan una carta: una lista de principios a los que debe atenerse el modelo. En el caso de los clasificadores constitucionales, estos principios definen las categorías de contenido admisibles y no admisibles (por ejemplo, las recetas de mostaza son admisibles, pero las recetas de gas mostaza no lo son).

Con la ayuda de Claude, Anthropic utilizó esta carta para generar un gran número de pistas sintéticas y complementos de modelos sintéticos en todas las categorías de contenido.Anthropic amplió estas pistas y complementos para garantizar que las listas fueran diversas: esto incluyó traducirlas a diferentes idiomas y convertirlas para que estuvieran escritas en un estilo conocido de jailbreak.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!
Figura 2: Entrenamiento y aplicación de clasificadores constitucionales.(a) Se elaboran cartas para especificar categorías inofensivas y nocivas; (b) Las cartas se utilizan como base para generar un gran número de pistas y complementos sintéticos que se amplían (variaciones estilísticas y lingüísticas) y se transforman en un conjunto de entrenamiento; (c) Los clasificadores entrenados en este conjunto de entrenamiento se utilizan como modelo. de seguridad para detectar y bloquear contenidos nocivos.

A continuación, Anthropic utiliza estos datos sintéticos para entrenar a los clasificadores de entrada y salida de Anthropic para que marquen (y bloqueen) los contenidos potencialmente nocivos en función de una carta determinada. Para ayudar a minimizar el rechazo excesivo (es decir, etiquetar incorrectamente contenidos inofensivos como nocivos), Anthropic también entrena a los clasificadores con un conjunto fijo de consultas benignas generadas por los contratistas.

limitaciones

Es posible que los clasificadores constitucionales no puedan detener todos los jailbreak genéricos, pero Anthropic cree que incluso el pequeño número de ataques de jailbreak que consiguen superar los clasificadores de Anthropic requieren un mayor esfuerzo para detectarlos cuando se utilizan medidas de seguridad. También es posible que en el futuro se desarrollen nuevas técnicas de jailbreaking que sean efectivas en este sistema, por lo que Anthropic recomienda el uso de defensas complementarias. Sin embargo, la carta utilizada para entrenar el clasificador puede adaptarse rápidamente para cubrir nuevos tipos de ataques a medida que se descubran.

El documento completo contiene todos los detalles sobre el método de los Clasificadores Constitucionales y los propios clasificadores.

Demostración en línea de clasificadores constitucionales

¿Quieres probar Claude con el Equipo Rojo por ti mismo? Anthropic te invita a probar una demo del sistema protegido por Clasificadores Constitucionales de Anthropic y a probar a hacer jailbreak a la versión 3.5 Sonnet de Claude protegida por la nueva tecnología de Anthropic.

Aunque la tecnología de los Clasificadores Constitucionales es lo bastante flexible como para adaptarse a cualquier tema, Anthropic decidió centrar su presentación en las consultas relacionadas con las armas químicas.

Desafiar a los usuarios a que intenten hacer jailbreak a los productos de Anthropic tiene un importante objetivo de seguridad: Anthropic quería poner a prueba los sistemas de Anthropic en condiciones reales, más allá del alcance de las pruebas que Anthropic realizó para el artículo. Esto permite a Anthropic recopilar más datos y mejorar la solidez del método antes de desplegarlo en los sistemas de producción de Anthropic en el futuro.

manifestaciones se publicará en 3 de febrero de 2025 hasta 10 de febrero de 2025 Anthropic la pondrá a disposición de los participantes en línea durante todo el Jailbreak. Incluye un formulario en el que se puede contactar con Anthropic para informar de cualquier jailbreak realizado con éxito, así como información sobre la Política de Divulgación Responsable de Anthropic, que Anthropic exige a los participantes.

Actualización 5 de febrero de 2025: Como ya se ha mencionado, Anthropic ofrece ahora una recompensa económica por conseguir el jailbreak del sistema Anthropic. La primera persona que supere los ocho niveles de la demo del jailbreak ganará 10.000 USD. La primera persona que supere los ocho niveles utilizando la estrategia genérica de jailbreak ganará 20.000 USD. Para conocer todos los detalles sobre las recompensas y las condiciones asociadas, visite HackerOne.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...