Anthropic lança classificador de regras: defesa eficaz contra ataques de Jailbreak em grandes modelos de linguagem, participe de testes para ganhar bônus! -Círculo de Compartilhamento de IA Principal

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Com o rápido desenvolvimento da tecnologia de IA, os modelos de linguagem ampla (LLMs) estão mudando nossas vidas em um ritmo sem precedentes. No entanto, os avanços tecnológicos também trouxeram novos desafios: os LLMs podem ser explorados de forma maliciosa para vazar informações prejudiciais ou até mesmo ser usados para criar armas químicas, biológicas, radiológicas e nucleares (CBRN). Para combater essas ameaças, a equipe de pesquisa de segurança da Anthropic criou um mecanismo de defesa inovador - oClassificadores de regras (Classificadores constitucionais)Esta pesquisa tem como objetivo a defesa contra ataques de "jailbreak genérico" que sistematicamente contornam a segurança do modelo por meio do treinamento de classificadores com base em regras de linguagem natural. Esta pesquisa tem como objetivo a defesa contra ataques "genéricos de jailbreak" que sistematicamente contornam a segurança do modelo por meio do treinamento de classificadores com base em regras de linguagem natural.

--Classificadores constitucionais: defesa contra ataques genéricos de jailbreak

Antrópica Equipe de pesquisa de salvaguardas Um novo documento foi publicado O livro "A história da inteligência artificial", de autoria de J. K., descreve um método para defender modelos de IA contra ataques genéricos de jailbreak. Uma versão protótipo do método foi resistente a ataques genéricos de jailbreak em milhares de horas de testes manuais da equipe vermelha, embora com uma alta taxa de rejeição excessiva e sobrecarga computacional. Uma versão atualizada alcança robustez semelhante em avaliações sintéticas e aumenta a taxa de rejeição em apenas 0,38% com um aumento moderado no custo computacional.

No momento, a equipe do Anthropic está hospedando uma versão de demonstração on-line temporária do sistema de Classificadores Constitucionais e incentiva os leitores com experiência em sistemas de IA com jailbreak a ajudar a "testar a equipe vermelha". Clique aqui Site de demonstração Saiba mais.

Classificador de regras de liberações antrópicas: defesa eficaz contra ataques de jailbreak em modelos de idiomas grandes, com experiência de endereço-1

Atualização em 5 de fevereiro de 2025: A equipe do Anthropic agora está oferecendo uma recompensa de US$ 10.000 para a primeira pessoa a demonstrar todos os oito níveis por meio de um jailbreak e uma recompensa de US$ 20.000 para a primeira pessoa a fazer isso usando uma estratégia universal de jailbreak. Para obter detalhes completos sobre as recompensas e as condições associadas, visite HackerOne.

Os grandes modelos de linguagem passam por um extenso treinamento de segurança para evitar resultados prejudiciais. Por exemplo, os trens Anthropic Claude Recusar-se a responder a consultas de usuários que envolvam a produção de armas biológicas ou químicas.

No entanto, o modelo continua vulnerável a jailbreak (um dispositivo iOS, etc.) Ataques: entradas projetadas para contornar suas proteções de segurança e forçar uma resposta prejudicial. Alguns ataques de jailbreak usam Pontas muito longas para várias amostras modelos de inundação; outros modificam Estilo de entrada Por exemplo, ao usar o padrão de caso incomum. Historicamente, os ataques de jailbreak têm se mostrado difíceis de detectar e impedir: tais ataques têm sido Isso foi descrito há mais de 10 anos. Mas, até onde a Anthropic sabe, ainda não existem modelos de aprendizagem profunda totalmente robustos em ambientes de produção.

A Anthropic está desenvolvendo melhores defesas contra jailbreak para que modelos cada vez mais poderosos possam ser implantados com segurança no futuro. De acordo com a Estratégia de Escalonamento Responsável da Anthropic, a Anthropic pode implantar esses modelos desde que seja capaz de mitigar o risco a um nível aceitável com medidas de segurança apropriadas - mas os ataques de jailbreak permitem que os usuários contornem essas medidas de segurança. Em particular, a Anthropic espera que os sistemas defendidos pelos Classificadores Constitucionais permitam que a Anthropic mitigue o risco de modelos com jailbreak que tenham ultrapassado os limites de capacidade CBRN descritos na Estratégia de Extensão Responsável da Anthropic ^1^.

existir Novos artigos da Anthropic Nele, o Anthropic descreve um sistema baseado na Classificadores constitucionais de um sistema que protege os modelos contra ataques de jailbreak. Esses Classificadores Constitucionais são classificadores de entrada e saída treinados em dados gerados sinteticamente que filtram a grande maioria dos ataques de jailbreak, minimizando a rejeição excessiva e sem incorrer em uma sobrecarga computacional significativa.

Resultados dos testes manuais da equipe vermelha

A Anthropic realizou dois tipos principais de testes para avaliar a eficácia dos Classificadores Constitucionais.

Primeiro, a Anthropic desenvolveu uma versão protótipo do sistema para identificar e bloquear conhecimentos científicos específicos relacionados a riscos químicos, biológicos, radiológicos e nucleares. Em seguida, a Anthropic convidou os jailbreakers independentes a participar de um programa de recompensa por bugs, no qual eles foram solicitados a "testar o sistema com a equipe vermelha" (ou seja, tentar decifrar o sistema em condições experimentais para testar sua robustez).

Especificamente, eles receberam uma lista de dez consultas "proibidas", e sua tarefa era usar as técnicas de jailbreak que quisessem para fazer com que um dos modelos atuais do Anthropic (neste caso, o Claude 3.5 Sonnet, junho de 2024) respondesse a todas elas sob a proteção da versão protótipo dos Classificadores Constitucionais. O modelo atual do Anthropic (neste caso, Claude 3.5 Sonnet, June 2024) responde a todas elas sob a proteção da versão protótipo dos Classificadores Constitucionais. Isso só é possível se o modelo tiver um bom entendimento da propriedade A Anthropic considerou um jailbreak "genérico" bem-sucedido somente quando as perguntas foram respondidas em detalhes.

Durante o experimento de dois meses, 183 participantes ativos ^2^ passaram cerca de mais de 3.000 horas tentando desbloquear o modelo. Apesar do esforço, nenhum dos participantes conseguiu induzir o modelo a responder a todas as dez consultas proibidas com um único jailbreak, ou seja, nenhum jailbreak genérico foi encontrado.

Embora esse protótipo de sistema seja robusto contra ataques de jailbreak, ele tem alguns problemas: rejeita muitas consultas inofensivas e sua execução é cara. Um sistema com esses dois problemas pode ser mais seguro, mas também pode não ser fácil de implantar. Desde então, o Anthropic aprimorou o sistema Anthropic para atingir um nível semelhante de robustez e, ao mesmo tempo, reduzir bastante esses problemas.

Resultados de avaliações automatizadas

A Anthropic executou um conjunto de avaliações automatizadas nas quais gerou sinteticamente 10.000 dicas de jailbreak, incluindo muitos dos ataques que são mais eficazes contra o atual modelo de linguagem grande, bem como ataques projetados para contornar as medidas de segurança do classificador. 3.5 Sonnet (outubro de 2024) protegida por Classificadores Constitucionais e em uma versão do Claude não protegida por classificadores.

Na condição de linha de base, sem classificadores defensivos, a taxa de sucesso de jailbreak foi de 86% - ou seja, o próprio Claude bloqueou apenas 14% dessas tentativas avançadas de jailbreak. Entretanto, proteger o Claude com Classificadores Constitucionais produz uma melhoria significativa: a taxa de sucesso do jailbreak cai para 4,4%, o que significa que mais de 95% das tentativas de jailbreak são rejeitadas.

Classificador de regra de liberação antrópica: defesa eficaz contra ataques de jailbreak em modelos de linguagem grandes, participe de testes para ganhar bônus! -1
Figura 1: Resultados das avaliações automatizadas. Em todos os gráficos, quanto menor o valor, melhor. (a) a taxa de sucesso de jailbreaks é muito menor em sistemas protegidos por Classificadores Constitucionais; (b) não há aumento estatisticamente significativo na taxa de rejeição de sistemas no tráfego de produção do Claude.ai Free e Pro ao usar Classificadores Constitucionais; (c) o custo computacional relativo de sistemas com Classificadores Constitucionais é apenas moderadamente maior. (c) O custo computacional relativo do sistema é apenas moderadamente maior com Classificadores Constitucionais. As barras de erro representam intervalos de confiança calculados usando erros padrão proporcionais binomiais sob a suposição de normalidade assintótica.

Ao mesmo tempo, os Classificadores Constitucionais da Anthropic não aumentam substancialmente a taxa de rejeição excessiva de consultas inócuas do usuário: há um pequeno aumento na taxa de rejeição de Claude com os classificadores (um aumento de 0,381 TP3T), mas isso não é estatisticamente significativo em uma amostra aleatória de 5.000 conversas. Finalmente, há um aumento moderado no custo computacional (um aumento de 23,71 TP3T), que é maior do que o modelo desprotegido. A Anthropic está trabalhando para reduzir ainda mais a rejeição e o custo computacional à medida que aprimora essa técnica.

De modo geral, a análise automatizada da Anthropic constatou que essa versão atualizada do sistema Constitutional Classifiers melhora significativamente a robustez dos modelos de IA contra ataques de jailbreak - e faz isso com um custo adicional mínimo.

Princípio de funcionamento

O Constitutional Classifiers se baseia nos mesmos princípios que o IA constitucional Em um processo semelhante, a IA Constitucional é outra técnica que a Anthropic usa para alinhar a Claude. Ambas as técnicas usam uma carta: uma lista de princípios aos quais o modelo deve aderir. No caso dos Classificadores Constitucionais, esses princípios definem categorias de conteúdo permitidas e não permitidas (por exemplo, receitas de mostarda são permitidas, mas receitas de gás mostarda não são).

Com a ajuda de Claude, a Anthropic usou essa carta para gerar um grande número de dicas sintéticas e complementos de modelos sintéticos em todas as categorias de conteúdo. A Anthropic expandiu essas dicas e complementos para garantir que as listas fossem diversas: isso incluiu traduzi-las para diferentes idiomas e convertê-las para serem escritas em um estilo conhecido de jailbreak.

Classificador de regra de liberação antrópica: defesa eficaz contra ataques de jailbreak em modelos de linguagem grandes, participe de testes para ganhar bônus! -1
Figura 2: Treinamento e implementação de Classificadores Constitucionais.(a) As Cartas são desenvolvidas para especificar categorias inofensivas e prejudiciais; (b) As Cartas são usadas como base para gerar um grande número de dicas e complementos sintéticos que são expandidos (variações estilísticas e linguísticas) e transformados em um conjunto de treinamento; (c) Os classificadores treinados nesse conjunto de treinamento são usados como modelo medidas de segurança para detectar e bloquear conteúdo nocivo.

Em seguida, o Anthropic usa esses dados sintéticos para treinar os classificadores de entrada e saída do Anthropic para sinalizar (e bloquear) conteúdo potencialmente prejudicial com base em uma determinada carta. Para ajudar a minimizar a rejeição excessiva (ou seja, rotular incorretamente o conteúdo inofensivo como prejudicial), o Anthropic também treina os classificadores em um conjunto fixo de consultas benignas geradas pelos contratados.

limitações

Os Classificadores Constitucionais podem não ser capazes de impedir todo jailbreak genérico, mas a Anthropic acredita que mesmo o pequeno número de ataques de jailbreak que passam pelos classificadores da Anthropic exige mais esforço para detectar quando as medidas de segurança são usadas. Também é possível que, no futuro, sejam desenvolvidas novas técnicas de jailbreak que sejam eficazes nesse sistema; portanto, o Anthropic recomenda o uso de defesas complementares. No entanto, a carta usada para treinar o classificador pode ser rapidamente adaptada para cobrir novos tipos de ataques à medida que forem descobertos.

O documento completo contém todos os detalhes sobre o método Constitutional Classifiers e os próprios classificadores.

Demonstração on-line dos Classificadores Constitucionais

A Anthropic convida você a experimentar uma demonstração do sistema protegido pelo Constitutional-Classifiers da Anthropic e a tentar fazer o jailbreak da versão 3.5 Sonnet do Claude, protegida pela nova tecnologia da Anthropic.

Embora a tecnologia do Constitutional Classifiers seja flexível o suficiente para se adaptar a qualquer tópico, a Anthropic optou por concentrar sua apresentação em consultas relacionadas a armas químicas.

Desafiar os usuários a tentar desbloquear os produtos da Anthropic serve a um importante propósito de segurança: a Anthropic queria testar os sistemas da Anthropic em condições reais, além do escopo dos testes que a Anthropic fez para o artigo. Isso permite que a Anthropic colete mais dados e melhore a robustez do método antes de implantá-lo nos sistemas de produção da Anthropic no futuro.

demonstrações será publicado em 3 de fevereiro de 2025 até que 10 de fevereiro de 2025 A Anthropic o disponibilizará on-line durante o período do Jailbreak. Ele inclui um formulário de feedback no qual você pode entrar em contato com a Anthropic para relatar qualquer jailbreak bem-sucedido, bem como informações sobre a Política de divulgação responsável da Anthropic, que a Anthropic exige que os participantes sigam.

Atualização em 5 de fevereiro de 2025: Conforme mencionado acima, a Anthropic agora está oferecendo uma recompensa em dinheiro pelo jailbreak bem-sucedido do sistema Anthropic. A primeira pessoa a passar todos os oito níveis da demonstração do jailbreak ganhará US$ 10.000. A primeira pessoa a passar todos os oito níveis usando a estratégia genérica de jailbreak ganhará US$ 20.000. Para obter detalhes completos sobre os prêmios e as condições associadas, visite o HackerOne.