Método de jailbreak Best-of-N: uma simples transformação aleatória de entradas e tentativas repetidas podem permitir que os principais sistemas de IA rompam as restrições de segurança para produzir respostas prejudiciais

Nos últimos anos, com o rápido desenvolvimento da IA generativa (GAI) e dos modelos de linguagem ampla (LLM), as questões de segurança e confiabilidade têm atraído muita atenção. Um estudo recente identificou um novo tipo de IA chamado Jailbreak Best-of-N (BoN, na sigla em inglês) em um método de ataque simples, mas eficiente. Ao transformar aleatoriamente o conteúdo de entrada e tentar repetidamente fazer isso, os pesquisadores conseguiram contornar as restrições de segurança de vários sistemas de IA convencionais, forçando-os a gerar conteúdo prejudicial ou inadequado. Surpreendentemente, a taxa de sucesso de ataque desse método varia de 70% a 90%, expondo a vulnerabilidade significativa dos atuais mecanismos de segurança de IA.

Princípios básicos da abordagem BoN

A ideia central do método de jailbreak Best-of-N é encontrar gradualmente entradas que possam romper as restrições de segurança do sistema, realizando repetidamente pequenas deformações nas entradas (texto, imagens, áudio) sem a necessidade de entender a estrutura interna do modelo de IA. Essas deformações incluem:

entrada de texto Alterar aleatoriamente as maiúsculas e minúsculas, reordenar caracteres ou adicionar símbolos etc.
entrada de imagem Altere os planos de fundo e sobreponha o texto em fontes diferentes.
entrada de áudio Ajuste o tom, a velocidade de reprodução ou adicione ruído de fundo.

Essas deformações não alteram a semântica central da entrada, mas podem desencadear uma resposta incorreta do sistema de IA em alguns casos. Por meio de tentativas repetidas, os pesquisadores conseguiram encontrar uma entrada de "morfologia ideal" que induziu o modelo a gerar conteúdo que violava as regras de segurança.

Sucesso e cobertura do ataque

A equipe de pesquisa testou vários sistemas de IA convencionais usando a metodologia BoN, e os resultados mostraram que esses sistemas geralmente apresentavam um alto grau de vulnerabilidade a esse ataque simples. Exemplo:

GPT-4 Deformação da entrada do 89%: A deformação da entrada do 89% é capaz de romper seus limites de segurança.
Claude 3.5 : O ataque morfológico do 78% foi bem-sucedido.
Outros sistemas convencionais Vulnerabilidades semelhantes são exibidas, embora a taxa exata de sucesso varie de sistema para sistema.

A taxa de sucesso dos ataques BoN é significativamente maior do que as técnicas tradicionais de jailbreak de IA, graças à sua aleatoriedade e escalabilidade. O método é particularmente eficaz em tarefas de IA generativa, sugerindo que o projeto de segurança dos sistemas de IA atuais não tem robustez suficiente.

Escala e previsibilidade do ataque

O estudo também mostra que a taxa de sucesso do ataque aumenta em uma lei de potência com o número de tentativas (valor N). Isso significa que, ao aumentar o número de amostras ou a capacidade de computação, o método BoN é capaz de atingir taxas de sucesso de ataque mais altas. Essa propriedade permite que os pesquisadores façam previsões precisas da taxa de sucesso e, assim, ajustem a estratégia de ataque para um modelo específico. Exemplo:

Para o GPT-4, aumentar o número de tentativas para 20% aumenta a taxa de sucesso em 10%.
Usando uma combinação de ataques BoN e outras técnicas, a taxa de sucesso é aumentada ainda mais, reduzindo o número de amostras e tentativas necessárias.

Isso mostra que o método BoN não é apenas eficiente, mas também tem boa escalabilidade para obter avanços mais rápidos e mais precisos combinando outros métodos de ataque.

Por que a abordagem BoN funciona?

O pesquisador observou que o sucesso da abordagem BoN se deve, em grande parte, ao seguinte:

A deformação de entrada perturba o mecanismo de avaliação de segurança do modelo
A maioria dos sistemas de IA depende de recursos ou padrões específicos de entradas para identificar possíveis ameaças. A deformação aleatória do BoN corrompe esses recursos, facilitando para o sistema julgar erroneamente as entradas como seguras.
Natureza de caixa preta da interação com modelos
O BoN não depende do conhecimento dos mecanismos internos do modelo de IA e requer apenas a interação externa com o sistema para realizar o ataque. Isso o torna mais operacional na prática.
Aplicabilidade multimodal
O método não se aplica apenas à entrada de texto, mas também é capaz de atacar modelos de linguagem visual e modelos de processamento de fala. Por exemplo, ao adicionar texto a uma imagem ou ajustar as propriedades de um arquivo de áudio, os pesquisadores conseguiram contornar as regras de segurança desses sistemas.

Um alerta para a segurança da IA

O surgimento do método de jailbreak Best-of-N é um alerta para a segurança do sistema de IA. Embora o método BoN possa parecer simples, seu ataque surpreendentemente eficaz mostra que a atual proteção de segurança dos sistemas de IA ainda é muito vulnerável diante de ameaças não tradicionais.

Os pesquisadores sugerem que os desenvolvedores de IA precisam fortalecer sua segurança das seguintes maneiras:

Robustez de entrada aprimorada
A criação de mecanismos de validação de entrada mais rigorosos para deformações aleatórias reduz a probabilidade de o sistema ser contornado.
Proteção multimodal conjunta
Combine avaliações abrangentes de texto, visuais e de áudio para aumentar a segurança geral do sistema.
Introdução de mecanismos de teste mais avançados
Identifique automaticamente entradas potencialmente maliciosas usando Generative Adversarial Networks (GAN) ou outras técnicas avançadas.

observações finais

Os resultados da pesquisa do método de jailbreak Best-of-N nos lembram que o desenvolvimento da tecnologia de IA não só precisa se concentrar na melhoria do desempenho, mas também precisa enfrentar sua segurança e confiabilidade. Somente por meio do aprimoramento contínuo dos mecanismos de proteção de segurança é que os sistemas de IA podem ser realmente seguros e confiáveis para uma ampla gama de aplicações.

Best-of-N Jailbreak: uma simples transformação aleatória de entradas e tentativas repetidas de fazer com que os principais sistemas de IA ultrapassem as restrições de segurança para produzir respostas prejudiciais

Princípios básicos da abordagem BoN

Sucesso e cobertura do ataque

Escala e previsibilidade do ataque

Por que a abordagem BoN funciona?

Um alerta para a segurança da IA

observações finais

Artigos relacionados

Recuperação: O que é recuperação e explique as técnicas comuns de "recuperação" usadas no RAG?

Agent AI: Exploring the Frontier World of Multimodal Interaction [Fei Fei Li - Classic Must Reads].

GraphReader: Inteligentes baseados em gráficos para aprimorar o processamento de textos longos para grandes modelos de linguagem

CAG: um método de geração aprimorado por cache que é 40 vezes mais rápido que o RAG

White Paper sobre agentes do Google e aplicativos básicos (versão em chinês)

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA