Nos últimos anos, com o rápido desenvolvimento da IA generativa (GAI) e dos modelos de linguagem ampla (LLM), as questões de segurança e confiabilidade têm atraído muita atenção. Um estudo recente identificou um novo tipo de IA chamado Jailbreak Best-of-N (BoN, na sigla em inglês) em um método de ataque simples, mas eficiente. Ao transformar aleatoriamente o conteúdo de entrada e tentar repetidamente fazer isso, os pesquisadores conseguiram contornar as restrições de segurança de vários sistemas de IA convencionais, forçando-os a gerar conteúdo prejudicial ou inadequado. Surpreendentemente, a taxa de sucesso de ataque desse método varia de 70% a 90%, expondo a vulnerabilidade significativa dos atuais mecanismos de segurança de IA.
Princípios básicos da abordagem BoN
A ideia central do método de jailbreak Best-of-N é encontrar gradualmente entradas que possam romper as restrições de segurança do sistema, realizando repetidamente pequenas deformações nas entradas (texto, imagens, áudio) sem a necessidade de entender a estrutura interna do modelo de IA. Essas deformações incluem:
- entrada de texto Alterar aleatoriamente as maiúsculas e minúsculas, reordenar caracteres ou adicionar símbolos etc.
- entrada de imagem Altere os planos de fundo e sobreponha o texto em fontes diferentes.
- entrada de áudio Ajuste o tom, a velocidade de reprodução ou adicione ruído de fundo.
Essas deformações não alteram a semântica central da entrada, mas podem desencadear uma resposta incorreta do sistema de IA em alguns casos. Por meio de tentativas repetidas, os pesquisadores conseguiram encontrar uma entrada de "morfologia ideal" que induziu o modelo a gerar conteúdo que violava as regras de segurança.
Sucesso e cobertura do ataque
A equipe de pesquisa testou vários sistemas de IA convencionais usando a metodologia BoN, e os resultados mostraram que esses sistemas geralmente apresentavam um alto grau de vulnerabilidade a esse ataque simples. Exemplo:
- GPT-4 Deformação da entrada do 89%: A deformação da entrada do 89% é capaz de romper seus limites de segurança.
- Claude 3.5 : O ataque morfológico do 78% foi bem-sucedido.
- Outros sistemas convencionais Vulnerabilidades semelhantes são exibidas, embora a taxa exata de sucesso varie de sistema para sistema.
A taxa de sucesso dos ataques BoN é significativamente maior do que as técnicas tradicionais de jailbreak de IA, graças à sua aleatoriedade e escalabilidade. O método é particularmente eficaz em tarefas de IA generativa, sugerindo que o projeto de segurança dos sistemas de IA atuais não tem robustez suficiente.
Escala e previsibilidade do ataque
O estudo também mostra que a taxa de sucesso do ataque aumenta em uma lei de potência com o número de tentativas (valor N). Isso significa que, ao aumentar o número de amostras ou a capacidade de computação, o método BoN é capaz de atingir taxas de sucesso de ataque mais altas. Essa propriedade permite que os pesquisadores façam previsões precisas da taxa de sucesso e, assim, ajustem a estratégia de ataque para um modelo específico. Exemplo:
- Para o GPT-4, aumentar o número de tentativas para 20% aumenta a taxa de sucesso em 10%.
- Usando uma combinação de ataques BoN e outras técnicas, a taxa de sucesso é aumentada ainda mais, reduzindo o número de amostras e tentativas necessárias.
Isso mostra que o método BoN não é apenas eficiente, mas também tem boa escalabilidade para obter avanços mais rápidos e mais precisos combinando outros métodos de ataque.
Por que a abordagem BoN funciona?
O pesquisador observou que o sucesso da abordagem BoN se deve, em grande parte, ao seguinte:
- A deformação de entrada perturba o mecanismo de avaliação de segurança do modelo
A maioria dos sistemas de IA depende de recursos ou padrões específicos de entradas para identificar possíveis ameaças. A deformação aleatória do BoN corrompe esses recursos, facilitando para o sistema julgar erroneamente as entradas como seguras.
- Natureza de caixa preta da interação com modelos
O BoN não depende do conhecimento dos mecanismos internos do modelo de IA e requer apenas a interação externa com o sistema para realizar o ataque. Isso o torna mais operacional na prática.
- Aplicabilidade multimodal
O método não se aplica apenas à entrada de texto, mas também é capaz de atacar modelos de linguagem visual e modelos de processamento de fala. Por exemplo, ao adicionar texto a uma imagem ou ajustar as propriedades de um arquivo de áudio, os pesquisadores conseguiram contornar as regras de segurança desses sistemas.
Um alerta para a segurança da IA
O surgimento do método de jailbreak Best-of-N é um alerta para a segurança do sistema de IA. Embora o método BoN possa parecer simples, seu ataque surpreendentemente eficaz mostra que a atual proteção de segurança dos sistemas de IA ainda é muito vulnerável diante de ameaças não tradicionais.
Os pesquisadores sugerem que os desenvolvedores de IA precisam fortalecer sua segurança das seguintes maneiras:
- Robustez de entrada aprimorada
A criação de mecanismos de validação de entrada mais rigorosos para deformações aleatórias reduz a probabilidade de o sistema ser contornado.
- Proteção multimodal conjunta
Combine avaliações abrangentes de texto, visuais e de áudio para aumentar a segurança geral do sistema.
- Introdução de mecanismos de teste mais avançados
Identifique automaticamente entradas potencialmente maliciosas usando Generative Adversarial Networks (GAN) ou outras técnicas avançadas.
observações finais
Os resultados da pesquisa do método de jailbreak Best-of-N nos lembram que o desenvolvimento da tecnologia de IA não só precisa se concentrar na melhoria do desempenho, mas também precisa enfrentar sua segurança e confiabilidade. Somente por meio do aprimoramento contínuo dos mecanismos de proteção de segurança é que os sistemas de IA podem ser realmente seguros e confiáveis para uma ampla gama de aplicações.