Best-of-N Jailbreak: простое случайное изменение входных данных и многократные попытки заставить основные системы ИИ преодолеть ограничения безопасности и вызвать вредные реакции.

База знаний по искусственному интеллектуОбновлено 11 месяцев назад Круг обмена ИИ

31.2K 00

В последние годы, с быстрым развитием генеративного ИИ (GAI) и больших языковых моделей (LLM), вопросы их безопасности и надежности привлекают большое внимание. В недавнем исследовании был обнаружен новый тип LLM, известный как Лучший джейлбрейк (сокращенно BoN) в простом, но эффективном методе атаки. Произвольно изменяя входной контент и повторяя попытки, исследователи успешно обошли ограничения безопасности нескольких основных систем ИИ, заставив их генерировать вредный или неподходящий контент. Шокирующий показатель успешности атаки этим методом составляет от 70% до 90%, обнажая значительную уязвимость текущих механизмов безопасности ИИ.

Основные принципы подхода BoN

Суть метода Best-of-N jailbreak заключается в постепенном поиске входных данных, которые могут пробить ограничения безопасности системы, путем многократного выполнения небольших деформаций входных данных (текст, изображения, аудио) без необходимости понимания внутренней структуры модели ИИ. К таким деформациям относятся:

ввод текста : Случайное изменение регистра, перестановка символов, добавление символов и т.д.
ввод изображения : Меняйте фон, накладывайте текст разными шрифтами.
аудиовход : Регулировка высоты тона, скорости воспроизведения или добавление фонового шума.

Best-of-N 越狱法：对输入内容进行简单的随机变形并反复尝试，就能让主流 AI 系统突破安全限制产生有害回应

Эти деформации не меняют основной семантики вводимого текста, но в некоторых случаях могут вызвать неправильную реакцию системы искусственного интеллекта. В результате многократных попыток исследователям удалось найти "оптимальный морф", который побуждал модель генерировать контент, нарушающий правила безопасности.

Успех и охват атаки

Исследовательская группа протестировала несколько основных систем искусственного интеллекта, используя методологию BoN, и результаты показали, что эти системы в целом демонстрируют высокую степень уязвимости к этой простой атаке. Пример:

GPT-4 : Входная деформация 89% способна нарушить пределы безопасности.
Клод 3.5 : Морф-атака 78% прошла успешно.
Другие основные системы : Были обнаружены аналогичные уязвимости, хотя конкретные показатели успешности варьировались от системы к системе.

Благодаря случайности и масштабируемости BoN-атак их успешность значительно выше, чем у традиционных методов взлома ИИ. Метод особенно эффективен в задачах генеративного ИИ, что говорит о недостаточной надежности системы безопасности современных систем ИИ.

Масштаб и предсказуемость атак

Исследование также показало, что коэффициент успешности атаки увеличивается по степенному закону с ростом числа попыток (N-значение). Это означает, что при увеличении количества образцов или вычислительной мощности метод BoN способен достичь более высоких показателей успешности атаки. Это свойство позволяет исследователям делать точные прогнозы успешности атак и, таким образом, корректировать стратегию атаки для конкретной модели. Пример:

Для GPT-4 увеличение количества попыток на 20% повышает коэффициент успешности на 10%.
Использование комбинации BoN-атак и других техник позволяет еще больше увеличить процент успеха при сокращении количества образцов и необходимых попыток.

Это показывает, что метод BoN не только эффективен, но и обладает хорошей масштабируемостью, позволяющей достичь более быстрых и точных прорывов путем комбинирования других методов атаки.

Почему подход BoN работает?

Исследователь отметил, что успех подхода BoN во многом объясняется следующим:

Входная деформация нарушает механизм оценки безопасности моделиБольшинство систем искусственного интеллекта полагаются на специфические особенности или шаблоны входных данных для определения потенциальных угроз. Случайная деформация BoN искажает эти особенности, что облегчает системе ошибочную оценку входных данных как безопасных.
Характер взаимодействия с моделями "черный ящикBoN не зависит от знания внутренних механизмов модели ИИ и требует лишь внешнего взаимодействия с системой для осуществления атаки. Это делает его более оперативным на практике.
Кросс-модальная применимостьМетод применим не только к вводу текста, но и способен атаковать визуальные языковые модели и модели обработки речи. Например, добавив текст на изображение или изменив свойства аудиофайла, исследователи успешно обошли правила безопасности этих систем.

Пробуждающий сигнал для обеспечения безопасности ИИ

Появление метода джейлбрейка Best-of-N - тревожный сигнал для безопасности систем искусственного интеллекта. Хотя метод BoN может показаться простым, его удивительно эффективная атака показывает, что нынешняя защита систем искусственного интеллекта все еще очень уязвима перед лицом нетрадиционных угроз.

Исследователи советуют разработчикам ИИ укреплять безопасность следующими способами:

Повышенная надежность вводаРазработка более строгих механизмов проверки входных данных для случайных деформаций снижает вероятность обхода системы.
Совместная мультимодальная защитаСочетание комплексных текстовых, визуальных и звуковых оценок повышает общую безопасность системы.
Внедрение более совершенных механизмов тестированияАвтоматическое определение потенциально вредоносных данных с помощью генеративных адверсарных сетей (GAN) или других передовых технологий.

заключительные замечания

Результаты исследования метода джейлбрейка Best-of-N напоминают нам о том, что при разработке технологий искусственного интеллекта необходимо не только уделять внимание повышению производительности, но и заботиться о безопасности и надежности. Только постоянное совершенствование механизмов защиты может сделать системы ИИ по-настоящему безопасными и надежными для широкого спектра приложений.

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.