Anthropic выпускает классификатор правил: эффективная защита от атак джейлбрейка на большие языковые модели, участвуйте в тестах и получайте бонусы!

Новости ИИОбновлено 7 месяцев назад Круг обмена ИИ
6.8K 00

Благодаря стремительному развитию технологий искусственного интеллекта большие языковые модели (LLM) меняют нашу жизнь с беспрецедентной скоростью. Однако технологический прогресс породил и новые проблемы: LLM могут быть злонамеренно использованы для утечки вредной информации или даже для создания химического, биологического, радиологического и ядерного оружия (CBRN). Чтобы противостоять этим угрозам, исследовательская группа Anthropic Security разработала инновационный защитный механизм -Классификаторы правил (конституционные классификаторы)Это исследование направлено на защиту от атак типа "generic jailbreak", которые систематически обходят безопасность модели путем обучения классификаторов на основе правил естественного языка. Это исследование направлено на защиту от атак типа "общий побег из тюрьмы", которые систематически обходят безопасность модели путем обучения классификаторов на основе правил естественного языка.

-Конституционные классификаторы: защита от общих атак на побег из тюрьмы

Антропология Исследовательская группа по гарантиям Вышла новая статья В статье описывается метод защиты моделей искусственного интеллекта от типовых атак типа "побег из тюрьмы". Прототипная версия метода оказалась устойчивой к типовым атакам на джейлбрейк в тысячах часов ручного тестирования "красной команды", хотя и с высоким коэффициентом отклонения и вычислительными затратами. Обновленная версия достигает аналогичной устойчивости в синтетических оценках и увеличивает процент отказов всего на 0,38% при умеренном увеличении вычислительных затрат.

Команда Anthropic в настоящее время размещает временную демо-версию системы конституционных классификаторов в Интернете и призывает читателей, имеющих опыт взлома систем искусственного интеллекта, помочь "красной команде" протестировать ее. Пожалуйста, нажмите Демо-сайт Узнайте больше.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!

Обновление 5 февраля 2025 года: команда Anthropic предлагает награду в размере $10 000 тому, кто первым пройдёт все восемь уровней с помощью джейлбрейка, и $20 000 тому, кто сделает это с помощью универсальной стратегии джейлбрейка. Для получения подробной информации о вознаграждении и соответствующих условиях посетите сайт HackerOne.

 

Крупные языковые модели проходят длительное обучение безопасности для предотвращения вредных результатов. Например, модели Anthropic Клод Отказываться отвечать на запросы пользователей, связанные с производством биологического или химического оружия.

Однако модель остается уязвимой для джейлбрейк (устройство iOS и т.д.) Атаки: средства, предназначенные для обхода системы защиты и принудительной реакции на вредоносное воздействие. Некоторые атаки на джейлбрейк используют Очень длинные наконечники для нескольких образцов модели наводнений; другие модифицируют Стиль ввода например, в этом необычном случае. Исторически сложилось так, что атаки на джейлбрейк сложно обнаружить и остановить: такие атаки были Она была описана более 10 лет назад. Но, насколько известно Anthropic, до сих пор не существует полностью надежных моделей глубокого обучения в производственных средах.

Anthropic разрабатывает более совершенные средства защиты от джейлбрейка, чтобы в будущем можно было безопасно развертывать все более мощные модели. В соответствии со стратегией Anthropic по ответственному масштабированию, Anthropic может развертывать такие модели до тех пор, пока Anthropic может снизить риск до приемлемого уровня с помощью соответствующих мер безопасности, но атаки на джейлбрейк позволяют пользователям обойти эти меры безопасности. В частности, Anthropic ожидает, что системы, защищенные конституционными классификаторами, позволят Anthropic снизить риск джейлбрейка моделей, которые преодолели пороговые значения потенциала CBRN, указанные в Стратегии ответственного расширения Anthropic ^1^.

существовать Новые статьи из журнала Anthropic В ней Антроп описывает систему, основанную на Конституционные классификаторы системы, защищающей модели от атак на джейлбрейк. Эти конституционные классификаторы представляют собой входные и выходные классификаторы, обученные на синтетически сгенерированных данных, которые отсеивают подавляющее большинство атак на побег из тюрьмы, минимизируя при этом чрезмерное отторжение и не требуя значительных вычислительных затрат.

Результаты ручного тестирования "красной команды

Компания Anthropic провела два основных типа тестов для оценки эффективности конституционных классификаторов.

Сначала Anthropic разработала прототип системы для выявления и блокировки специфических научных знаний, связанных с химической, биологической, радиологической и ядерной опасностью. Затем Anthropic пригласила независимых взломщиков к участию в программе "bug bounty", в рамках которой им предлагалось "red-team test" системы (т. е. попытаться взломать систему в экспериментальных условиях, чтобы проверить ее надежность).

В частности, им был дан список из десяти "запрещенных" запросов, и их задачей было, используя любые методы взлома, заставить одну из текущих моделей Anthropic (в данном случае Claude 3.5 Sonnet, июнь 2024 года) ответить на все из них под защитой прототипной версии Constitutional Classifiers. под защитой прототипной версии Конституционных Классификаторов, отвечать на все запросы. Это возможно только в том случае, если модель хорошо понимает собственность Anthropic считал это успешным "общим" джейлбрейком только тогда, когда на запросы были даны подробные ответы.

В ходе двухмесячного эксперимента 183 активных участника ^2^ потратили более 3 000 часов на попытки взломать модель. Если они находили универсальный джейлбрейк, то получали денежное вознаграждение в размере до 15 000 долларов. Несмотря на все усилия, никто из участников не смог заставить модель ответить на все десять запрещенных запросов с помощью одного джейлбрейка - то есть не было найдено ни одного универсального джейлбрейка.

Хотя эта прототипная система устойчива к атакам на джейлбрейк, у нее есть некоторые проблемы: она отклоняет слишком много безобидных запросов и дорога в эксплуатации. Система с этими двумя проблемами могла бы быть более безопасной, но ее также было бы нелегко развернуть. С тех пор Anthropic усовершенствовал свою систему, чтобы достичь аналогичного уровня надежности и при этом значительно уменьшить количество этих проблем.

Результаты автоматизированных оценок

Anthropic провела ряд автоматизированных оценок, в ходе которых синтетически сгенерировала 10 000 подсказок для взлома, включая многие атаки, наиболее эффективные против текущей большой языковой модели, а также атаки, разработанные для обхода мер безопасности классификатора. Anthropic опробовала эти подсказки на защищенной конституционными классификаторами версии Claude 3.5 Sonnet (октябрь 2024 года), защищенном конституционными классификаторами, и на версии Claude, не защищенной классификаторами.

В базовом состоянии, без защитных классификаторов, коэффициент успешности джейлбрейка составлял 86% - то есть сам Claude блокировал только 14% из этих продвинутых попыток джейлбрейка. Однако защита Claude с помощью конституционных классификаторов дает значительное улучшение: коэффициент успешности джейлбрейка снижается до 4,4%, что означает, что более 95% попыток джейлбрейка отклоняются.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!
Рисунок 1: Результаты автоматизированной оценки. Для всех графиков чем меньше значение, тем лучше. (a) процент успешных джейлбрейков значительно ниже в системах, защищенных конституционными классификаторами; (b) при использовании конституционных классификаторов не наблюдается статистически значимого увеличения процента отказов систем на производственном трафике Claude.ai Free и Pro; (c) относительная вычислительная стоимость систем, использующих конституционные классификаторы, лишь умеренно выше. (c) Относительная вычислительная стоимость системы с использованием конституционных классификаторов лишь умеренно выше. Планки ошибок представляют собой доверительные интервалы 95%, рассчитанные с использованием биномиальных пропорциональных стандартных ошибок в предположении асимптотической нормальности.

В то же время конституциональные классификаторы Anthropic не увеличивают процент отклонения безобидных пользовательских запросов: есть небольшое увеличение процента отклонения запросов Клода с классификаторами (увеличение на 0,381 TP3T), но это не является статистически значимым в случайной выборке из 5 000 разговоров. Наконец, наблюдается умеренное увеличение вычислительных затрат (на 23,71 TP3T), что выше, чем у незащищенной модели. Anthropic работает над дальнейшим уменьшением количества отказов и вычислительных затрат по мере совершенствования этой техники.

В целом автоматизированный анализ Anthropic показал, что обновленная версия системы Constitutional Classifiers значительно повышает устойчивость ИИ-моделей к атакам на джейлбрейк, причем за минимальную дополнительную плату.

Принцип работы

Конституционные классификаторы основаны на тех же принципах, что и Конституционный искусственный интеллект Похожим образом конституционный ИИ - еще одна техника, которую Anthropic использует для выравнивания Клода. Обе техники используют устав: список принципов, которых должна придерживаться модель. В случае конституционных классификаторов эти принципы определяют допустимые и недопустимые категории контента (например, рецепты горчицы допустимы, а рецепты иприта - нет).

С помощью Клода Anthropic использовал этот устав для создания большого количества синтетических подсказок и синтетических модельных дополнений по всем категориям контента. Anthropic расширил эти подсказки и дополнения, чтобы обеспечить разнообразие списков: это включало перевод их на разные языки и преобразование их в известный стиль джейлбрейка.

Anthropic 发布规则分类器:有效防御大语言模型越狱攻击,参与测试领奖金!
Рисунок 2. Обучение и внедрение конституционных классификаторов. (а) Разрабатываются хартии, определяющие безвредные и вредные категории; (б) Хартии используются как основа для создания большого количества синтетических подсказок и дополнений, которые в дальнейшем расширяются (стилистические и лингвистические вариации) и преобразуются в обучающий набор; (в) Классификаторы, обученные на этом обучающем наборе, используются в качестве модели меры безопасности для обнаружения и блокирования вредоносного контента.

Затем Anthropic использует эти синтетические данные для обучения входных и выходных классификаторов Anthropic, чтобы отмечать (и блокировать) потенциально вредный контент на основе заданного устава. Чтобы свести к минимуму чрезмерное отклонение (т. е. ошибочное определение безобидного контента как вредного), Anthropic также обучает классификаторы на фиксированном наборе доброкачественных запросов, генерируемых подрядчиками.

ограничения

Конституционные классификаторы, возможно, не смогут остановить каждый типичный джейлбрейк, но Anthropic считает, что даже то небольшое количество атак на джейлбрейк, которое проходит мимо классификаторов Anthropic, требует больших усилий для обнаружения при использовании мер безопасности. Также возможно, что в будущем будут разработаны новые методы взлома, эффективные для данной системы, поэтому Anthropic рекомендует использовать дополнительные средства защиты. Однако устав, используемый для обучения классификатора, может быть быстро адаптирован к новым типам атак по мере их обнаружения.

Полный текст статьи содержит все подробности о методе конституционных классификаторов и самих классификаторах.

Онлайн-демонстрация конституционных классификаторов

Anthropic приглашает вас попробовать демо-версию системы Anthropic с защитой Constitutional-Classifiers, а также попробовать джейлбрейк версии Claude 3.5 Sonnet, защищенной новой технологией Anthropic.

Хотя технология Constitutional Classifiers достаточно гибкая, чтобы адаптироваться к любой теме, Anthropic решила посвятить свою презентацию запросам, связанным с химическим оружием.

Задача пользователей попытаться сделать джейлбрейк продуктов Anthropic служит важной цели безопасности: Anthropic хотела провести стресс-тестирование систем Anthropic в реальных условиях, выходящих за рамки тестирования, проведенного Anthropic для статьи. Это позволит Anthropic собрать больше данных и повысить надежность метода, прежде чем внедрять его в производственные системы Anthropic в будущем.

демонстрации будет опубликован в 3 февраля 2025 г. до 10 февраля 2025 г. Anthropic сделает его доступным в Интернете на время проведения джейлбрейка. Он включает в себя форму обратной связи, с помощью которой можно связаться с Anthropic и сообщить о любом успешном джейлбрейке, а также информацию о политике ответственного раскрытия информации, которую Anthropic требует от участников. Anthropic будет сообщать о любых успехах и общих результатах демонстрации в обновлениях к этому посту.

Обновление 5 февраля 2025 года: Как уже упоминалось выше, компания Anthropic предлагает денежное вознаграждение за успешный взлом системы Anthropic. Первый, кто пройдет все восемь уровней демо-версии взлома, выиграет 10 000 долларов США. Первый, кто пройдет все восемь уровней, используя общую стратегию джейлбрейка, выиграет 20 000 долларов США. Полную информацию о наградах и связанных с ними условиях можно найти на сайте HackerOne.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...