Атака на джейлбрейк с помощью мультибука (пример)
Исследователи изучили технику "атаки на тюрьму" - метод, который может быть использован для обхода защитных ограждений, установленных разработчиками больших языковых моделей (LLM). Техника, известная как "многовыборочная атака на взлом", использует собственные модели Anthropic, а также модели, созданные другими компаниями, занимающимися разработкой ИИ, для...








































