Claude Official Insight Report: китайские пользователи любят писать романы с Claude

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

Clio: система анализа использования ИИ в реальном мире для защиты конфиденциальности

Для чего люди используют модели ИИ? Несмотря на быстро растущую популярность больших языковых моделей, до сих пор нам не хватало понимания того, как именно они используются.

Это не просто любопытство или даже социологическое исследование. Понимание того, как люди на самом деле используют языковые модели, очень важно для обеспечения безопасности: поставщики услуг проводят тщательное тестирование перед развертыванием и используют системы доверия и безопасности для предотвращения злоупотреблений. Однако разнообразие и масштаб функций, которые могут выполнять языковые модели, затрудняют понимание их использования - не говоря уже о всестороннем мониторинге безопасности.

Есть еще один ключевой фактор, который мешает четко понять, как используются модели ИИ: конфиденциальность. В компании Anthropic мы Клод Модель по умолчаниюНе будет использовать данные диалогов пользователей для обученияи мы очень серьезно относимся к защите данных пользователей. Как же мы изучаем и наблюдаем за использованием наших систем, сохраняя при этом строгую конфиденциальность данных пользователей?

ClАуд iвзгляды и observations, или сокращенно Clio, - это наша попытка ответить на этот вопрос. Clio - это автоматизированный аналитический инструмент, позволяющий с сохранением конфиденциальности анализировать использование языковых моделей в реальном мире. Он похож на Google Trends тем, что дает нам представление о том, как claude.ai используется на ежедневной основе, а также помогает нам улучшить наши меры безопасности. В этом посте (сПолная исследовательская работа), мы опишем Clio и некоторые предварительные результаты его работы.

Как работает Clio: крупномасштабный анализ с сохранением конфиденциальности

Традиционные подходы к обеспечению безопасности "сверху вниз" (например, оценка и тестирование "красной командой") предполагают, что нужно заранее знать, что искать. Clio использует другой подход, позволяя обнаруживать шаблоны "снизу вверх", разбивая разговоры на абстрактные, легко понятные кластеры тем. В то же время он защищает конфиденциальность пользователей: данные автоматически анонимизируются и агрегируются, а аналитикам видна только информация о кластерах более высокого уровня.

Пример шага анализа Clio, проиллюстрированный на примере вымышленного диалога.

Ниже приведен краткий обзор многоступенчатого процесса Clio:

Извлечение свойствДля каждого разговора Clio извлекает множество "атрибутов" - специфических свойств или метаданных, таких как тема разговора, количество переходов по кругу в разговоре или используемый язык.
семантическая кластеризация: Автоматически группируйте похожие диалоги по темам или общим вопросам.
Описание кластераКаждому кластеру дается описательное название и краткое содержание, в котором отражаются общие темы исходных данных, но при этом исключается частная информация.
Построение иерархической структурыКластеры организованы в многоуровневую структуру, которая облегчает их изучение. Затем они могут быть представлены в интерактивном интерфейсе, который аналитики Anthropic могут использовать для изучения закономерностей в различных измерениях (темы, языки и т. д.).

Эти четыре шага полностью выполняются Клодом, а не человеческими аналитиками. Это часть концепции Clio, ориентированной на конфиденциальность, с несколькими уровнями "глубокой защиты". Например, Клоду предписано исключать частные данные при извлечении нужной информации из разговора. Мы также установили минимальные пороги для количества уникальных пользователей или разговоров, чтобы исключить случайное раскрытие низкочастотных тем, которые могут быть характерны для конкретного человека. Наконец, Claude проверяет, не содержат ли кластерные сводки слишком специфической или идентифицируемой информации, прежде чем показать их пользователям.

Все наши средства защиты конфиденциальности прошли тщательную проверку и подробно описаны на сайтеИсследовательские работы.

Как люди используют Клода: выводы Clio

С помощью Clio мы смогли получить подробную информацию о том, как люди на самом деле используют claude.ai. В то время как такие, как WildChat ответить пением LMSYS-Chat-1M Публичные базы данных, подобные этой, предоставляют полезную информацию об использовании людьми языковых моделей, но они отражают только конкретные контексты и случаи использования. Clio дает нам представление о полном спектре сценариев, в которых claude.ai используется в реальном мире (которые могут отличаться от использования других систем ИИ из-за различий в контингенте пользователей и типах моделей).

Основные варианты использования Claude.ai

С помощью Clio мы проанализировали 1 миллион разговоров на claude.ai (как в бесплатной, так и в профессиональной версии), чтобы определить основные задачи, для которых пользователи используют Claude. Это показывает, что пользователи особенно сосредоточены на задачах, связанных с программированием: на категорию "Разработка веб- и мобильных приложений" приходится более 10% всех разговоров. Разработчики программного обеспечения используют Claude для решения самых разных задач - от отладки кода до объяснения операций и концепций Git.

Наиболее распространенные типы разговоров пользователей с Клодом на всех языках. Площадь круга соответствует проценту разговоров; заголовки представляют собой резюме, составленные Clio после анализа 1 миллиона случайно выбранных разговоров.

Использование в образовательных целях - еще одна важная категория, составляющая более 7% от общего числа диалогов и охватывающая в основном преподавание и обучение. На бизнес-стратегии и операции (включая такие задачи, как написание профессиональных сообщений и анализ бизнес-данных) пришлось почти 6% диалогов.

Clio также определяет тысячи более мелких кластеров диалогов, демонстрируя разнообразное использование Claude. Некоторые из них могут удивить, в том числе:

Толкование снов;
Анализ футбольных матчей;
Готовность к реагированию на стихийные бедствия;
Предоставляет подсказки к кроссвордам;
Подземелья и драконы Игры;
Сосчитайте букву "р" в слове "клубника".

Употребление Claude варьируется от языка к языку

Использование Claude значительно различается в разных языках, что отражает различные культурные контексты и потребности. Мы подсчитали базовую частоту встречаемости каждого языка в общем диалоге и на основе этого определили некоторые темы, которые значительно чаще встречаются в определенных языках. Ниже приведены примеры для испанского, китайского и японского языков.

Данные Clio о темах диалогов, которые чаще всего появляются на трех выбранных языках (по сравнению с базовой частотой этого языка).

Как мы использовали Clio для улучшения нашей системы безопасности

Помимо обучения языковых моделей для отклонения опасных запросов, мы используем специализированные системы обеспечения доверия и безопасности для обнаружения, блокирования и реагирования на запросы, которые могут нарушать наши требования. Политика использования Clio внесла свой вклад в эту работу, помогая нам понять, где мы можем улучшить и усовершенствовать эти системы.

Мы внедрили строгий контроль доступа к конфиденциальности при использовании Clio, чтобы еще больше укрепить нашу политику, поскольку это может потребовать проверки отдельных учетных записей. Наша команда доверия и безопасности может выявить области, которые могут указывать на нарушение нашей политики использования, с помощью анализа тематических блоков. Например, кластер под названием "Создание вводящего в заблуждение содержимого электронной почты для сбора средств" или "Разжигание ненависти" описывает действия, которые мы запрещаем. Наша команда доверия и безопасности может использовать этот подход к проверке "снизу вверх" для выявления отдельных учетных записей, которые требуют дополнительной проверки и, при необходимости, принятия мер в соответствии с нашими условиями и политикой. Мы строго ограничиваем такие проверки теми, которые имеют законные потребности в обеспечении доверия и безопасности. Наш Исследовательские работы Содержит дополнительную информацию об этих процессах.

Мы все еще находимся в процессе внедрения Clio во все наши исполнительные системы, но уже сейчас он оказался полезной частью нашего набора инструментов безопасности, помогая нам выявлять области, в которых необходимо усилить меры защиты.

Выявление и пресечение скоординированного оскорбительного поведения

Clio очень эффективно выявляет скоординированные, сложные схемы злоупотреблений, которые невозможно обнаружить по отдельным разговорам и которые могут ускользнуть от более простых методов обнаружения. Например, в конце сентября мы обнаружили набор автоматизированных учетных записей, которые использовали схожую структуру запросов для создания спамерского контента в целях SEO. Хотя ни один из отдельных разговоров не нарушал наши Политика использованияМы удалили эту группу аккаунтов, но модель поведения между ними свидетельствовала о скоординированном злоупотреблении платформой, которое наша политика прямо запрещает. Мы также использовали Clio для выявления других аккаунтов, которые были идентифицированы нашими Политика использования Запрещенные действия, например, попытка перепродать несанкционированный доступ к Клоду.

Усиленный мониторинг событий повышенного риска

Clio также помогает нам отслеживать новые модели использования и потенциальные риски в периоды неопределенности или событий с высоким уровнем риска. Например, во время запуска нашего нового Использование компьютера До появления этой функции мы провели обширное тестирование безопасности при использовании Clio, чтобы выявить новые возможности и опасности, которые могли быть упущены. Clio предоставила дополнительные сведения о безопасности, которые помогут нам постоянно совершенствовать меры безопасности по мере внедрения этой функции и в будущих версиях системы.

Clio также помогает нам отслеживать неизвестные риски в преддверии крупных общественных событий, таких как выборы или крупные международные мероприятия. В месяцы, предшествующие выборам в США в 2024 году, мыИспользование Clio Выявляя группы активности, связанные с политикой, голосованием и смежными вопросами в США, и предотвращая любые потенциальные риски или злоупотребления, Clio способна обнаружить "неизвестные неизвестные", дополняя наши проактивные меры безопасности и помогая нам быстро реагировать на новые вызовы.

Сокращение числа ложноотрицательных и ложноположительных результатов

Как правило, Clio и наши существующие классификаторы доверия и безопасности согласны с определением риска в кластерах сессий. Однако для некоторых кластеров существуют разногласия. Одной из возможностей улучшения является уменьшение количества ложноотрицательных результатов (т. е. система не отмечает сессии, которые на самом деле могут быть вредными, как потенциально опасный контент). Например, когда пользователь просит Клода перевести с одного языка на другой, наша система иногда не отмечает вредоносный контент, а Clio распознает такие сессии.

На диаграмме рассеяния показаны кластеры сессий (точка обозначает кластер) и степень, в которой они были помечены как рискованные классификатором Trust & Safety Classifier (ось x) и Clio (ось y). В левом верхнем углу показаны кластеры, которые, возможно, были недооценены Trust & Safety Classifier как рискованные: ложноотрицательные результаты, содержащие тревожный контент, но не помеченные как таковой. В правом нижнем углу - кластеры, которые могут быть перемаркированы: ложноположительные результаты, которые могут не содержать тревожного контента. Общая корреляция между классификатором Trust & Safety и классификатором Clio составляет r = 0,71, что свидетельствует о высоком общем согласии между ними.

Мы также используем Clio для исследования ложных срабатываний - еще одной распространенной проблемы при разработке классификаторов доверия и безопасности, когда классификатор ошибочно помечает безобидный контент как вредный. Например, сессии, в которых соискатели просят совета по резюме, иногда ошибочно маркируются как содержащие личную информацию. Вопросы программирования, связанные с безопасностью, сетью или веб-ползанием, иногда ошибочно определяются как потенциальный взлом. Даже вышеперечисленное Подземелья и драконы Внутриигровые сессии, посвященные боевой статистике, также могут спровоцировать срабатывание нашей системы обнаружения опасности. Мы используем Clio, чтобы выделить эти ложные срабатывания, помогая нашей системе безопасности срабатывать только на контент, который действительно нарушает наши правила, и сводя к минимуму вмешательство в законное использование пользователем.

Этические соображения и меры по смягчению последствий

Clio предоставляет ценные сведения о повышении безопасности развернутых больших языковых моделей. Однако в ходе его разработки также возникли некоторые важные этические соображения, которые мы оценили и приняли соответствующие меры:

Ложные срабатывания: В контексте доверия и безопасности мы реализовали основные меры защиты от возможных ложных срабатываний. Например, в настоящее время мы не используем результаты работы Clio для автоматического выполнения мер и тщательно проверили его работу при различных распределениях данных, включая многоязычные тесты, подробно описанные в нашей статье.
Клио рискует подвергнуться жестокому обращению: Системы, подобные Clio, могут быть использованы не по назначению для слежки. В дополнение к строгому контролю доступа и методам обеспечения конфиденциальности мы снижаем этот риск, применяя строгую политику минимизации и хранения данных: мы собираем и храним только минимальный объем данных, необходимых для Clio.
Конфиденциальность пользователя: Хотя Clio демонстрирует хорошие результаты в наших оценках конфиденциальности, как и в любой реальной системе защиты конфиденциальности, некоторые виды частной информации могут остаться незамеченными. Чтобы снизить этот потенциальный риск, мы регулярно проверяем защиту конфиденциальности и оценки Clio, чтобы убедиться, что защита соответствует ожиданиям. Со временем мы также планируем использовать новейшую модель Claude в Clio, чтобы постоянно повышать эффективность этих средств защиты.
Доверие пользователей: Несмотря на всестороннюю защиту конфиденциальности, которую мы обеспечиваем, некоторые пользователи могут счесть такие системы, как Clio, навязчивыми или мешающими им пользоваться Claude. Мы решили быть прозрачными в отношении использования Clio, ее возможностей, ограничений и тех знаний, которые мы получаем с ее помощью. Как уже упоминалось, Clio выявляет ложные срабатывания (т. е. действия, которые кажутся нарушающими политику использования, но на самом деле таковыми не являются) в нашем стандартном классификаторе безопасности, что может позволить нам меньше вмешиваться, если это мешает законному использованию модели.

вынести вердикт

Clio - это важный шаг на пути к эмпирически обоснованной безопасности и управлению ИИ. Поддерживая анализ реального использования ИИ с сохранением конфиденциальности, мы сможем лучше понять, как на самом деле используются эти системы. В конечном итоге мы сможем использовать Clio, чтобы сделать системы ИИ более безопасными.

На поставщиков ИИ возложена двойная ответственность: обеспечение безопасности своих систем и защита конфиденциальности пользователей, и Clio демонстрирует, что эти две цели не являются взаимоисключающими - при тщательной разработке и реализации мы можем достичь обеих одновременно. Публично обсуждая Clio, мы стремимся установить положительную норму ответственной разработки и использования таких инструментов.

Мы продолжаем развивать и совершенствовать Clio и хотим, чтобы другие люди расширяли его возможности. Чтобы узнать больше о технических деталях Clio, включая наши методы проверки и оценки конфиденциальности, см. Полная исследовательская работа.

В настоящее время мы набираем сотрудников в группу социального воздействия. Если вас интересует Clio или связанные с ним вопросы исследований, мы с нетерпением ждем вашего заявления. Для получения дополнительной информации о вакансии, пожалуйста, посетитеэта ссылка.

сноски

^1 ^ В рамках наших исследований безопасности мы также запускаем Clio на некоторых видах трафика API, доступ к результатам которого ограничен для уполномоченных сотрудников. Некоторые учетные записи исключаются из анализа, в том числе доверенные организации, с которыми у нас заключены соглашения о нулевом хранении данных. Более подробную информацию о нашей политике см. в Приложении F исследовательского документа.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Обновлены функции пользовательского интерфейса Le Chat, Mistral официально выходит на потребительский рынок, чтобы конкурировать с ChatGPT

Новости ИИ

1 год назад

050.4K

Выпущен Final Cut Pro 11 от Apple: в нем появились функции искусственного интеллекта

Новости ИИ

1 год назад

050.9K

Новый редактор изображений Shopify "Magic" с искусственным интеллектом повышает качество изображений товаров

Новости ИИ

2 года назад

040.8K

AutoDev занимает лидирующие позиции: двунаправленное включение протокола MCP, создание новой экосистемы инструментов для кодирования ИИ

Новости ИИ

1 год назад

039.6K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Claude Official Insight Report: китайские пользователи любят писать романы с Claude

Clio: система анализа использования ИИ в реальном мире для защиты конфиденциальности