Claude Official Insight Report : Les utilisateurs chinois adorent écrire des romans avec Claude
Clio : un système d'analyse de l'utilisation de l'IA dans le monde réel pour la protection de la vie privée
À quoi servent les modèles d'IA ? Malgré la popularité croissante des grands modèles de langage, nous n'avons pas encore compris comment ils sont utilisés.
Il ne s'agit pas seulement d'une question de curiosité ou même de recherche sociologique. Comprendre comment les gens utilisent réellement les modèles linguistiques est essentiel pour la sécurité : les fournisseurs de services effectuent des tests approfondis avant le déploiement et utilisent des systèmes de confiance et de sécurité pour prévenir les abus. Cependant, la variété et l'ampleur des fonctions que les modèles de langage peuvent exécuter rendent difficile la compréhension de leur utilisation, sans parler d'une surveillance complète de la sécurité.
Un autre facteur clé empêche de comprendre clairement comment les modèles d'IA sont utilisés : la protection de la vie privée. Chez Anthropic, notre Claude Modèle par défautNe pas utiliser les données du dialogue avec l'utilisateur pour la formationet nous prenons très au sérieux la protection des données des utilisateurs. Comment pouvons-nous donc étudier et observer l'utilisation de nos systèmes tout en respectant strictement la vie privée des utilisateurs ?
Claude insights and observations, ou "Clio" en abrégé, est notre tentative de répondre à cette question ; Clio est un outil d'analyse automatisé qui permet une analyse préservant la vie privée de l'utilisation des modèles de langage dans le monde réel. Clio est un outil d'analyse automatisé qui permet d'analyser l'utilisation des modèles de langage dans le monde réel en préservant la vie privée. Il est similaire à Google Trends en ce sens qu'il nous donne un aperçu de la façon dont claude.ai est utilisé au quotidien, et nous aide également à améliorer nos mesures de sécurité. Dans ce billet (avecDocument de recherche complet), nous décrirons Clio et certains de ses résultats préliminaires.
Fonctionnement de Clio : analyse à grande échelle de la préservation de la vie privée
Les approches descendantes traditionnelles de la sécurité (par exemple, l'évaluation et les tests de l'équipe rouge) reposent sur la connaissance préalable de ce qu'il faut rechercher. Clio adopte une approche différente, permettant la découverte de modèles ascendants en distillant les conversations en grappes de sujets abstraits et faciles à comprendre. En même temps, il protège la vie privée des utilisateurs : les données sont automatiquement anonymisées et agrégées, et seules les informations sur les grappes de haut niveau sont visibles pour les analystes humains.

Exemple de schéma de l'étape d'analyse Clio, illustré à l'aide d'un exemple de dialogue fictif.
Vous trouverez ci-dessous un bref aperçu du processus Clio en plusieurs étapes :
- Extraction des propriétésPour chaque conversation, Clio extrait plusieurs "attributs" - des propriétés spécifiques ou des métadonnées, telles que le sujet de la conversation, le nombre d'allers-retours dans la conversation ou la langue utilisée.
- regroupement sémantiqueLes dialogues similaires sont automatiquement regroupés par thème ou par sujet général.
- Description de la grappeChaque groupe reçoit un titre descriptif et un résumé, distillant des thèmes communs dans les données brutes tout en excluant les informations privées.
- Construire une structure hiérarchiqueLes clusters sont organisés en une structure multicouche qui facilite l'exploration. Ils peuvent ensuite être présentés dans une interface interactive, que les analystes d'Anthropic peuvent utiliser pour explorer des modèles dans différentes dimensions (thèmes, langues, etc.).
Ces quatre étapes sont entièrement réalisées par Claude, et non par des analystes humains. Cela fait partie de la conception de Clio qui privilégie la protection de la vie privée, avec plusieurs niveaux de "défense en profondeur". Par exemple, Claude a pour instruction d'exclure les détails privés lorsqu'il extrait des informations pertinentes d'une conversation. Nous avons également fixé des seuils minimums pour le nombre d'utilisateurs uniques ou de conversations afin de garantir que les sujets à faible fréquence, qui peuvent être spécifiques à une personne en particulier, ne sont pas accidentellement exposés. Enfin, Claude vérifie que les résumés des grappes ne contiennent pas d'informations trop spécifiques ou identifiables avant de les afficher aux utilisateurs humains.
Toutes nos mesures de protection de la vie privée ont fait l'objet de tests approfondis et sont détaillées à l'adresse suivanteDocuments de recherche.
Comment les gens utilisent Claude : les enseignements de Clio
Avec Clio, nous avons pu obtenir des informations de haut niveau sur la façon dont les gens utilisent claude.ai. Alors que des sites comme WildChat répondre en chantant LMSYS-Chat-1M Clio nous donne une idée de l'ensemble des scénarios dans lesquels claude.ai est utilisé dans le monde réel (qui peut être différent de l'utilisation d'autres systèmes d'IA en raison des différences dans les populations d'utilisateurs et les types de modèles).
Principaux cas d'utilisation de Claude.ai
Nous avons utilisé Clio pour analyser 1 million de conversations sur claude.ai (versions gratuite et pro) afin d'identifier les principales tâches pour lesquelles les utilisateurs utilisent Claude. Il en ressort que les utilisateurs se concentrent particulièrement sur les tâches liées à la programmation : la catégorie "Développement d'applications web et mobiles" représente plus de 10% de toutes les conversations. Les développeurs de logiciels utilisent Claude pour des tâches allant du débogage de code à l'explication des opérations et concepts Git.

Les types de conversations les plus courants entre les utilisateurs et Claude, toutes langues confondues. La surface du cercle correspond au pourcentage de conversations ; les titres sont des résumés générés par Clio après analyse d'un million de conversations sélectionnées au hasard.
L'utilisation à des fins éducatives est une autre catégorie importante, représentant plus de 7% du nombre total de dialogues et couvrant principalement l'enseignement et l'apprentissage. La stratégie et les opérations commerciales (y compris des tâches telles que la rédaction de communications professionnelles et l'analyse de données commerciales) représentent près de 6% du dialogue.
Clio identifie également des milliers de groupes de dialogue plus petits, démontrant la diversité des utilisations de Claude. Certaines de ces utilisations peuvent être surprenantes :
- Interprétation des rêves ;
- Analyse des matchs de football ;
- Préparation aux interventions en cas de catastrophe ;
- Fournit des conseils pour les mots croisés ;
- Donjons et Dragons Jeux ;
- Comptez la lettre "r" dans le mot "fraise".
L'utilisation de Claude varie d'une langue à l'autre
L'utilisation de Claude varie considérablement d'une langue à l'autre, reflétant des contextes culturels et des besoins différents. Nous avons calculé la fréquence de base de chaque langue dans l'ensemble du dialogue et, à partir de là, nous avons identifié certains thèmes qui apparaissaient beaucoup plus fréquemment dans des langues particulières. Quelques exemples pour l'espagnol, le chinois et le japonais sont présentés ci-dessous.

Aperçu de Clio sur les sujets de dialogue qui apparaissent plus fréquemment dans trois langues sélectionnées (par rapport à la fréquence sous-jacente de cette langue).
Comment nous avons utilisé Clio pour améliorer notre système de sécurité
En plus d'entraîner nos modèles linguistiques à rejeter les demandes nuisibles, nous utilisons des systèmes spécialisés de confiance et d'application des règles de sécurité pour détecter, bloquer et répondre aux demandes susceptibles d'enfreindre nos règles de sécurité et de confidentialité. Politique d'utilisation Clio a contribué à ce travail en nous aidant à comprendre où nous pouvons améliorer ces systèmes.
Nous avons mis en place des contrôles d'accès stricts en matière de confidentialité dans le cadre de notre utilisation de Clio afin de renforcer notre politique, car cela peut nécessiter un examen des comptes individuels. Notre équipe "Confiance et sécurité" peut identifier des domaines susceptibles d'indiquer une violation de notre politique d'utilisation par le biais d'examens de groupes de sujets. Par exemple, un groupe intitulé "Générer du contenu trompeur dans les courriels de collecte de fonds" ou "Inciter à un comportement haineux" décrit des activités que nous interdisons. Notre équipe "Confiance et sécurité" peut utiliser cette approche ascendante pour identifier les comptes individuels qui nécessitent un examen plus approfondi et, le cas échéant, une action conformément à nos conditions et politiques. Nous limitons strictement ces examens à ceux qui répondent à des besoins légitimes en matière de confiance et de sécurité. Notre équipe de la confiance et de la sécurité Documents de recherche Contient plus d'informations sur ces processus.
Nous sommes encore en train de déployer Clio dans tous nos systèmes exécutifs, mais jusqu'à présent il s'est avéré être un élément utile de notre boîte à outils de sécurité, nous aidant à identifier les domaines dans lesquels nous devons renforcer nos mesures de protection.
Identifier et mettre fin à un comportement abusif coordonné
Clio est très efficace pour identifier des schémas d'abus coordonnés et complexes qui peuvent être indétectables à partir de conversations individuelles et qui peuvent échapper à des méthodes de détection plus simples. Par exemple, fin septembre, nous avons découvert un ensemble de comptes automatisés qui utilisaient une structure d'invite similaire pour générer du contenu spammy à des fins de référencement. Bien qu'aucune conversation individuelle n'ait violé notre Politique d'utilisationNous avons supprimé ce groupe de comptes, mais le modèle de comportement entre les comptes a révélé une forme d'abus coordonné de la plateforme que notre politique interdit explicitement. Nous avons également utilisé Clio pour identifier d'autres comptes qui avaient été identifiés par notre Politique d'utilisation Activités interdites, telles que la tentative de revente d'un accès non autorisé à Claude.
Surveillance renforcée des événements à haut risque
Clio nous aide également à surveiller les nouveaux modèles d'utilisation et les risques potentiels pendant les périodes d'incertitude ou les événements à haut risque. Par exemple, lors du lancement de notre nouvelle Utilisation de l'ordinateur Avant la mise en place de cette fonctionnalité, nous avons effectué des tests de sécurité approfondis en utilisant Clio afin de détecter les capacités émergentes et les risques qui auraient pu être ignorés. Clio nous a fourni des informations supplémentaires en matière de sécurité qui nous aideront à améliorer continuellement les mesures de sécurité lors du déploiement de la fonctionnalité et dans les futures versions du système.
Clio nous aide également à surveiller les risques inconnus à l'approche d'événements publics majeurs, tels que les élections ou les grands événements internationaux. Dans les mois qui précèdent les élections américaines de 2024, nousUtiliser Clio En identifiant des groupes d'activités liées à la politique, au vote et aux questions connexes aux États-Unis et en prévenant tout risque ou abus potentiel, la capacité de Clio à détecter les "inconnus inconnus" complète nos mesures de sécurité proactives et nous aide à répondre rapidement à de nouveaux défis.
Réduction des faux négatifs et des faux positifs
En règle générale, Clio et nos classificateurs de confiance et de sécurité existants s'accordent sur la détermination du risque des groupes de sessions. Toutefois, il existe des désaccords pour certains groupes. Une possibilité d'amélioration consiste à réduire les faux négatifs (c'est-à-dire que le système ne signale pas comme contenu potentiellement dangereux des sessions qui pourraient en fait l'être). Par exemple, lorsqu'un utilisateur demande à Claude de traduire d'une langue à l'autre, notre système ne signale pas toujours le contenu incriminé, et Clio reconnaît ces sessions.

Le nuage de points montre les groupes de sessions (un point représente un groupe) et la mesure dans laquelle ils sont considérés comme risqués par le classificateur de confiance et de sécurité (axe des x) et par Clio (axe des y). Dans le coin supérieur gauche se trouvent les clusters qui peuvent être sous-estimés comme risqués par le classificateur de confiance et de sécurité : les faux négatifs qui contiennent un contenu inquiétant mais ne sont pas étiquetés comme tels. Dans le coin inférieur droit se trouvent les groupes susceptibles d'être surévalués : les faux positifs qui ne contiennent pas nécessairement de contenu inquiétant. La corrélation globale entre le classificateur Trust & Safety et la classification Clio est de r = 0,71, ce qui indique une concordance globale élevée entre les deux.
Nous utilisons également Clio pour étudier les faux positifs, un autre défi courant lors de l'élaboration de classificateurs de confiance et de sécurité, lorsque le classificateur qualifie à tort un contenu inoffensif de préjudiciable. Par exemple, les sessions dans lesquelles les demandeurs d'emploi demandent des conseils sur leur CV sont parfois étiquetées à tort comme contenant des informations personnelles. Les problèmes de programmation liés à la sécurité, à la mise en réseau ou à l'exploration du web sont parfois étiquetés à tort comme des cas potentiels de piratage. Même les Donjons et Dragons Les sessions de jeu portant sur les statistiques de combat peuvent également déclencher notre système de détection des dangers. Nous utilisons Clio pour mettre en évidence ces faux positifs, ce qui permet à notre système de sécurité de ne se déclencher que sur les contenus qui enfreignent nos politiques, tout en limitant au maximum l'intervention dans l'utilisation légitime de l'utilisateur.
Considérations éthiques et mesures d'atténuation
Clio fournit des informations précieuses sur l'amélioration de la sécurité des grands modèles de langage déployés. Cependant, il a également soulevé d'importantes considérations éthiques au cours de son développement, que nous avons évaluées et sur lesquelles nous avons agi en conséquence :
- Faux positifs : Dans le contexte de la confiance et de la sécurité, nous avons mis en œuvre des mesures de protection essentielles contre les faux positifs potentiels. Par exemple, nous n'utilisons pas actuellement les résultats de Clio pour l'exécution automatisée de mesures et nous avons largement validé ses performances pour différentes distributions de données, y compris les tests multilingues détaillés dans notre article.
- Le risque d'abus de Clio : Des systèmes comme Clio peuvent être utilisés de manière inappropriée pour des pratiques de surveillance. Outre des techniques strictes de contrôle d'accès et de protection de la vie privée, nous atténuons ce risque en mettant en œuvre une politique stricte de minimisation et de conservation des données : nous ne collectons et ne conservons que la quantité minimale de données nécessaires à Clio.
- Vie privée de l'utilisateur : Bien que Clio obtienne de bons résultats dans nos évaluations de la protection de la vie privée, comme dans tout système de protection de la vie privée dans le monde réel, certains types d'informations privées peuvent ne pas être reconnus. Pour atténuer ce risque potentiel, nous vérifions régulièrement les mesures de protection de la vie privée et les évaluations de Clio afin de nous assurer que ces mesures répondent aux attentes. Au fil du temps, nous prévoyons également d'utiliser le dernier modèle de Claude dans Clio pour améliorer continuellement les performances de ces protections.
- Confiance des utilisateurs : Malgré les protections étendues de la vie privée que nous fournissons, certains utilisateurs peuvent trouver des systèmes comme Clio intrusifs ou interférer avec leur utilisation de Claude. Nous avons choisi d'être transparents sur les utilisations, les capacités et les limites de Clio, ainsi que sur les informations que nous en tirons. Comme nous l'avons mentionné, Clio identifie les faux positifs (c'est-à-dire les activités qui semblent violer la politique d'utilisation mais qui en réalité ne le font pas) dans notre classificateur de sécurité standard, ce qui peut nous permettre de moins intervenir lorsqu'il y a interférence avec des utilisations légitimes du modèle.
rendre un verdict
Clio est une étape importante vers la sécurité et la gouvernance de l'IA avec un soutien empirique. En soutenant des analyses préservant la vie privée de l'utilisation de l'IA dans le monde réel, nous pouvons mieux comprendre comment ces systèmes sont réellement utilisés. En fin de compte, nous pouvons utiliser Clio pour rendre les systèmes d'IA plus sûrs.
Les fournisseurs d'IA ont une double responsabilité : maintenir la sécurité de leurs systèmes et protéger la vie privée des utilisateurs, et Clio démontre que ces deux objectifs ne s'excluent pas mutuellement - avec une conception et une mise en œuvre soignées, nous pouvons atteindre les deux en même temps. En discutant publiquement de Clio, nous visons à établir une norme positive autour du développement et de l'utilisation responsables de tels outils.
Nous continuons à développer et à améliorer Clio et nous souhaitons que d'autres s'en inspirent. Pour en savoir plus sur les détails techniques de Clio, y compris nos méthodes de vérification et d'évaluation de la protection de la vie privée, voir Document de recherche complet.
Nous recrutons actuellement pour l'équipe Impact social. Si vous êtes intéressé par Clio ou par des questions de recherche connexes, nous attendons votre candidature. Pour plus d'informations sur le poste, veuillez consulterce lien.
notes de bas de page
^1 ^ Dans nos enquêtes de sécurité, nous exécutons également Clio sur une partie de notre trafic API de première partie, avec des résultats limités aux employés autorisés. Certains comptes sont exclus de l'analyse, notamment les organisations de confiance avec lesquelles nous n'avons aucun accord de conservation. Pour plus d'informations sur nos politiques, voir l'annexe F du document de recherche.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...