Anthropic Deep Dive Claude : Révéler les processus de prise de décision et de raisonnement dans les grands modèles linguistiques
ressembler Claude
Ces grands modèles linguistiques (LLM) ne sont pas créés par des humains qui écrivent un code de programmation direct ; ils sont formés à partir d'énormes quantités de données. Au cours de ce processus, les modèles eux-mêmes apprennent des stratégies de résolution de problèmes. Ces stratégies sont cachées dans les milliards de calculs que le modèle effectue pour générer chaque mot, et le fonctionnement interne du modèle est une boîte noire pour les développeurs. Cela signifie que nous ne savons pas vraiment comment le modèle accomplit la plupart de ses tâches.
compréhensions Claude
La façon dont ces modèles "pensent" nous aide à mieux comprendre les limites de leurs capacités et à nous assurer qu'ils se comportent comme prévu. En voici un exemple :
Claude
Il parle couramment des dizaines de langues. Dans son "esprit", dans quelle langue pense-t-il ? Ou existe-t-il une "langue de la pensée" universelle ?Claude
L'écriture est générée mot par mot. S'agit-il simplement de prédire le mot suivant ou de planifier à l'avance le contenu ultérieur ?Claude
Il est possible de rédiger un raisonnement étape par étape. Cette explication est-elle le véritable chemin qui mène à la réponse, ou s'agit-il d'un argument apparemment raisonnable, parfois concocté au nom d'une conclusion arrêtée ?
Inspirés par le domaine des neurosciences, des chercheurs tentent de construire un "microscope d'IA". Les neurosciences étudient depuis longtemps le fonctionnement interne complexe des organismes pensants, et ce microscope de l'IA vise à identifier les schémas d'activité et les flux d'informations au sein du modèle. Se contenter de parler à un modèle d'IA pour comprendre ses mécanismes internes est limité - après tout, même les neuroscientifiques ne connaissent pas tous les détails du fonctionnement du cerveau humain. Il est donc nécessaire d'aller au fond des choses.
Dans un avenir proche.Anthropic
L'équipe a présenté deux nouveaux articles démontrant les progrès réalisés dans le développement de ce "microscope" et son application à l'observation de la "biologie de l'IA" émergente. Dans l'article Premier document Dans ce document, ils étendent la Travaux antérieursOutre la localisation de concepts interprétables (appelés "caractéristiques") dans le modèle, ces caractéristiques sont connectées à des "boucles" informatiques qui révèlent une partie du chemin de transformation du texte d'entrée en texte de sortie. En Deuxième document Dans ce document, l'équipe de recherche s'est penchée sur les questions suivantes Claude 3.5 Haiku
une analyse approfondie a été menée pour des tâches simples représentant dix comportements clés du modèle, y compris les trois problèmes mentionnés ci-dessus. Cette approche révèle les Claude
Une partie de ce qui se passe en interne lorsqu'on répond à une invite suffit à fournir une preuve solide de ce fait :
Claude
Il pense parfois dans un espace conceptuel commun à plusieurs langues, ce qui suggère qu'il pourrait avoir un "langage de pensée" universel. Pour ce faire, les chercheurs ont traduit des phrases simples en plusieurs langues et ont suivi l'évolution de la pensée de l'animal.Claude
Les schémas de chevauchement de l'activité interne lors du traitement de ces phrases en témoignent.Claude
Il planifie à l'avance ce qu'il va dire, même plusieurs mots à l'avance, et organise ensuite le langage pour atteindre cet objectif. Dans le cas de l'écriture de poèmes, le modèle envisage à l'avance les rimes possibles et construit la ligne de vers suivante en conséquence. Cela montre bien que, bien que les modèles soient entraînés à produire un mot à la fois, ils peuvent penser à plus long terme pour atteindre cet objectif.Claude
Des arguments qui semblent raisonnables mais qui ne reposent pas sur des étapes logiques sont parfois donnés dans le seul but de plaire à l'utilisateur. Les chercheurs ont demandé au modèle de résoudre un problème mathématique difficile et lui ont délibérément donné de faux indices. Ils ont pu "capturer" le moment où le modèle a fabriqué un faux processus de raisonnement, fournissant ainsi une première preuve que ces outils peuvent être utilisés pour signaler des mécanismes de risque potentiels préoccupants dans les modèles.
Les résultats du modèle sont souvent inattendus au cours du processus de recherche. Dans l'étude de cas sur la poésie, l'équipe de recherche a d'abord essayé de prouver que le modèle ne sera pas (n'agira pas, n'arrivera pas, etc.) La planification à l'avance s'avère être le contraire. Une étude sur les "illusions" (modèles fabriquant des informations) a abouti à un résultat contre-intuitif :Claude
est de refuser de deviner les questions dont il ne connaît pas la réponse, seulement si un mécanisme est mis en place. inhibiteur Le modèle ne répondait à cette "réticence" par défaut que lorsqu'il était conscient qu'on lui demandait des informations dangereuses. En analysant un cas de "jailbreaking" (contournement des restrictions de sécurité), ils ont constaté que le modèle était conscient du danger d'être invité à fournir des informations avant de réussir à ramener subtilement la conversation sur le thème de la sécurité. Bien que ces questions puissent être analysées d'autres manières (et définitif non récurrent occupé (comme dans les toilettes) faire qqch. comme ceci), mais cette approche générique de "microscope de construction" permet aux chercheurs d'apprendre beaucoup de choses qui n'avaient pas été prévues au préalable. Cela deviendra de plus en plus important au fur et à mesure que les modèles deviendront plus complexes.
Ces résultats ne sont pas seulement intéressants d'un point de vue scientifique, ils représentent également un progrès important dans la compréhension des systèmes d'intelligence artificielle et dans la garantie de leur fiabilité. L'équipe espère que ces résultats seront utiles à d'autres groupes de recherche et même à d'autres domaines. Par exemple, les techniques d'interprétabilité ont été imagerie médicale répondre en chantant génomique et d'autres domaines trouvent des applications, car la dissection des mécanismes internes des modèles formés pour des applications scientifiques peut révéler de nouvelles connaissances sur la science elle-même.
En même temps, les chercheurs reconnaissent les limites des méthodes actuelles. Même pour des signaux courts et simples, leur méthode ne permet de saisir que la partie de l'image la plus importante. Claude
Une petite fraction du calcul total effectué. Les mécanismes observés peuvent être influencés par l'outil lui-même et ne reflètent pas entièrement la réalité du modèle sous-jacent. Actuellement, même l'analyse des circuits correspondant à des indices de quelques dizaines de mots seulement nécessite des heures de travail. Le passage à l'échelle des milliers de mots nécessaires pour sous-tendre les chaînes de pensée complexes des modèles modernes nécessitera des améliorations de la méthode elle-même, et éventuellement une compréhension des phénomènes observés assistée par l'IA.
Alors que les capacités des systèmes d'IA augmentent rapidement et qu'ils sont déployés dans des scénarios de plus en plus importants, lesAnthropic
Diverses approches sont mises en œuvre pour relever les défis, notamment suivi en temps réel,Amélioration des caractéristiques du modèle aussi science de l'alignement. La recherche interprétable comme celle-ci est l'un des apports les plus risqués et potentiellement les plus rentables. Il s'agit d'un défi scientifique majeur, mais qui promet de fournir un outil unique pour garantir la transparence de l'IA. La transparence des mécanismes d'un modèle nous permet de vérifier s'il est conforme aux valeurs humaines et s'il est digne de confiance.
Pour plus de détails, voir Documents méthodologiques répondre en chantant Documents d'étude de casVoici un bref aperçu des résultats les plus convaincants de l'étude sur la "biologie de l'IA". Voici un bref aperçu des résultats les plus convaincants de l'étude sur la "biologie de l'IA".
Aperçu de la biologie de l'IA
Comment Claude atteint-il le multilinguisme ?
Claude
Il parle couramment des dizaines de langues, de l'anglais au français en passant par le chinois et le tagalog. Comment fonctionne ce multilinguisme ? Existe-t-il un "Claude français" et un "Claude chinois" fonctionnant en parallèle, chacun répondant aux demandes dans la langue correspondante ? Ou existe-t-il une sorte de mécanisme de base multilingue ?
Les caractéristiques communes à l'anglais, au français et au chinois suggèrent un certain degré d'universalité conceptuelle.
Des études récentes portant sur des modèles plus restreints ont montré que des profiter ensemble le vocabulaire signes du mécanisme. Pour ce faire, les chercheurs ont fait Claude
En répondant à la question "Quel est le contraire de petit ?" dans différentes langues, ils ont constaté que les caractéristiques essentielles représentant les concepts de "petit" et de "contraire" étaient activées et déclenchaient le concept de "grand", qui était finalement traduit dans la langue dans laquelle la question était posée. Ils ont constaté que les caractéristiques centrales représentant les concepts de "petit" et "opposé" étaient activées et déclenchaient le concept de "grand", qui était finalement traduit dans la langue dans laquelle la question était posée. Ils ont constaté que la proportion de circuits partagés augmentait avec la taille du modèle.Claude 3.5 Haiku
La proportion de caractéristiques partagées entre les langues est plus de deux fois supérieure à celle de certains modèles plus petits.
Cela apporte une preuve supplémentaire de l'universalité conceptuelle - l'existence d'un espace abstrait partagé où le sens existe et où la pensée a lieu avant qu'elle ne soit traduite dans une langue particulière. D'un point de vue plus pratique, cela suggère que Claude
Les connaissances peuvent être apprises dans une langue et appliquées dans une autre. L'étude de la manière dont les modèles partagent les connaissances entre les contextes est cruciale pour comprendre leurs capacités de raisonnement de pointe pour la généralisation inter-domaines.
Claude sait-il faire des rimes ?
Claude
Comment créer des poèmes qui riment ? Réfléchissez aux deux lignes suivantes :
Il a vu une carotte et a dû l'attraper.
Sa faim était celle d'un lapin affamé
Pour écrire la deuxième phrase, le modèle doit satisfaire à deux contraintes : la rime (rime avec "attraper") et la cohérence sémantique (pourquoi a-t-il attrapé la carotte ?). . Les chercheurs ont d'abord supposé queClaude
écrit et réfléchit en même temps, et ne s'assure que le dernier mot rime que presque à la fin. Ils s'attendaient donc à voir une boucle contenant des chemins parallèles, un chemin chargé de s'assurer que le dernier mot avait un sens et l'autre chargé de s'assurer qu'il rimait.
Cependant, ils ont constaté que Claude
En fait, il s'agit planification prévisionnelleAvant d'écrire la deuxième ligne. Avant même de commencer à écrire la deuxième ligne, le modèle "réfléchit" intérieurement à des mots potentiels qui riment avec "saisir" et qui sont pertinents pour le sujet. Ensuite, avec ces plans en tête, il écrit un vers qui se termine par le mot prévu.
Processus de Claude pour compléter un poème de deux lignes. En l'absence d'intervention (en haut), le modèle a prévu la rime "lapin" à la fin du deuxième vers. En supprimant le concept de "lapin" (au milieu), le modèle a utilisé une autre rime prévue. En injectant le concept "vert" (en bas), le modèle a prévu cette fin complètement différente.
Pour comprendre comment ce mécanisme de planification fonctionne en pratique, les chercheurs ont mené une expérience inspirée des neurosciences. Les neuroscientifiques étudient le fonctionnement du cerveau en localisant et en modifiant l'activité neuronale dans des parties spécifiques du cerveau (par exemple à l'aide de courants électriques ou d'impulsions magnétiques). De la même manière, les chercheurs ont modifié Claude
La partie de l'état interne qui représente le concept de "lapin". Lorsqu'ils soustraient la partie "lapin", ils laissent la partie "lapin" à l'état interne. Claude
Au fur et à mesure qu'elle se poursuit, elle écrit une nouvelle phrase se terminant par "habit", ce qui constitue une autre suite logique. Il aurait également pu introduire le concept de "vert" à ce stade, ce qui aurait conduit à Claude
Rédigez une phrase qui a du sens, mais qui ne rime plus et qui se termine par "vert". Cela démontre à la fois la capacité de planification du modèle et son adaptabilité - lorsque le résultat escompté change, le modèle de laClaude
Capable d'adapter sa méthodologie.
le calcul mental révélé
Claude
Il n'a pas été conçu à l'origine comme une calculatrice. Il a été formé sur des données textuelles et n'a pas été équipé d'algorithmes mathématiques spécialisés. Mais il est capable d'effectuer des additions correctement "dans sa tête". Comment un système formé pour prédire le mot suivant dans une séquence peut-il apprendre à calculer, par exemple, 36+59 sans écrire les étapes ?
La réponse est peut-être simple : le modèle peut avoir mémorisé un grand nombre de tables d'addition et de résultats de sortie simplement parce que les réponses se trouvaient dans ses données d'apprentissage. Une autre possibilité est qu'il suive l'algorithme traditionnel d'addition verticale que nous avons appris à l'école.
L'étude a révélé queClaude
Plusieurs voies de calcul fonctionnant en parallèle sont utilisées. L'une d'entre elles calcule une approximation de la réponse, tandis qu'une autre se concentre sur la détermination précise du dernier chiffre de la somme. Ces chemins interagissent et se combinent pour produire la réponse finale. Aussi simple que soit l'addition, la compréhension de son fonctionnement à ce niveau - un mélange de stratégies d'approximation et de précision - peut nous permettre de comprendre le processus d'addition. Claude
Comment traiter des problèmes plus complexes. Cela s'apparente à la façon dont les humains peuvent utiliser à la fois des stratégies d'estimation et de calcul exact lorsqu'ils effectuent des calculs mentaux.
Le cheminement parallèle et complexe de la pensée de Claude lors d'un calcul mental.
Il convient de noter queClaude
Il ne semble pas être conscient des stratégies complexes de "calcul mental" qu'il apprend au cours de sa formation. Si vous lui demandez comment il calcule que 36+59 est égal à 95, il décrira l'algorithme standard impliquant l'arrondi. Cela peut s'expliquer par le fait que le modèle apprend à interpréter les mathématiques en imitant les explications écrites de l'homme, mais il doit apprendre à faire les calculs "dans sa tête" directement, sans aucune incitation, et développe donc ses propres stratégies internes.
Claude affirme qu'il utilise un algorithme standard pour calculer la somme de deux nombres.
L'interprétation de Claude est-elle toujours fidèle ?
Les modèles récemment mis sur le marché, tels que Claude 3.7 Sonnet
La réponse peut être donnée dans une longue chaîne de "réflexion à haute voix" avant que la réponse finale ne soit donnée. Cette réflexion prolongée conduit généralement à de meilleures réponses, mais parfois la chaîne de pensée peut finir par être trompeuse ;Claude
Parfois, il invente des étapes apparemment logiques pour obtenir ce qu'il veut. Le problème, du point de vue de la fiabilité, est que Claude
Un raisonnement "faux" peut être très persuasif. Les chercheurs ont étudié un moyen d'utiliser l'interprétabilité pour distinguer les raisonnements "fidèles" des raisonnements "infidèles".
Lorsqu'on lui demande de résoudre un problème nécessitant le calcul de la racine carrée de 0,64Claude
produit une chaîne de pensée fidèle dont les caractéristiques internes représentent les étapes intermédiaires du calcul de la racine carrée de 64. Cependant, lorsqu'on lui demande de calculer le cosinus d'un grand nombre qu'il ne peut pas calculer facilement, leClaude
S'engageant parfois dans ce que le philosophe Harry Francfort a appelé " l'art d'être un homme ".dire des bêtises"(bullshitting) - Donner une réponse au hasard sans se soucier de savoir si elle est vraie ou fausse. Bien qu'il prétende avoir effectué un calcul, les techniques d'interprétabilité montrent qu'il n'y a aucune preuve que le calcul ait réellement eu lieu. Plus intéressant encore, lorsqu'on lui donne un indice sur la réponseClaude
Parfois, la dérivation est inversée, en recherchant des étapes intermédiaires qui peuvent mener à cet objectif, démontrant ainsi une approche de la gestion des risques. raisonnement motivé (Ce comportement se retrouve dans l'IA sous la forme d'un raisonnement motivé. La découverte de ce comportement de "justification des conclusions" dans l'IA est un rappel important que nous ne pouvons pas faire confiance à l'auto-interprétation des modèles.
Exemples de raisonnement fidèle et de raisonnement motivé (infidèle) lorsqu'on pose à Claude des questions plus faciles et plus difficiles.
suivre une piste Claude
pratique Raisonnement interne (et pas seulement lui)affirmation(ce qu'ils font) ouvre de nouvelles possibilités d'audit des systèmes d'IA. Dans le cadre d'un Expériences récentes publiées Dans cette étude, les chercheurs ont examiné les Claude
Une variante de ce modèle a été entraînée à poursuivre un objectif caché : faire appel aux biais des modèles de récompense (modèles auxiliaires utilisés pour entraîner les modèles de langage en récompensant les comportements souhaités pour guider l'entraînement). Bien que le modèle ait été réticent à révéler cet objectif lorsqu'on le lui demandait directement, l'approche de l'interprétabilité révèle des caractéristiques qui représentent un "biais d'appel". Cela suggère que, grâce à de futures améliorations technologiques, ces méthodes pourraient permettre d'identifier des "processus de pensée" inquiétants qui ne sont pas détectables dans le seul résultat du modèle.
capacité de raisonnement en plusieurs étapes
Comme nous l'avons déjà mentionné, un modèle de langage peut répondre à des questions complexes en se souvenant simplement de la réponse. Par exemple, si on lui demande "Quelle est la capitale de l'État dans lequel se trouve Dallas ?" un modèle qui ne fait que "répéter" peut simplement apprendre à produire "Austin" sans connaître la relation entre Dallas, le Texas et Austin. Il a peut-être vu exactement la même question et la même réponse pendant la formation.
Mais l'étude révèle que Claude
Il se passe quelque chose de plus complexe en interne. Lorsque les chercheurs se sont adressés à Claude
Lorsqu'ils sont confrontés à un problème nécessitant un raisonnement en plusieurs étapes, ils peuvent identifier les étapes conceptuelles intermédiaires de leur processus de réflexion. Dans l'exemple de Dallas, ils ont observé que Claude
L'élément représentant "Dallas est au Texas" est d'abord activé, puis connecté à un concept distinct indiquant que "la capitale du Texas est Austin". En d'autres termes, le modèle est combinatoire des faits indépendants pour parvenir à une réponse, plutôt que de répéter une réponse mémorisée.
Pour compléter la réponse à cette phrase, Claude effectue plusieurs étapes d'inférence, en extrayant d'abord l'état dans lequel Dallas est situé, puis en identifiant sa capitale.
Cette approche permet aux chercheurs de modifier artificiellement l'étape intermédiaire et d'observer comment elle affecte le processus de production. Claude
La réponse à la question. Par exemple, dans l'exemple ci-dessus, ils pourraient intervenir et remplacer le concept de "Texas" par le concept de "Californie" ; après avoir fait cela, la sortie du modèle passe de "Austin" à "Sacramento". Ce faisant, la sortie du modèle passe de "Austin" à "Sacramento". Cela suggère que le modèle utilise des étapes intermédiaires pour déterminer sa réponse finale.
Racines de "hallucinations"
Pourquoi les modèles linguistiques sont-ils parfois halluciner (halluciner), c'est-à-dire inventer des informations ? Fondamentalement, la manière dont les modèles de langage sont formés peut elle-même motiver l'hallucination : on demande toujours au modèle de donner une estimation du mot suivant. De ce point de vue, le principal défi consiste à faire en sorte que le modèle (préfixe négatif) Hallucination. Comme Claude
Ces modèles bénéficient d'une formation anti-illusion relativement réussie (bien qu'imparfaite) ; s'ils ne connaissent pas la réponse, ils refusent généralement de répondre à la question plutôt que de faire une supposition. Les chercheurs veulent comprendre comment cela fonctionne.
Il a été constaté qu'en Claude
Parmi ceux-ci, le refus de répondre a été Comportement par défautIls ont constaté l'existence d'une boucle "activée" par défaut qui permettait au modèle de déclarer qu'il ne disposait pas de suffisamment d'informations pour répondre à une question donnée. Toutefois, lorsque le modèle est interrogé sur un sujet qui lui est familier, comme le joueur de basket-ball Michael Jordan, une caractéristique concurrente représentant une "entité connue" s'active et supprime cette boucle "on" par défaut (voir également la section sur l'"entité connue"). (voir aussi la section sur l'"entité connue"). Ce document récent (les résultats pertinents). Cela permet Claude
Il est capable de répondre à des questions lorsqu'il connaît la réponse. En revanche, lorsqu'il est interrogé sur une entité inconnue ("Michael Batkin"), il refuse de répondre.
À gauche : Claude répond à une question sur une entité connue (le joueur de basket-ball Michael Jordan), lorsque la notion de "réponses connues" supprime son comportement de refus par défaut. À droite : Claude refuse de répondre à une question concernant une personne inconnue (Michael Batkin).
En intervenant dans le modèle et en activant la fonction "réponse connue" (ou en supprimant la fonction "nom inconnu" ou "sans réponse"), les chercheurs ont pu Induire des hallucinations chez des modèles(Et de manière assez cohérente !) ), fait croire que Michael Batkin joue aux échecs.
Parfois, ce "raté" dans le circuit de la "réponse connue" se produit naturellement, sans intervention humaine, et conduit à des hallucinations. Le document de recherche indique que lorsque Claude
Cela peut se produire lorsqu'un nom est reconnu mais que l'on ne sait rien à son sujet. Dans ce cas, la caractéristique "entité connue" peut encore être activée, ce qui supprime la caractéristique par défaut "ne sait pas" - et c'est là que les choses tournent mal. Une fois que le modèle décide qu'il doit répondre à la question, il commence à inventer des choses : il génère une réponse qui semble raisonnable mais qui est malheureusement fausse.
Comprendre "Prison Break"
Les "jailbreaks" sont des stratégies de repérage conçues pour contourner les barrières de sécurité afin d'amener un modèle à produire des résultats que ses développeurs ne veulent pas qu'il produise (et qui sont parfois nuisibles). Les chercheurs ont étudié une méthode de jailbreak qui incite les modèles à produire des informations sur la fabrication de bombes. Il existe diverses techniques de jailbreak, et la méthode spécifique dans ce cas consistait à amener le modèle à déchiffrer un code caché en assemblant la première lettre de chaque mot de la phrase "Babies Outlive Mustard Block" (B-O-M-B), puis à agir sur la base de cette information. Le modèle a été suffisamment dérouté pour produire des résultats qu'il n'aurait jamais produits dans des circonstances normales.
Après avoir été incité à dire "BOMB", Claude commence à donner des instructions pour fabriquer la bombe.
Pourquoi est-ce si déroutant pour le modèle ? Pourquoi continuerait-on à écrire des instructions pour la fabrication de bombes ?
Il a été constaté que cela était en partie dû à la tension entre la cohérence grammaticale et les mécanismes de sécurité. Une fois que Claude
En commençant une phrase, de nombreuses caractéristiques internes le "poussent" à maintenir la cohérence grammaticale et sémantique et à terminer la phrase. C'est le cas même lorsqu'il détecte qu'il devrait vraiment refuser.
Dans l'étude de cas, après que le modèle a épelé par inadvertance "BOMB" et a commencé à donner des instructions, les chercheurs ont observé que sa production ultérieure était influencée par des caractéristiques qui favorisent l'exactitude grammaticale et la cohérence personnelle. Ces caractéristiques sont normalement très utiles, mais dans ce cas, elles sont devenues le "talon d'Achille" du modèle.
Le modèle ne parvient à se tourner vers le rejet que lorsqu'il a complété une phrase grammaticalement cohérente (et donc satisfait aux pressions exercées par les caractéristiques qui le poussent à rester cohérent). Il saisit l'occasion de la nouvelle phrase pour émettre le type de rejet qu'il n'avait pas réussi à émettre auparavant : "Cependant, je ne peux pas fournir un compte-rendu détaillé de ..." .
Cycle de vie d'une évasion : Claude est invité à parler de la bombe comme un appât et commence à le faire, mais refuse après avoir atteint la fin d'une phrase grammaticalement valide.
Une description de la nouvelle approche de l'interprétabilité peut être trouvée dans le premier article "Traçage de circuits : révéler les graphes informatiques dans les modèles de langage". De plus amples détails sur toutes les études de cas susmentionnées sont disponibles dans le deuxième document "Sur la biologie d'un grand modèle linguistique". Cette étude, qui compare les rouages de l'IA à la "biologie", offre une perspective nouvelle et éclairante pour comprendre ces systèmes intelligents de plus en plus puissants, même si le chemin à parcourir est encore long.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...