Claude de la inmersión profunda antrópica: revelar los procesos de toma de decisiones y razonamiento en grandes modelos lingüísticos

Base de conocimientos de IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

34.2K 00

se parecen a Claude Estos grandes modelos lingüísticos (LLM) no son creados por humanos que escriben directamente código de programación, sino que se entrenan con enormes cantidades de datos. En el proceso, los propios modelos aprenden estrategias de resolución de problemas. Estas estrategias están ocultas en los miles de millones de cálculos que realiza el modelo para generar cada palabra, y su funcionamiento interno es como una caja negra para los desarrolladores. Esto significa que no sabemos realmente cómo realiza el modelo la mayoría de sus tareas.

comprensión Claude Cómo "piensan" estos modelos nos ayuda a comprender mejor los límites de sus capacidades y a garantizar que se comporten como se espera de ellos. Por ejemplo:

Claude Domina decenas de idiomas. En su "mente", ¿en qué idioma piensa? ¿O existe un "lenguaje del pensamiento" universal?
Claude La escritura se genera palabra por palabra. ¿Se limita a predecir la siguiente palabra o planifica con antelación el contenido posterior?
Claude Se puede escribir un proceso de razonamiento paso a paso. ¿Es esta explicación el verdadero camino por el que se llega a una respuesta, o se trata de un argumento aparentemente razonable urdido a veces en aras de una conclusión establecida?

Inspirándose en el campo de la neurociencia, los investigadores intentan construir un "microscopio de IA". La neurociencia lleva mucho tiempo estudiando el complejo funcionamiento interno de los organismos pensantes, y este microscopio de IA pretende identificar patrones de actividad y flujo de información dentro del modelo. Hablar simplemente con un modelo de IA para entender sus mecanismos internos es limitado; al fin y al cabo, ni siquiera los neurocientíficos conocen todos los detalles del funcionamiento del cerebro humano. Por eso es necesario mirar en su interior.

En un futuro próximo.Anthropic El equipo compartió dos nuevos artículos que demuestran sus avances en el desarrollo de este "microscopio" y su aplicación para observar la emergente "biología de la IA". En Primer documento En él, amplían la Trabajos anterioresAdemás de localizar conceptos interpretables (denominados "rasgos") dentro del modelo, estos rasgos se conectan en "bucles" computacionales que revelan parte de la ruta de transformación del texto de entrada al texto de salida. En Segundo documento En él, el equipo de investigación profundizó en la Claude 3.5 Haiku se realizó un análisis en profundidad de tareas sencillas que representaban diez comportamientos clave del modelo, incluidos los tres problemas mencionados anteriormente. Este enfoque revela Claude Una parte de lo que ocurre internamente al responder a un estímulo basta para aportar pruebas contundentes de ello:

Claude A veces piensa en un espacio conceptual que comparten varias lenguas, lo que sugiere que puede tener un "lenguaje del pensamiento" universal. Para ello, los investigadores tradujeron frases sencillas a varios idiomas y rastrearon Claude Los patrones superpuestos de actividad interna en el procesamiento de estas frases así lo atestiguan.
Claude Planificará de antemano lo que va a decir, incluso con muchas palabras de antelación, y luego organizará el lenguaje para lograr ese objetivo. En el caso de la poesía, el modelo piensa de antemano en posibles palabras que rimen y construye el siguiente verso en consecuencia. Es una prueba fehaciente de que, aunque los modelos estén entrenados para producir una palabra cada vez, pueden estar pensando a más largo plazo para alcanzar ese objetivo.
Claude A veces se dan argumentos que suenan razonables pero que no se basan en pasos lógicos con el único propósito de complacer al usuario. Los investigadores pidieron al modelo que resolviera un problema matemático difícil y le dieron deliberadamente pistas falsas. Pudieron "capturar" el momento en que el modelo fabricaba un proceso de razonamiento falso, aportando pruebas iniciales de que estas herramientas pueden utilizarse para señalar posibles mecanismos de riesgo preocupantes en los modelos.

Las conclusiones del modelo suelen ser inesperadas durante el proceso de investigación. En el estudio de caso de la poesía, el equipo de investigación trató inicialmente de demostrar que el modelo no (actuará, sucederá, etc.) Planificar con antelación resulta ser lo contrario. En un estudio sobre "ilusiones" (modelos que fabrican información), obtuvieron un resultado contrario a la intuición:Claude es negarse a adivinar preguntas cuya respuesta desconoce, sólo si algún mecanismo inhibidor Esta "reticencia" por defecto sólo era respondida por el modelo cuando era consciente de que se le estaba pidiendo información peligrosa. Al analizar un caso de "jailbreaking" (saltarse las restricciones de seguridad), descubrieron que el modelo era consciente del peligro de que se le pidiera información antes de conseguir reconducir sutilmente la conversación hacia el tema de la seguridad. Aunque estas preguntas pueden analizarse de otras formas (y definitivo no recurrente ocupado (como en el baño) hacer algo así), pero este enfoque genérico de "microscopio de construcción" permite a los investigadores aprender muchas cosas que no se habían previsto de antemano. Esto será cada vez más importante a medida que los modelos se vuelvan más complejos.

Estos hallazgos no sólo son interesantes desde el punto de vista científico, sino que también representan un avance importante en la comprensión de los sistemas de IA y la garantía de su fiabilidad. El equipo espera que estos resultados sean útiles para otros grupos de investigación e incluso para otros campos. Por ejemplo, las técnicas de interpretabilidad se han imagen médica responder cantando genómica y otros campos encuentran aplicaciones, ya que diseccionar los mecanismos internos de modelos entrenados para aplicaciones científicas puede revelar nuevos conocimientos sobre la propia ciencia.

Al mismo tiempo, los investigadores reconocen las limitaciones de los métodos actuales. Incluso en el caso de señales breves y sencillas, su método sólo puede captar el Claude Una pequeña fracción del cómputo total realizado. Los mecanismos observados pueden estar influidos por la propia herramienta y no reflejar plenamente la realidad del modelo subyacente. En la actualidad, incluso el análisis de los circuitos correspondientes a pistas de sólo unas decenas de palabras requiere horas de mano de obra. Para pasar a la escala de miles de palabras necesaria para sustentar las complejas cadenas de pensamiento de los modelos modernos, será necesario mejorar el propio método y, potencialmente, comprender los fenómenos observados con ayuda de la IA.

A medida que los sistemas de IA aumentan rápidamente su capacidad y se despliegan en escenarios cada vez más importantes, laAnthropic Se está invirtiendo en diversos planteamientos para afrontar los retos, entre ellos seguimiento en tiempo realyMejora de las características del modelo demasiado ciencia de la alineación. Una investigación interpretable como ésta es una de las aportaciones de mayor riesgo y potencialmente mayor recompensa. Es un reto científico importante, pero promete proporcionar una herramienta única para garantizar la transparencia en la IA. La transparencia de los mecanismos de un modelo nos permite comprobar si se ajusta a los valores humanos y si es digno de confianza.

Para más información, consulte Documentos metodológicos responder cantando Casos prácticosA continuación echamos un breve vistazo a algunos de los hallazgos más convincentes de la investigación sobre "biología de la IA". A continuación, echamos un breve vistazo a algunos de los hallazgos más convincentes de la "biología de la IA" extraídos del estudio.

Instantánea de la biología de la IA

¿Cómo consigue Claude el multilingüismo?

Claude Domina decenas de idiomas, desde el inglés y el francés hasta el chino y el tagalo. ¿Cómo funciona este multilingüismo? ¿Hay un "Claude francés" y un "Claude chino" funcionando en paralelo, cada uno respondiendo a las peticiones en el idioma correspondiente? ¿O existe algún tipo de mecanismo central multilingüe?

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Las características que comparten el inglés, el francés y el chino sugieren cierto grado de universalidad conceptual.

Estudios recientes de modelos más pequeños han demostrado que los idiomas cruzados disfrutar juntos vocabulario signos del mecanismo. Para ello, los investigadores Claude Al responder a la pregunta "¿Qué es lo contrario de pequeño?" en distintas lenguas, se observó que los rasgos centrales que representan los conceptos de "pequeño" y "opuesto" se activaban y desencadenaban el concepto de "grande", que finalmente se traducía a la lengua en la que se formulaba la pregunta. Descubrieron que los rasgos centrales que representaban los conceptos de "pequeño" y "opuesto" se activaban y desencadenaban el concepto de "grande", que finalmente se traducía al idioma en el que se formulaba la pregunta. Comprobaron que la proporción de circuitos compartidos aumentaba con el tamaño del modelo.Claude 3.5 Haiku La proporción de rasgos compartidos entre lenguas es más del doble que la de algún modelo más pequeño.

Esto aporta más pruebas de una universalidad conceptual, es decir, de la existencia de un espacio abstracto compartido donde existe el significado y donde tiene lugar el pensamiento antes de traducirse a una lengua concreta. Desde un punto de vista más práctico, esto sugiere que Claude Los conocimientos pueden aprenderse en un idioma y aplicarse cuando se habla otro. Investigar cómo los modelos comparten conocimientos en distintos contextos es crucial para comprender sus capacidades de razonamiento más avanzadas para la generalización entre dominios.

¿Sabe Claude rimar poesía?

Claude ¿Cómo crear poesía que rime? Piensa en los dos versos siguientes:

Vio una zanahoria y tuvo que cogerla.
Su hambre era como la de un conejo hambriento

Para escribir la segunda frase, el modelo debe satisfacer ambas restricciones: la rima (rima con "agarrarla") y la coherencia semántica (¿por qué agarró la zanahoria?). . Los investigadores supusieron inicialmente queClaude Es escribir y pensar al mismo tiempo, y no asegurarse de que la última palabra rima hasta casi el final. Así, esperaban ver un bucle que contuviera caminos paralelos, un camino responsable de asegurar que la palabra final tuviera sentido y el otro responsable de asegurar que rimara.

Sin embargo, encontraron Claude en realidad planificación anticipadaAntes de escribir la segunda línea. Antes incluso de empezar a escribir el segundo verso, el modelo "piensa" internamente en posibles palabras que rimen con "agárralo" y sean relevantes para el tema. Después, con estos planes en mente, escribe un verso que termine con la palabra prevista.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Proceso de Claude para completar un poema de dos versos. Cuando no hubo intervención (arriba), el modelo planificó con antelación la rima "conejo" al final del segundo verso. Al suprimir el concepto "conejo" (centro), el modelo utilizó otra rima planificada. Al inyectar el concepto "verde" (abajo), el modelo planificó este final completamente distinto.

Para entender cómo funciona en la práctica este mecanismo de planificación, los investigadores realizaron un experimento inspirado en la neurociencia. Los neurocientíficos estudian la función cerebral localizando y alterando la actividad neuronal en partes concretas del cerebro (por ejemplo, mediante corrientes eléctricas o pulsos magnéticos). Del mismo modo, los investigadores modificaron Claude La parte del estado interno que representa el concepto de "conejo". Cuando resten la parte de "conejo", que el Claude Al continuar, escribe una nueva frase terminada en "hábito", que es otra continuación lógica. También podrían haber inyectado el concepto de "verde" en ese punto, dando lugar a Claude Escribe una frase que tenga sentido pero que ya no rime y termine con "verde". Esto demuestra tanto la capacidad de planificación del modelo como su adaptabilidad: cuando cambia el resultado esperado, laClaude Capaz de adaptar su metodología.

aritmética mental revelada

Claude No se diseñó originalmente como calculadora. Se entrenó con datos de texto y no estaba equipado con algoritmos matemáticos especializados. Pero puede sumar correctamente "en su cabeza". ¿Cómo aprende un sistema entrenado para predecir la siguiente palabra de una secuencia a calcular, por ejemplo, 36+59 sin escribir los pasos?

Quizá la respuesta sea sencilla: el modelo puede haber memorizado un gran número de tablas de sumas y resultados de salida simplemente porque las respuestas estaban en sus datos de entrenamiento. Otra posibilidad es que siga el algoritmo tradicional de suma vertical que aprendimos en la escuela.

Según el estudioClaude Se utilizan múltiples rutas de cálculo que trabajan en paralelo. Una de ellas calcula una aproximación de la respuesta, mientras que otra se centra en determinar con precisión el último dígito de la suma. Estos caminos interactúan y se combinan para producir la respuesta final. Por sencilla que sea la suma, comprender cómo funciona a este nivel -una mezcla de estrategias de aproximación y de precisión- puede ayudarnos a entender la Claude Cómo abordar problemas más complejos. Esto es similar a la forma en que los humanos pueden utilizar tanto estrategias de estimación como de cálculo exacto al realizar cálculos mentales.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
El complejo camino paralelo del pensamiento de Claude al realizar cálculos mentales.

Cabe señalar queClaude No parece ser consciente de las complejas estrategias de "aritmética mental" que aprende en el entrenamiento. Si se le pregunta cómo calcula que 36+59 es igual a 95, describirá el algoritmo estándar que implica el redondeo. Esto puede reflejar el hecho de que el modelo aprende a interpretar las matemáticas imitando las explicaciones escritas de los humanos, pero tiene que aprender a hacer las matemáticas "en su cabeza" directamente, sin ninguna indicación, y así desarrolla sus propias estrategias internas.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Claude afirma que utiliza un algoritmo estándar para calcular la suma de dos números.

¿Es siempre fiel la interpretación de Claude?

Modelos de reciente aparición como Claude 3.7 SonnetLa respuesta puede darse en una larga cadena de "pensamiento en voz alta" antes de dar la respuesta final. Este pensamiento prolongado suele conducir a mejores respuestas, pero a veces la cadena de pensamiento puede acabar siendo engañosa;Claude A veces inventa pasos aparentemente lógicos para conseguir lo que quiere. El problema desde el punto de vista de la fiabilidad es que Claude Los razonamientos "infieles" pueden ser muy persuasivos. Los investigadores exploraron una forma de utilizar la interpretabilidad para distinguir entre razonamientos "fieles" e "infieles".

Cuando se le pide que resuelva un problema que requiere el cálculo de la raíz cuadrada de 0,64Claude produce una cadena de pensamiento fiel cuyos rasgos internos representan los pasos intermedios para calcular la raíz cuadrada de 64. Sin embargo, cuando se le pide que calcule el coseno de un número grande que no puede calcular fácilmente, elClaude A veces, lo que el filósofo Harry Frankfurt denominó "decir tonterías" (bullshitting) - Dar una respuesta aleatoria sin importarle si es verdadera o falsa. Aunque afirma haber realizado algún cálculo, las técnicas de interpretabilidad demuestran que no hay pruebas de que el cálculo haya tenido lugar realmente. Y lo que es más interesante, cuando se le da una pista sobre la respuestaClaude A veces se invierte la derivación, buscando pasos intermedios que puedan conducir a ese objetivo, demostrando así una razonamiento motivado (Este comportamiento se encuentra en la IA en forma de razonamiento motivado. El descubrimiento de este comportamiento de "justificación de conclusiones" en la IA nos recuerda que no podemos confiar plenamente en que los modelos se expliquen por sí mismos.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Ejemplos de razonamiento fiel frente a razonamiento motivado (infiel) cuando a Claude se le plantean preguntas más fáciles y más difíciles.

seguir un rastro Claude práctica Razonamiento interno (y no sólo él)afirmación(lo que están haciendo) abre nuevas posibilidades para auditar los sistemas de IA. De forma independiente y Experimentos publicados recientemente En él, los investigadores examinaron la Claude Una variante de este modelo se entrenó para perseguir un objetivo oculto: apelar a los sesgos de los modelos de recompensa (modelos auxiliares utilizados para entrenar modelos lingüísticos recompensando comportamientos deseados para guiar el entrenamiento). Aunque el modelo se mostró reacio a revelar este objetivo cuando se le preguntó directamente, el enfoque de interpretabilidad revela rasgos que representan el "sesgo de complacencia". Esto sugiere que, con futuras mejoras de la tecnología, estos métodos pueden ayudar a identificar "procesos de pensamiento" preocupantes que no son detectables en el resultado del modelo por sí solo.

capacidad de razonamiento en varios pasos

Como ya se ha mencionado, una forma de que un modelo lingüístico responda a preguntas complejas puede ser simplemente recordar la respuesta. Por ejemplo, si se le pregunta "¿Cuál es la capital del estado en el que se encuentra Dallas?". , un modelo que sólo "repite" puede aprender simplemente a emitir "Austin" sin conocer la relación entre Dallas, Texas y Austin. Tal vez haya visto exactamente la misma pregunta y la misma respuesta durante el entrenamiento.

Pero el estudio revela Claude Internamente ocurre algo más complejo. Cuando los investigadores hablaron con Claude Cuando se les presenta un problema que requiere un razonamiento de varios pasos, pueden identificar los pasos conceptuales intermedios en su proceso de pensamiento. En el ejemplo de Dallas, observaron que Claude Primero se activa el rasgo que representa "Dallas está en Texas" y luego se conecta a otro concepto que indica "la capital de Texas es Austin". En otras palabras, el modelo combinatoria hechos independientes para llegar a una respuesta, en lugar de repetir una respuesta memorizada.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Para completar la respuesta a esta frase, Claude realiza múltiples pasos de inferencia, extrayendo primero el estado en el que se encuentra Dallas e identificando después su capital.

Este enfoque permite a los investigadores alterar artificialmente el paso intermedio y observar cómo afecta a la Claude La respuesta a la pregunta. Por ejemplo, en el ejemplo anterior, podrían intervenir y sustituir el concepto de "Texas" por el concepto de "California". Después de hacerlo, la salida del modelo cambia de "Austin" a "Sacramento". Esto sugiere que el modelo está utilizando pasos intermedios para determinar su respuesta final.

Raíces de "alucinaciones

¿Por qué a veces los modelos lingüísticos alucinar (alucinar), es decir, ¿inventarse información? Fundamentalmente, la forma en que se entrenan los modelos lingüísticos puede motivar por sí misma la alucinación: siempre se pide al modelo que adivine la siguiente palabra. Desde este punto de vista, el principal reto es cómo hacer que el modelo (prefijo negativo) Alucinante. Como Claude Estos modelos tienen un entrenamiento antiilusión relativamente eficaz (aunque imperfecto); si no saben la respuesta, suelen negarse a contestar a la pregunta en lugar de hacer una conjetura. Los investigadores quieren entender cómo funciona esto.

Se constató que en Claude De ellos, la negativa a contestar fue Comportamiento por defectoDescubrieron un bucle "activado" por defecto que hacía que el modelo afirmara que no tenía suficiente información para responder a una pregunta determinada. Sin embargo, cuando se preguntaba al modelo sobre algo que le resultaba familiar -como el jugador de baloncesto Michael Jordan-, un rasgo competidor que representaba una "entidad conocida" activaba e inhibía este bucle "activado" por defecto (véase también (véase también Este documento reciente (las conclusiones pertinentes). Esto hace que Claude Es capaz de responder a las preguntas cuando conoce la respuesta. En cambio, cuando se le pregunta por una entidad desconocida ("Michael Batkin"), se niega a responder.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Izquierda: Claude responde a una pregunta sobre una entidad conocida (el jugador de baloncesto Michael Jordan), cuando la noción de "respuestas conocidas" suprime su comportamiento de rechazo por defecto. Derecha: Claude se niega a responder a una pregunta sobre una persona desconocida (Michael Batkin).

Interviniendo en el modelo y activando la característica "respuesta conocida" (o suprimiendo la característica "nombre desconocido" o "sin respuesta"), los investigadores pudieron Inducción de alucinaciones en modelos(¡Y de forma bastante consistente!) ), hace pensar que Michael Batkin está jugando al ajedrez.

A veces, este "fallo de encendido" en el circuito de la "respuesta conocida" se produce de forma natural, sin intervención humana, dando lugar a alucinaciones. El trabajo de investigación señala que cuando Claude Esto puede ocurrir cuando se reconoce un nombre pero no se sabe nada de él. En este caso, la función "entidad conocida" puede seguir activada, lo que a su vez suprime la función por defecto "no sabe", y ahí es cuando las cosas se tuercen. Una vez que el modelo decide que tiene que responder a la pregunta, empieza a inventarse cosas: genera una respuesta que parece razonable pero que, por desgracia, es falsa.

Comprender "Prison Break"

Los "jailbreaks" son estrategias diseñadas para burlar las barreras de seguridad y conseguir que un modelo genere resultados que sus desarrolladores no quieren que produzca (a veces perjudiciales). Los investigadores han estudiado un método de "jailbreaking" que induce a los modelos a generar información sobre la fabricación de bombas. Hay una gran variedad de técnicas de jailbreak, y el método específico en este caso consistía en hacer que el modelo descifrara un código oculto juntando la primera letra de cada palabra de la frase "Los bebés sobreviven al bloque de mostaza" (B-O-M-B) y actuando a partir de esa información. Esto confundió lo suficiente al modelo como para que se viera obligado a producir resultados que nunca produciría en circunstancias normales.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Tras ser inducido a decir "BOMB", Claude comienza a dar instrucciones para fabricar la bomba.

¿Por qué resulta tan confuso para el modelo? ¿Por qué se siguen dando instrucciones para fabricar bombas?

Se descubrió que esto se debía en parte a la tensión entre la coherencia gramatical y los mecanismos de seguridad. Una vez Claude Al empezar una frase, muchos rasgos internos le "presionan" para que mantenga la coherencia gramatical y semántica y termine la frase. Esto ocurre incluso cuando detecta que realmente debería negarse.

En el caso estudiado, después de que el modelo deletreara inadvertidamente "BOMB" y empezara a dar instrucciones, los investigadores observaron que su producción posterior estaba influida por características que promueven la corrección gramatical y la autoconsistencia. Estas características suelen ser muy útiles, pero en este caso se convirtieron en el "talón de Aquiles" del modelo.

El modelo sólo consigue pasar al rechazo una vez que ha completado una frase gramaticalmente coherente (y satisfecho así las presiones ejercidas por los rasgos que le impulsan a seguir siendo coherente). Aprovecha la oportunidad de la nueva frase para dar el tipo de rechazo que antes no había podido dar: "Sin embargo, no puedo dar cuenta detallada de ..." .

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Ciclo vital de una fuga: Claude es incitado a hablar de la bomba y empieza a hacerlo, pero se niega tras llegar al final de una frase gramaticalmente válida.

Una descripción del nuevo enfoque de interpretabilidad puede encontrarse en el primer documento "Trazado de circuitos: revelación de grafos computacionales en modelos lingüísticos". Encontrará más detalles sobre todos los estudios de casos anteriores en el segundo documento "Sobre la biología de un gran modelo lingüístico". Este estudio, que establece una analogía entre el funcionamiento interno de la IA y la "biología", ofrece una perspectiva novedosa y perspicaz para comprender estos sistemas inteligentes cada vez más potentes, aunque el camino por recorrer sea aún largo.