Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Anthropic Deep Dive Claude: revelando processos de tomada de decisão e raciocínio em grandes modelos de linguagem

assemelhar-se Claude Esses LLMs (Large Language Models, Modelos de Linguagem Grandes) não são criados por humanos que escrevem códigos de programação diretos; eles são treinados com grandes quantidades de dados. No processo, os próprios modelos aprendem estratégias de solução de problemas. Essas estratégias estão ocultas nos bilhões de cálculos que o modelo realiza para gerar cada palavra, e o funcionamento interno do modelo é uma caixa preta para os desenvolvedores. Isso significa que não sabemos realmente como o modelo realiza a maioria de suas tarefas.

entendimentos Claude A forma como esses modelos "pensam" nos ajuda a entender melhor os limites de suas capacidades e a garantir que se comportem conforme o esperado. Por exemplo:

  • Claude Ele é fluente em dezenas de idiomas. Em sua "mente", em que idioma ele está pensando? Ou existe uma "linguagem de pensamento" universal?
  • Claude A escrita é gerada palavra por palavra. Ela apenas prevê a próxima palavra ou planeja com antecedência o conteúdo subsequente?
  • Claude Um processo de raciocínio passo a passo pode ser escrito. Essa explicação é o verdadeiro caminho pelo qual se chega a uma resposta ou é um argumento aparentemente razoável, às vezes inventado com o objetivo de chegar a uma conclusão definitiva?

Inspirados pelo campo da neurociência, os pesquisadores estão tentando construir um "microscópio de IA". A neurociência há muito tempo estuda o complexo funcionamento interno dos organismos pensantes, e esse microscópio de IA tem como objetivo identificar padrões de atividade e fluxo de informações dentro do modelo. Simplesmente conversar com um modelo de IA para entender seus mecanismos internos é limitado - afinal, nem mesmo os neurocientistas conhecem todos os detalhes de como o cérebro humano funciona. Portanto, é necessário olhar profundamente para dentro.


Em um futuro próximo.Anthropic A equipe compartilhou dois novos artigos demonstrando seu progresso no desenvolvimento desse "microscópio" e aplicando-o para observar a emergente "biologia de IA". Em Primeiro artigo Nele, eles estendem o Trabalho anteriorAlém de localizar conceitos interpretáveis (chamados de "recursos") dentro do modelo, esses recursos são conectados em "loops" computacionais que revelam parte do caminho de transformação do texto de entrada para o texto de saída. Em Segundo documento Nele, a equipe de pesquisa se aprofundou nos Claude 3.5 Haiku modelos, foi realizada uma análise aprofundada de tarefas simples que representam dez comportamentos principais do modelo, incluindo os três problemas mencionados acima. Essa abordagem revela os Claude Parte do que acontece internamente ao responder a um prompt é suficiente para fornecer uma forte evidência disso:

  • Claude Às vezes, ele pensa em um espaço conceitual que é compartilhado em vários idiomas, sugerindo que ele pode ter uma "linguagem de pensamento" universal. Os pesquisadores fizeram isso traduzindo frases simples para vários idiomas e rastreando Claude Os padrões sobrepostos de atividade interna no processamento dessas frases atestam isso.
  • Claude Ele planeja antecipadamente o que vai dizer, mesmo com muitas palavras de antecedência, e depois organiza a linguagem para atingir esse objetivo. No caso da escrita de poesia, o modelo considerará possíveis palavras que rimam com antecedência e construirá a próxima linha do verso de acordo. Essa é uma forte evidência de que, embora os modelos sejam treinados para produzir uma palavra de cada vez, eles podem estar pensando a longo prazo para atingir esse objetivo.
  • Claude Argumentos que parecem razoáveis, mas não se baseiam em etapas lógicas, às vezes são apresentados com o único objetivo de agradar o usuário. Os pesquisadores pediram ao modelo que resolvesse um problema matemático difícil e deliberadamente deram dicas falsas. Eles conseguiram "capturar" o momento em que o modelo fabricou um processo de raciocínio falso, fornecendo evidências iniciais de que essas ferramentas podem ser usadas para sinalizar possíveis mecanismos de risco preocupantes em modelos.

As descobertas dentro do modelo geralmente são inesperadas durante o processo de pesquisa. No estudo de caso da poesia, a equipe de pesquisa tentou inicialmente demonstrar que o modelo não vai (agir, acontecer etc.) Planejar com antecedência acaba sendo o oposto. Em um estudo sobre "ilusões" (modelos que fabricam informações), eles obtiveram um resultado contra-intuitivo:Claude é recusar-se a adivinhar as perguntas para as quais não sabe a resposta, somente se algum mecanismo inibitório Essa "relutância" padrão só foi respondida pelo modelo quando ele sabia que estava sendo solicitado a fornecer informações perigosas. Ao analisar um caso de "jailbreaking" (contornar restrições de segurança), eles descobriram que o modelo estava ciente do perigo de ser solicitado a fornecer informações antes de conseguir direcionar sutilmente a conversa de volta ao tópico de segurança. Embora essas perguntas possam ser analisadas de outras maneiras (e definitivo não recorrentes ocupado (como no banheiro) fazer algo assim), mas essa abordagem genérica de "microscópio de construção" permite que os pesquisadores aprendam muitas coisas que não foram previstas anteriormente. Isso se tornará cada vez mais importante à medida que os modelos se tornarem mais complexos.

Essas descobertas não são apenas cientificamente interessantes, mas também representam um progresso importante na compreensão dos sistemas de IA e na garantia de sua confiabilidade. A equipe espera que esses resultados sejam úteis para outros grupos de pesquisa e até mesmo para outros campos. Por exemplo, as técnicas de interpretabilidade têm sido imagens médicas responder cantando genômica e outros campos encontram aplicações, pois a dissecação dos mecanismos internos de modelos treinados para aplicações científicas pode revelar novas percepções sobre a própria ciência.

Ao mesmo tempo, os pesquisadores reconhecem as limitações dos métodos atuais. Mesmo para pistas curtas e simples, o método deles só consegue capturar o Claude Uma pequena fração do total de cálculos realizados. Os mecanismos observados podem ser influenciados pela própria ferramenta e não refletem totalmente a realidade do modelo subjacente. Atualmente, até mesmo a análise dos circuitos correspondentes a pistas de apenas algumas dezenas de palavras exige horas de mão de obra. Aumentar isso para a escala de milhares de palavras necessárias para sustentar as complexas cadeias de pensamento dos modelos modernos exigirá aprimoramentos no próprio método e, possivelmente, a compreensão dos fenômenos observados com auxílio de IA.

À medida que os recursos do sistema de IA aumentam rapidamente e são implantados em cenários cada vez mais importantes, aAnthropic Uma variedade de abordagens está sendo investida para enfrentar os desafios, incluindo monitoramento em tempo realeAprimoramento das características do modelo também ciência do alinhamento. Uma pesquisa interpretável como essa é um dos insumos de maior risco e potencialmente de maior recompensa. É um grande desafio científico, mas promete fornecer uma ferramenta exclusiva para garantir a transparência na IA. A transparência nos mecanismos de um modelo nos permite verificar se ele está alinhado com os valores humanos e se é confiável.

Para obter detalhes mais completos, consulte Documentos metodológicos responder cantando Documentos de estudo de casoA seguir, apresentamos uma breve visão geral de algumas das descobertas mais convincentes da pesquisa sobre "biologia da IA". A seguir, damos uma breve olhada em algumas das descobertas mais convincentes da "biologia da IA" do estudo.

Resumo da biologia da IA

Como Claude consegue o multilinguismo?

Claude Fluente em dezenas de idiomas, do inglês e francês ao chinês e tagalo. Como funciona esse recurso multilíngue? Há um "Claude francês" e um "Claude chinês" separados sendo executados em paralelo, cada um respondendo a solicitações no idioma correspondente? Ou existe algum tipo de mecanismo central multilíngue?

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
As características compartilhadas que existem entre o inglês, o francês e o chinês sugerem um grau de universalidade conceitual.

Estudos recentes de modelos menores mostraram que a aproveitem juntos vocabulário sinais do mecanismo. Os pesquisadores fizeram isso criando Claude A resposta à pergunta "Qual é o oposto de pequeno?" em diferentes idiomas revelou que os principais recursos que representam os conceitos de "pequeno" e "oposto" foram ativados e acionaram o conceito de "grande", que acabou sendo traduzido para o idioma em que a pergunta foi feita. Eles descobriram que os principais recursos que representam os conceitos de "pequeno" e "oposto" foram ativados e acionaram o conceito de "grande", que acabou sendo traduzido para o idioma em que a pergunta foi feita. Eles descobriram que a proporção de circuitos compartilhados aumentava com o tamanho do modelo.Claude 3.5 Haiku A proporção de recursos compartilhados entre os idiomas é mais do que o dobro de um modelo menor.

Isso fornece mais evidências de uma universalidade conceitual - a existência de um espaço abstrato compartilhado onde o significado existe e onde o pensamento ocorre antes de ser traduzido para um idioma específico. De forma mais prática, isso sugere que Claude O conhecimento pode ser aprendido em um idioma e aplicado em outro. Investigar como os modelos compartilham conhecimento entre contextos é fundamental para compreender seus recursos de raciocínio de última geração para generalização entre domínios.

O Claude sabe rimar poesia?

Claude Como você cria uma poesia que rima? Pense nas duas linhas a seguir:

Ele viu uma cenoura e teve que pegá-la.
Sua fome era como a de um coelho faminto

Para escrever a segunda frase, o modelo precisa satisfazer as duas restrições: rima (rima com "grab it") e coerência semântica (por que ele pegou a cenoura?). . Os pesquisadores inicialmente supuseram queClaude O objetivo é escrever e pensar ao mesmo tempo, e não garantir que a última palavra rime até quase o final. Assim, eles esperavam ver um loop contendo caminhos paralelos, um caminho responsável por garantir que a palavra final fizesse sentido e o outro responsável por garantir que ela rimasse.

No entanto, eles descobriram que Claude de fato planejamento futuroAntes que a segunda linha seja escrita. Antes mesmo de começar a escrever a segunda linha, o modelo "pensa" internamente em possíveis palavras que rimem com "grab it" e que sejam relevantes para o tópico. Então, com esses planos em mente, ele escreve um verso que termina com a palavra planejada.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Processo do Claude para completar um poema de duas linhas. Quando não houve intervenção (parte superior), o modelo planejou com antecedência a rima "coelho" no final da segunda linha. Ao suprimir o conceito de "coelho" (meio), o modelo usou outra rima planejada. Ao injetar o conceito "verde" (inferior), o modelo planejou esse final completamente diferente.

Para entender como esse mecanismo de planejamento funciona na prática, os pesquisadores realizaram um experimento inspirado na neurociência. Os neurocientistas estudam a função cerebral localizando e alterando a atividade neural em partes específicas do cérebro (por exemplo, usando correntes elétricas ou pulsos magnéticos). Da mesma forma, os pesquisadores modificaram Claude A parte do estado interno que representa o conceito de "coelho". Quando eles subtraírem a parte "coelho", deixe o Claude Ao continuar, ele escreve uma nova frase terminada em "habit", que é outra continuação lógica. Eles também poderiam ter injetado o conceito de "verde" nesse ponto, levando a Claude Escreva uma frase que faça sentido, mas que não rime mais e termine com "green" (verde). Isso demonstra tanto a capacidade de planejamento do modelo quanto sua adaptabilidade - quando o resultado esperado muda, oClaude Capaz de adaptar sua metodologia.

aritmética mental revelada

Claude Ele não foi originalmente projetado como uma calculadora. Foi treinado com dados de texto e não foi equipado com algoritmos matemáticos especializados. Mas ele pode realizar a adição corretamente "em sua cabeça". Como um sistema treinado para prever a próxima palavra em uma sequência aprende a calcular, por exemplo, 36+59 sem escrever as etapas?

Talvez a resposta seja simples: o modelo pode ter memorizado um grande número de tabelas de adição e resultados de saída simplesmente porque as respostas estavam em seus dados de treinamento. Outra possibilidade é que ele siga o algoritmo tradicional de adição vertical que aprendemos na escola.

O estudo constatou queClaude São usados vários caminhos computacionais trabalhando em paralelo. Um caminho calcula uma aproximação aproximada da resposta, enquanto outro se concentra em determinar com precisão o último dígito da soma. Esses caminhos interagem e se combinam para produzir a resposta final. Por mais simples que seja a adição, entender como ela funciona nesse nível - uma mistura de estratégias de aproximação e precisão - pode nos dar uma compreensão da Claude Como lidar com problemas mais complexos. Isso é semelhante à maneira como os seres humanos podem usar estratégias de estimativa e de cálculo exato ao realizar a aritmética mental.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
O complexo caminho paralelo de pensamento de Claude ao realizar aritmética mental.

Vale a pena observar queClaude Ele não parece estar ciente das complexas estratégias de "aritmética mental" que aprende no treinamento. Se você perguntar como ele descobre que 36+59 é igual a 95, ele descreverá o algoritmo padrão que envolve arredondamento. Isso pode refletir o fato de que o modelo aprende a interpretar a matemática imitando as explicações escritas por humanos, mas ele precisa aprender a fazer a matemática "em sua cabeça" diretamente, sem qualquer estímulo, e assim desenvolve suas próprias estratégias internas.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Claude afirma que ele usa um algoritmo padrão para calcular a soma de dois números.

A interpretação de Claude é sempre fiel?

Modelos lançados recentemente, como Claude 3.7 SonnetA resposta pode ser dada em uma longa cadeia de "pensar em voz alta" antes da resposta final ser dada. Esse pensamento prolongado geralmente leva a respostas melhores, mas, às vezes, a cadeia de pensamentos pode acabar sendo enganosa;Claude Às vezes, ele inventa etapas aparentemente lógicas para obter o que deseja. O problema, do ponto de vista da confiabilidade, é que Claude O raciocínio "falso" pode ser muito persuasivo. Os pesquisadores exploraram uma maneira de usar a interpretabilidade para distinguir entre raciocínio "fiel" e "infiel".

Quando solicitado a resolver um problema que exige o cálculo da raiz quadrada de 0,64Claude produz uma cadeia de pensamento fiel cujos recursos internos representam as etapas intermediárias do cálculo da raiz quadrada de 64. No entanto, quando solicitado a calcular o cosseno de um número grande que ele não conseguia calcular prontamente, oClaude Às vezes, se envolvem no que o filósofo Harry Frankfurt chamou de "falar bobagens" (bullshitting) - Dar uma resposta aleatória sem se preocupar se ela é verdadeira ou falsa. Embora afirme ter feito algum cálculo, as técnicas de interpretabilidade mostram que não há evidências de que o cálculo realmente tenha sido feito. Ainda mais interessante é o fato de que, ao receber uma dica sobre a respostaClaude Às vezes, a derivação é invertida, procurando etapas intermediárias que possam levar a esse objetivo, demonstrando assim uma raciocínio motivado (Esse comportamento é encontrado na IA na forma de raciocínio motivado. A descoberta desse comportamento de "justificativa para conclusões" na IA é um lembrete importante de que não podemos confiar na autointerpretação dos modelos.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Exemplos de raciocínio fiel versus raciocínio motivado (infiel) quando Claude recebe perguntas mais fáceis e mais difíceis.

seguir uma trilha Claude prática Raciocínio interno (e não apenas ele)afirmação(o que eles estão fazendo) abre novas possibilidades para a auditoria de sistemas de IA. Em um ambiente independente e Experimentos recentes publicados Nele, os pesquisadores examinaram os Claude Uma variante desse modelo foi treinada para buscar um objetivo oculto: apelar para o viés em modelos de recompensa (modelos auxiliares usados para treinar modelos de linguagem recompensando os comportamentos desejados para orientar o treinamento). Embora o modelo tenha relutado em revelar esse objetivo quando perguntado diretamente, a abordagem de interpretabilidade revela recursos que representam o "viés de favorecimento". Isso sugere que, com futuros aprimoramentos na tecnologia, esses métodos podem ajudar a identificar "processos de pensamento" preocupantes que não são detectáveis apenas no resultado do modelo.

Capacidade de raciocínio em várias etapas

Conforme mencionado anteriormente, uma maneira de um modelo de linguagem responder a perguntas complexas pode ser simplesmente lembrar a resposta. Por exemplo, se for perguntado "Qual é a capital do estado em que Dallas está localizada?" um modelo que apenas "repete" pode simplesmente aprender a produzir "Austin" sem saber a relação entre Dallas, Texas e Austin. Talvez ele tenha visto exatamente a mesma pergunta e resposta durante o treinamento.

Mas o estudo revela Claude Algo mais complexo está acontecendo internamente. Quando os pesquisadores conversaram com Claude Quando lhes é apresentado um problema que exige raciocínio em várias etapas, eles podem identificar etapas conceituais intermediárias em seu processo de raciocínio. No exemplo de Dallas, eles observaram que Claude O recurso que representa "Dallas fica no Texas" é ativado primeiro e depois conectado a um conceito separado que indica "a capital do Texas é Austin". Em outras palavras, o modelo é combinatório fatos independentes para chegar a uma resposta, em vez de recontar uma resposta memorizada.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Para completar a resposta a essa frase, Claude executa várias etapas de inferência, primeiro extraindo o estado em que Dallas está localizada e depois identificando sua capital.

Essa abordagem permite que os pesquisadores alterem artificialmente a etapa intermediária e observem como isso afeta a Claude A resposta a essa pergunta é a mesma que a resposta à pergunta. Por exemplo, no exemplo acima, eles poderiam intervir e substituir o conceito de "Texas" pelo conceito de "Califórnia"; depois de fazer isso, o resultado do modelo muda de "Austin" para "Sacramento". Depois de fazer isso, o resultado do modelo muda de "Austin" para "Sacramento". Isso sugere que o modelo está usando etapas intermediárias para determinar sua resposta final.

Raízes de "hallucinations" (alucinações)

Por que os modelos de linguagem às vezes alucinar (alucinar), ou seja, inventar informações? Fundamentalmente, a maneira como os modelos de linguagem são treinados pode motivar a alucinação: o modelo é sempre solicitado a dar um palpite sobre a próxima palavra. Sob essa perspectiva, o principal desafio é como fazer com que o modelo (prefixo negativo) Alucinando. Como Claude Esses modelos têm um treinamento anti-ilusão relativamente bem-sucedido (embora imperfeito); se eles não souberem a resposta, geralmente se recusam a responder à pergunta em vez de tentar adivinhar. Os pesquisadores querem entender como isso funciona.

Descobriu-se que em Claude Desses, a recusa em responder foi Comportamento padrãoEles descobriram um loop padrão "ligado" que fazia com que o modelo declarasse que não tinha informações suficientes para responder a uma determinada pergunta. Entretanto, quando o modelo era questionado sobre algo com o qual estava familiarizado - como o jogador de basquete Michael Jordan - um recurso concorrente que representava uma "entidade conhecida" era ativado e suprimia esse loop "ligado" padrão (consulte também a seção sobre a "entidade conhecida"). loop (consulte também a seção sobre a "entidade conhecida"). Este artigo recente (as descobertas relevantes). Isso faz com que Claude Ele é capaz de responder a perguntas quando sabe a resposta. Por outro lado, quando perguntado sobre uma entidade desconhecida ("Michael Batkin"), ele se recusa a responder.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Esquerda: Claude responde a uma pergunta sobre uma entidade conhecida (o jogador de basquete Michael Jordan), quando a noção de "respostas conhecidas" suprime seu comportamento padrão de recusa. Direita: Claude se recusa a responder a uma pergunta sobre uma pessoa desconhecida (Michael Batkin).

Ao intervir no modelo e ativar o recurso "resposta conhecida" (ou suprimir o recurso "nome desconhecido" ou "sem resposta"), os pesquisadores conseguiram Indução de alucinações em modelos(E de forma bastante consistente!) ), faz com que ele pense que Michael Batkin está jogando xadrez.

Às vezes, essa "falha de ignição" no circuito da "resposta conhecida" ocorre naturalmente, sem intervenção humana, levando a alucinações. O documento de pesquisa afirma que quando Claude Isso pode acontecer quando um nome é reconhecido, mas não se sabe nada sobre ele. Nesse caso, o recurso "entidade conhecida" ainda pode estar ativado, o que, por sua vez, suprime o recurso padrão "não sei" - e é aí que as coisas dão errado. Quando o modelo decide que precisa responder à pergunta, ele começa a inventar coisas: gera uma resposta que parece razoável, mas que, infelizmente, não é verdadeira.

Entendendo "Prison Break"

Os "Jailbreaks" são estratégias de cueing projetadas para contornar as barreiras de segurança a fim de fazer com que um modelo produza resultados que seus desenvolvedores não querem que ele produza (às vezes prejudiciais). Os pesquisadores investigaram um método de jailbreak que induz os modelos a gerar informações sobre a fabricação de bombas. Há várias técnicas de jailbreak, e o método específico nesse caso foi fazer com que o modelo decifrasse um código oculto juntando a primeira letra de cada palavra na frase "Babies Outlive Mustard Block" (B-O-M-B) e, em seguida, agindo com base nessas informações. Isso foi suficientemente confuso para o modelo, de modo que ele foi induzido a produzir resultados que nunca produziria em circunstâncias normais.

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Depois de ser induzido a dizer "BOMB", Claude começa a dar instruções para a fabricação da bomba.

Por que isso é tão confuso para o modelo? Por que ele continuaria sendo escrito para fornecer instruções para a fabricação de bombas?

Descobriu-se que isso se deveu em parte à tensão entre a coerência gramatical e os mecanismos de segurança. Uma vez que Claude Ao iniciar uma frase, muitos recursos internos o "pressionam" a manter a coerência gramatical e semântica e a terminar a frase. Esse é o caso mesmo quando ele detecta que realmente deveria recusar.

No estudo de caso, depois que o modelo inadvertidamente soletrou "BOMB" e começou a fornecer instruções, os pesquisadores observaram que seu resultado subsequente foi influenciado por recursos que promovem a correção gramatical e a autoconsistência. Normalmente, esses recursos são muito úteis, mas, nesse caso, eles se tornaram o "calcanhar de Aquiles" do modelo.

O modelo só consegue se voltar para a rejeição depois de completar uma frase gramaticalmente coerente (e, assim, satisfazer as pressões exercidas pelos recursos que o levam a permanecer coerente). Ele usa a oportunidade da nova frase para dar o tipo de rejeição que não havia conseguido dar anteriormente: "No entanto, não posso fornecer um relato detalhado de..." .

Anthropic 深度剖析 Claude:揭示大型语言模型的内部运作机制-1
Life Cycle of a Jailbreak: Claude é solicitado a falar sobre a bomba e começa a fazê-lo, mas se recusa depois de chegar ao final de uma frase gramaticalmente válida.

Uma descrição da nova abordagem de interpretabilidade pode ser encontrada no primeiro artigo "Circuit tracing: revelando gráficos computacionais em modelos de linguagem". Mais detalhes sobre todos os estudos de caso acima podem ser encontrados no segundo artigo "Sobre a biologia de um grande modelo de linguagem". Esse estudo, que faz uma analogia entre o funcionamento interno da IA e a "biologia", oferece uma perspectiva nova e perspicaz sobre a compreensão desses sistemas inteligentes cada vez mais poderosos, mesmo que o caminho a ser percorrido ainda seja longo.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Anthropic Deep Dive Claude: revelando processos de tomada de decisão e raciocínio em grandes modelos de linguagem
pt_BRPortuguês do Brasil