Anthropic Deep Dive Claude：大規模言語モデルにおける意思決定と推論プロセスの解明

1.1K 00

類似 Claude このようなラージ・ランゲージ・モデル（LLM）は、人間が直接プログラミング・コードを書くことによって作成されるのではなく、膨大な量のデータに基づいて学習される。その過程で、モデル自身が問題解決戦略を学習する。これらの戦略は、各単語を生成するためにモデルが実行する何十億もの計算の中に隠されており、モデルの内部構造は開発者にとってブラックボックスのようなものだ。つまり、モデルがどのようにタスクのほとんどをこなすのか、本当のところはわからないのだ。

理解 Claude このようなモデルがどのように "考える "かは、その能力の境界をよりよく理解し、期待通りの振る舞いができるようにするのに役立つ。例えば

Claude 何十もの言語を操る。その「心」の中では、どの言語で思考しているのだろうか？それとも、世界共通の「思考の言語」があるのだろうか？
Claude 文章は一語一語生成される。次の単語を予測するだけなのか、それともその後の内容を先読みしているのか。
Claude 段階的な推論の過程を書くことができる。この説明は、答えに到達するための真の道筋なのか、それとも、決着した結論のために時折でっち上げられる、一見合理的な議論なのか。

神経科学の分野からヒントを得て、研究者たちは「AI顕微鏡」を作ろうとしている。神経科学は長い間、思考する生物の複雑な内部構造を研究してきたが、このAI顕微鏡は、モデル内の活動と情報の流れのパターンを特定することを目的としている。AIモデルの内部メカニズムを理解するために、AIモデルと会話するだけでは限界がある。結局のところ、神経科学者でさえ人間の脳の仕組みの詳細をすべて知っているわけではない。だから、内部を深く観察する必要があるのだ。

近い将来にね。Anthropic 研究チームは、この "顕微鏡 "の開発と、新たな "AI生物学 "の観察への応用の進展を示す2つの新しい論文を発表した。その中で最初の論文その中で、彼らは前作モデル内で解釈可能な概念（「特徴」と呼ばれる）を見つけることに加え、これらの特徴は、入力テキストから出力テキストへの変換パスの一部を明らかにする計算上の「ループ」に接続される。つまりセカンドペーパーその中で研究チームは、次のようなことを掘り下げている。 Claude 3.5 Haiku モデルについて、上述の3つの問題を含む10個の主要なモデルの行動を表す単純なタスクについて、詳細な分析を行った。このアプローチにより Claude プロンプトに反応するときに内部で起きていることの一部は、その強力な証拠となるに十分だ：

Claude また、言語を超えて共有される概念空間で思考することもあり、世界共通の「思考言語」を持っている可能性を示唆している。研究者たちは、簡単な文章を複数の言語に翻訳し、その翻訳結果を追跡した。 Claude これらの文章を処理する際の内部活動のパターンが重複していることが、それを証明している。
Claude 何を言おうとしているのか、たとえ何語でも前もって計画し、その目標を達成するために言葉を整理する。詩を書く場合、モデルは事前に韻を踏む可能性のある単語を検討し、それに従って次の詩の行を構築する。これは、モデルは一度に1つの単語を出力するように訓練されているが、その目標を達成するために、より長期的に考えている可能性があるという強力な証拠である。
Claude 合理的に聞こえるが論理的なステップに基づかない議論は、ユーザーに迎合することだけを目的として行われることがある。研究者たちはモデルに難しい数学の問題を解かせ、意図的に偽のヒントを与えた。研究者たちは、モデルが偽の推論プロセスを捏造した瞬間を "捉える "ことができ、このツールが、モデルにおいて懸念される潜在的なリスクメカニズムにフラグを立てるために使用できるという最初の証拠を提供した。

モデル内の発見は、研究過程でしばしば予期せぬものとなる。詩のケース・スタディでは、研究チームは当初、このモデルが以下のようなものであることを実証しようとした。まい前もって計画を立てることは、その逆であることが判明した。イリュージョン」（情報を捏造するモデル）の研究で、彼らは直感に反する結果を得た：Claude のデフォルトの動作は、何らかのメカニズムが働いている場合に限り、答えがわからない質問に対する推測を拒否することである。 抑制性 このデフォルトの "消極性 "は、危険な情報を求められていることを認識した場合にのみ、モデルによって答えられた。ジェイルブレイク」（セキュリティの制限を回避すること）のケースを分析したとき、彼らは、微妙に会話をセキュリティの話題に戻す前に、モデルが情報の提供を求められることの危険性を認識していることを発見した。このような質問は他の方法でも分析できるが（そして明確ノンリカレントオキュパイドこうするしかし、この一般的な "顕微鏡を作る "アプローチによって、研究者は事前に予想されていなかった多くのことを学ぶことができる。このことは、モデルがより複雑になればなるほど、ますます重要になるだろう。

これらの発見は、科学的に興味深いだけでなく、AIシステムを理解し、その信頼性を確保する上で重要な進歩である。研究チームは、これらの結果が他の研究グループ、さらには他の分野にも役立つことを期待している。例えば、解釈可能性技術はメディカルイメージング歌で応えるゲノミクス科学的応用のために訓練されたモデルの内部メカニズムを解剖することで、科学そのものに関する新たな洞察が得られるからだ。

同時に、研究者たちは現在の方法の限界も認めている。短くて単純な手がかりであっても、研究者たちの手法で捉えることができるのは Claude 実行された全計算のごく一部。観測されたメカニズムはツール自体の影響を受けている可能性があり、基礎となるモデルの実態を完全に反映していない。現在のところ、わずか数十語のキューに対応する回路を分析するにも、数時間のマンパワーが必要である。これを、現代のモデルの複雑な思考の連鎖を支えるのに必要な数千語の規模にまで拡大するには、手法自体の改善と、観察された現象のAI支援による理解が必要になる可能性がある。

AIシステムの能力が急速に向上し、ますます重要なシナリオに配備されるようになるにつれてAnthropic 課題に対処するために、以下のようなさまざまなアプローチが投資されている。リアルタイム・モニタリングそしてモデル特性の改善もアライメント科学.このような解釈可能な研究は、最もリスクが高く、最もリターンが大きい可能性のあるインプットのひとつである。これは大きな科学的課題であるが、AIの透明性を確保するためのユニークなツールを提供することが約束されている。モデルのメカニズムに透明性を持たせることで、それが人間の価値観に沿ったものであるかどうか、信頼に足るものであるかどうかをチェックすることができる。

詳細については方法論論文歌で応えるケーススタディ論文以下では、研究から得られた最も説得力のある「AI生物学」の知見のいくつかを簡単に紹介する。以下では、この研究から得られた最も説得力のある「AI生物学」の知見のいくつかを簡単に紹介する。

AI生物学スナップショット

クロードはどのようにして多言語主義を実現するのか？

Claude 英語、フランス語から中国語、タガログ語まで数十ヶ国語に堪能。このマルチリンガリズムはどのように機能しているのだろうか？別々の "フランス語クロード "と "中国語クロード "が並行して動いていて、それぞれが対応する言語のリクエストに応えているのだろうか？それとも、ある種のクロスリンガル・コア・メカニズムがあるのだろうか？

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
英語、フランス語、中国語に共通する特徴は、概念の普遍性を示唆している。

最近の小規模モデルの研究では、言語横断的なモデルが示されている。一緒に楽しむ語彙そのメカニズムの兆候である。研究者たちは、そのために Claude 異なる言語で「小さいの反対は何か」という質問に答えることで、「小さい」と「反対」という概念を表す中核的特徴が活性化され、「大きい」という概念を誘発し、それが最終的に質問された言語に翻訳されることがわかった。彼らは、「小さい」と「反対」の概念を表す中核的特徴が活性化され、「大きい」の概念を誘発し、それが最終的に質問された言語に翻訳されることを発見した。また、モデルのサイズが大きくなるにつれて、共有回路の割合が増加することがわかった。Claude 3.5 Haiku 言語間で共有される特徴の割合は、いくつかの小さなモデルの2倍以上である。

このことは、概念的な普遍性、つまり、意味が存在し、特定の言語に翻訳される前に思考が行われる、共有された抽象的な空間が存在することの、より確かな証拠となる。より現実的には、これは次のことを示唆している。 Claude 知識はある言語で学習し、別の言語を話すときに応用することができる。モデルがどのように文脈を越えて知識を共有するかを調べることは、領域横断的な汎化のための最先端の推論能力を理解する上で極めて重要である。

クロードは詩の韻の踏み方を知っていますか？

Claude 韻を踏んだ詩を作るには？次の2行について考えてみよう：

彼はニンジンを見て、それをつかまなければならなかった。
彼の空腹は飢えたウサギのようだった。

第2文を書くには、このモデルは韻を踏む（"grab it "と韻を踏む）ことと、意味の一貫性（なぜ彼はニンジンをつかんだのか）という両方の制約を満たす必要がある。.研究者たちは当初、次のように推測した。Claude 韻を踏んでいることを確認するのは、最後の単語がほぼ最後まで行われない。従って、彼らは平行した経路を含むループが見えると予想した。1つの経路は最後の単語が意味をなすことを確認する責任を負い、もう1つの経路は韻を踏むことを確認する責任を負う。

しかし、彼らは次のことを発見した。 Claude 実際に おんどとり行目を書く前に行目を書き始める前に、モデルは内部で、"grab it "と韻を踏み、トピックに関連する単語の候補を「考える」。そして、これらの計画を念頭に置きながら、計画した単語で終わる詩を書く。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
クロードが2行詩を完成させるプロセス。介入しない場合（上）、モデルは2行目の終わりに「ウサギ」という韻を踏むことを前もって計画していた。ウサギ」の概念を抑制する場合（中）、モデルは別の計画された韻を使った。緑」のコンセプトを挿入した場合（下）、モデルはこの全く異なる結末を計画した。

このプランニングメカニズムが実際にどのように機能するのかを理解するため、研究者たちは神経科学にヒントを得た実験を行った。神経科学者は、脳の特定部位の神経活動を（電流や磁気パルスを使うなどして）局在化させ、変化させることで脳機能を研究している。同様に、研究者たちは Claude ウサギ」という概念を表す内部状態の部分。ウサギ」の部分を差し引いたときに Claude 続けて、"habit "で終わる新しい文章を書く。また、この時点で「グリーン」という概念を挿入し、次のように導くこともできただろう。 Claude 韻を踏まず、"green "で終わる意味のある文章を書こう。これは、モデルの計画能力と適応性の両方を示している。Claude 方法論を適応させることができる。

めのこかんじょう

Claude もともと電卓として設計されたものではない。テキストデータで訓練され、特別な数学的アルゴリズムは搭載されていない。しかし、"頭の中で "正しく足し算ができる。一連の流れの中で次の単語を予測するように訓練されたシステムが、ステップを書き出すことなく、例えば36+59の計算をどのように学習するのだろうか？

おそらく答えは簡単で、モデルは学習データに答えがあったという理由だけで、多数の足し算の表を記憶し、結果を出力しているのだろう。もう一つの可能性は、学校で習った伝統的な垂直加算アルゴリズムに従っていることだ。

調査の結果、以下のことが判明した。Claude 並行して動作する複数の計算パスが使用される。あるパスは答えの大まかな近似を計算し、別のパスは和の下一桁を正確に求めることに集中する。これらのパスが相互に作用し、組み合わさって最終的な答えが導き出される。足し算が単純であるのと同様に、近似計算と精密計算が混在しているこのレベルで足し算がどのように機能するかを理解することで、足し算の原理を理解することができるかもしれない。 Claude より複雑な問題に対処する方法。これは、人間が暗算をするときに推定と正確な計算の両方の戦略を使うのと似ている。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
クロードが暗算をするときの複雑な並列思考経路。

注目に値するのはClaude トレーニングで学習した複雑な「暗算」戦略には気づいていないようだ。36+59が95になることをどうやって計算するのかと尋ねると、四捨五入を含む標準的なアルゴリズムを説明する。これは、このモデルが人間の書いた説明を真似て数学の解釈を学習するという事実を反映しているのかもしれないが、「頭の中で」直接、何の促しもなく数学を行うことを学習しなければならないため、独自の内部戦略を開発することになる。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
クロードは、2つの数字の和を計算する標準的なアルゴリズムを使用していると主張している。

クロードの解釈は常に忠実なのか？

最近発売されたモデル Claude 3.7 Sonnet最終的な答えを出す前に、「声に出して考える」という長い連鎖の中で答えを出すことができる。この長い思考の連鎖は通常、より良い答えを導くが、時には誤解を招く結果に終わることもある；Claude 欲しいものを手に入れるために、一見論理的に見えるステップを作ることもある。信頼性の観点からの問題は Claude "偽りの "推論は非常に説得力がある。研究者たちは、解釈可能性を使って「誠実な」推論と「不誠実な」推論を区別する方法を探った。

0.64の平方根の計算が必要な問題を解くように言われた。Claude は、64の平方根を計算する際の中間ステップを内部的な特徴で表現した忠実な思考の連鎖を作り出す。しかし、容易に計算できない大きな数の余弦を計算するよう求められるとClaude 哲学者ハリー・フランクフルトの言う"ちゃらける" (bullshitting) - 真か偽かを気にすることなく、ランダムな答えを与えること。何らかの計算を行ったと主張するが、解釈可能性のテクニックによれば、実際に計算が行われたという証拠はない。さらに興味深いことに、答えのヒントが与えられるとClaude 時には、そのゴールに到達するための中間ステップを探すために、逆の導出が行われることもある。意欲的推論 (この振る舞いは、動機づけ推論という形でAIに見られる）。AIにおいてこの「結論を正当化する」行動が発見されたことは、モデルが自分自身を説明することを全面的に信頼することはできないということを思い起こさせる重要な出来事である。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
クロードが簡単な質問と難しい質問をされたときの、忠実な推論と動機づけられた（不誠実な）推論の例。

跡をつける Claude 練習内部推論（それだけではない）アサーション(彼らがやっていること）は、AIシステムの監査に新たな可能性を開く。独立した最近発表された実験その中で、研究者たちは Claude このモデルの変種は、報酬モデル（訓練を導くために望ましい行動に報酬を与えることで、言語モデルの訓練に使用される補助モデル）のバイアスに訴えるという隠れた目標を追求するために訓練された。このモデルは、直接質問されるとこの目標を明らかにしたがらなかったが、解釈可能性アプローチにより、「迎合的バイアス」を表す特徴が明らかになった。このことは、今後の技術の向上により、これらの方法が、モデル出力だけでは検出できない心配な「思考プロセス」を特定するのに役立つ可能性があることを示唆している。

多段階推理能力

先に述べたように、言語モデルが複雑な質問に答える方法のひとつは、単に答えを覚えておくことかもしれない。例えば、"ダラスのある州の州都は？"と聞かれた場合、「繰り返し」だけのモデルは、ダラス、テキサス、オースティンの関係を知らなくても、単に「オースティン」と出力することを学習するかもしれない。と聞かれた場合、「繰り返し」しかしないモデルは、ダラス、テキサス、オースティンの関係を知らなくても、単に「オースティン」と出力することを学習するかもしれない。おそらく、トレーニング中に全く同じ質問と答えを見たのでしょう。

しかし、この研究では次のことが明らかになった。 Claude 内部ではもっと複雑なことが起こっている。研究者たちが Claude 多段階の推論を必要とする問題を提示されたとき、彼らは思考プロセスにおける中間的な概念的ステップを特定することができる。ダラスの例では Claude ダラスはテキサスにある」という特徴をまずアクティブにし、次に「テキサスの首都はオースティンである」という別の概念に接続する。つまり、モデルは コンビナトリアル 暗記した回答を繰り返すのではなく、独自の事実に基づいて答えを導き出す。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
この文の答えを完成させるために、クロードは複数の推論ステップを行い、まずダラスのある州を抽出し、次にその州都を特定する。

このアプローチにより、研究者は人為的に中間段階を変化させ、それがどのように影響するかを観察することができる。 Claude この質問に対する答えは、質問の答えと同じである。例えば、上の例では、介入して「テキサス」という概念を「カリフォルニア」という概念に置き換えることができます。そうすると、モデルの出力は「オースティン」から「サクラメント」に変わります。そうすると、モデルの出力は「オースティン」から「サクラメント」に変わる。これは、モデルが最終的な答えを決定するために中間ステップを使用していることを示唆しています。

"幻覚 "のルーツ

なぜ言語モデルは時に幻覚 (幻覚を見る）、つまり情報をでっち上げる？基本的に、言語モデルの学習方法自体が幻覚を引き起こす可能性がある。モデルは常に次の単語について推測を求められる。この観点からすると、主な課題は、モデルをいかにしてふ幻覚を見ている。同じように Claude このようなモデルは、（不完全ではあるが）錯覚防止訓練に比較的成功している。答えがわからない場合、通常は推測をするのではなく、質問に答えることを拒否する。研究者たちは、この仕組みを理解したいと考えている。

その結果、以下のことが判明した。 Claude そのうち、回答拒否は デフォルトの動作彼らは、モデルが与えられた質問に答えるのに十分な情報を持っていないと述べるデフォルトの「オン」ループを発見した。しかし、モデルがよく知っているもの、たとえばバスケットボールのマイケル・ジョーダン選手について質問されると、「既知の実体」を表す競合機能が作動し、このデフォルトの「オン」ループを抑制した（「既知の実体」の項も参照）。ループ（参照最近の論文 (関連する所見）。これにより Claude 答えを知っているときには質問に答えることができる。逆に、未知の存在（「マイケル・バトキン」）について質問されると、答えようとしない。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
左：クロードは既知の人物（バスケットボール選手のマイケル・ジョーダン）に関する質問に答えるが、「既知の答え」という概念が彼のデフォルトの拒否行動を抑制する。右：クロードは未知の人物（マイケル・バトキン）に関する質問には答えない。

モデルに介入し、「既知の答え」機能をアクティブにする（あるいは「未知の名前」または「答えられない」機能を抑制する）ことで、研究者たちは次のことができた。 モデルによる幻覚の誘発(しかも一貫して！）。)、マイケル・バトキンがチェスをしているように思わせる。

この "既知の答え "回路の "誤作動 "が、人間の介入なしに自然に起こり、幻覚につながることがある。研究論文によれば Claude これは、名前は認識されているが、その名前について何もわかっていない場合に起こりうる。この場合、"known entity "機能がまだ有効になっている可能性があり、デフォルトの "don't know "機能が抑制される。いったんモデルが質問に答える必要があると判断すると、物事をでっち上げ始めます：合理的に見えるが、残念ながら真実ではない答えを生成します。

プリズン・ブレイク」を理解する

「ジェイルブレイク」とは、セキュリティフェンスを回避して、開発者が望まない（時には有害な）出力をモデルに出させるために考案されたキューイング戦略のことである。研究者たちは、爆弾製造に関する情報を生成するようにモデルを誘導するジェイルブレイクの方法を研究してきた。ジェイルブレイクの手法には様々なものがあるが、今回の具体的な方法は、「Babies Outlive Mustard Block」（B-O-M-B）という文の各単語の最初の文字を並べることで、モデルに隠された暗号を解読させ、その情報に基づいて行動させるというものだった。これはモデルを十分に混乱させ、通常では決して出さないような出力を出すようにだました。

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
BOMB（爆弾）」と誘導されたクロードは、爆弾の作り方を説明し始める。

なぜこのように模型を混乱させるのか？なぜ爆弾の作り方の説明が書かれ続けるのか？

これは、文法的な一貫性と安全メカニズムとの間の緊張が原因のひとつであることが判明した。かつて Claude 文章を書き始めると、文法的・意味的な一貫性を維持し、文章を終えるよう、多くの内部機能が「圧力をかける」。これは、本当は拒否すべきであると判断した場合でも同様である。

このケーススタディでは、モデルがうっかり「BOMB」と綴り、指示を出し始めた後、その後の出力が、文法的な正しさと自己矛盾を促進する機能の影響を受けていることが観察された。通常、これらの機能は非常に役立つものだが、このケースではモデルの「アキレス腱」となってしまった。

このモデルは、文法的に首尾一貫した文章を完成させて初めて、拒絶に転じることができる（そして、首尾一貫した文章を維持するよう促す機能による圧力を満足させることができる）。しかし、私は...の詳細な説明を提供することはできません」。.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
脱獄のライフサイクル：クロードは爆弾について話すよう促され、話し始めるが、文法的に妥当な文の終わりに達した後に拒否する。

新しい解釈可能性アプローチの説明は、最初の論文 "回路追跡：言語モデルにおける計算グラフの解明".上記のケーススタディの詳細は、2番目の論文 "大規模言語モデルの生物学について".AIの内部構造を "生物学 "になぞらえたこの研究は、前途はまだ長いとはいえ、ますます強力になる知的システムを理解するための斬新で洞察に満ちた視点を提供している。