LLM（ラージ・ランゲージ・モデル）とは？

20.5K 00

大規模言語モデルの定義

大規模言語モデル（Large Language Model：LLM）は、Transformerアーキテクチャを中核とし、膨大なテキストデータに対して学習されたディープラーニングシステムである。このアーキテクチャの自己アテンションメカニズムは、言語内の長距離依存関係を効果的に捉えることができる。このモデルが「大規模」なのは、数億から数千億のパラメータを持ち、学習過程で継続的に調整され、言語の統計的法則と意味パターンを学習するという意味である。

学習は2つのフェーズに分けられる。事前学習では、不明瞭な単語や次の単語を予測することで、モデルが文法、事実知識、初期の推論スキルを習得する。微調整では、特定の指示や人間のフィードバックデータを使用して、より安全で有用になるようにモデルの動作を最適化する。ビッグ・ランゲージ・モデルは、言語の真の理解ではなく、入力に基づいて最も可能性の高い出力シーケンスを計算する確率的モデルである。GPTファミリーやPaLMなどの代表的なモデルは、AIアプリケーションを発展させるための重要なツールとなっている。

偉大なる言語モデルの歴史的起源

初期の自然言語処理の研究は、チューリングテストとELIZAチャットボットのようなルールベースのシステムで1950年代にさかのぼる。
1980年代から1990年代にかけて、単語頻度を用いてテキストを予測するn-gramモデルのような統計的言語モデルが登場したが、データの疎らさという問題によって制限されていた。
21世紀初頭、Word2VecやLSTMのようなニューラルネットワーク言語モデルが登場し、単語のベクトルによって意味論を表現し、ディープラーニングの基礎を築いた。
2017年のTransformerアーキテクチャの提案が転機となり、長いシーケンス処理の課題を解決するための自己アテンション機構を備え、BERTやGPTといった事前学習済みモデルが生まれた。
2020年以降、計算資源とデータサイズは爆発的に増大し、モデルパラメータはGPT-3のように数千億を突破する。
歴史的な系譜は、ビッグ・ランゲージ・モデルの進化が、アルゴリズムの革新、ハードウェアの進歩、データの蓄積に依存しており、各段階が前世代のモデルの欠点を克服していることを示している。

ビッグ・ランゲージ・モデルの基本原則

Transformerアーキテクチャの自己アテンション・メカニズムは、従来のリカレント・ニューラル・ネットワークに代わって、各単語と文脈内の他の単語との関連付けの重みを計算し、語彙を並列処理することを可能にする。
前者は入力単語をランダムにマスクしてモデルを回復させるもので、後者は次の単語を逐次予測して言語生成能力を発達させるものである。
パラメータ・スケールの拡大は、数学的推論やコード記述のような、小さなモデルでは実行できない複雑なタスクが、大きなパラメータ・モデルで自発的に発生するような、創発的能力をもたらす。
推論プロセスは確率的サンプリングに依存しており、モデルは各候補語の確率分布を出力し、ランダム性は温度パラメータによって制御される。
インストラクション・チューニングやアライメント・トレーニングのような微調整技術は、人間の価値観に合わせてモデルの出力を最適化するために、人間フィードバック付き強化学習（RLHF）を使用します。
その核となる原理は、大きな言語モデルは本質的に論理エンジンではなくデータ駆動型のパターンマッチングであり、その性能は学習データの質と多様性に直接影響されることを明らかにしている。

大規模言語モデルの学習法

データ収集では、ウィキペディア、ニュースサイト、学術論文などのソースから大規模なテキストクリーニングと重複排除を行い、多領域の言語現象を確実にカバーした。
事前学習段階では、GPUクラスターを数週間から数カ月にわたって使用し、何百万ドルものコストをかけて膨大な演算量を消費する。
微調整の方法には、ラベル付けされたデータを使ってモデルのパラメーターを調整する教師あり微調整や、有害な出力を減らす人間のフィードバックに基づく強化学習などがある。
Megatron-LMやDeepSpeedのような分散トレーニングフレームワークは、モデルパラメータを複数のデバイスに分割することで、メモリのボトルネックに対処する。
トレーニングの過程では、データの安全性を重視し、個人情報や偏った内容を削除しているが、差別を完全になくすことには課題が残る。
最適化アルゴリズムは、AdamWのような適応学習率法を用いて、学習速度と安定性のバランスをとり、オーバーフィッティングを防ぐ。