TL;DR この論文は8200字以上で、全文を読むのに15分ほどかかる。本稿では、知覚機械からディープラーニングまで、最新のビッグモデル・アプリケーションを簡単にレビューする。 チャットGPT の歴史
オリジナル:https://hutusi.com/articles/the-history-of-neural-networks
人生で恐れることは何もない。理解すべきことがあるだけだ。
-- キュリー夫人
I ディープ・ビリーフ・ネットワーク
年、カナダのトロント大学のジェフリー・ヒントン教授は、多層ニューラルネットワークの訓練方法を研究していた。 彼はこの分野の巨人とみなされているが、ニューラルネットワークが人工知能業界で過小評価されてきたため、彼の研究成果は業界内で過小評価されてきた。
イギリスのロンドンで生まれたヒントンの家系は、ブール代数を創設した論理学者ジョージ・ブールを曾祖父に持つなど、著名な学者を数多く輩出している。祖父は科学ライター、父は昆虫学者だった。ヒントンは周囲の誰よりも頭が良かったが、その進路は少々回り道で、まず大学で建築学を学び、次に物理学、哲学を学び、最終的に心理学の学士号を取得して卒業した。1972年、ヒントンはエジンバラ大学に入学し、ニューラルネットワークに焦点を当てて博士号を取得した。当時、ニューラルネットワークは産業界から軽蔑されており、ヒントンの指導教官でさえ、実用性は低く将来性もないと考えていた。しかし、ヒントンは動じることなくニューラルネットワーク研究に信念を持ち、ニューラルネットワークの価値を証明できると30年以上主張し続けた。
ヒントンは若い頃、ヒーターを動かしていたときに腰椎の椎間板が滑り、それ以来腰痛に悩まされてきた。近年、この問題は悪化し、痛みを和らげるために仰向けに寝なければならないことがほとんどで、運転はもちろん、飛行機にも乗れない。この試練による肉体的苦痛は、学術研究に対する無関心ほどヒントンを苦しめるものではなかった。1969年の時点で、ミンスキーは著書『知覚機械』の中で、多層知覚機械に掟を定め、その後のニューラルネットワーク研究にお墨付きを与えた。 異分散性」のような基本的な分類問題さえ達成できない単層パーセプトロンの能力の限界と、多層パーセプトロンのための利用可能な訓練方法の欠如は、ニューラルネットワーク研究の方向性が行き詰まったと言っているに等しい。業界ではニューラルネットワークは学問的に異端視され、誰も成功するとは信じていなかった。 そのため、学生たちは指導教官を選ぶ際にニューラルネットワークを避けるように注意し、一時期はシントンは十分な大学院生を集めることすらできなかった。
1983年、ヒントンはボルツマンマシンを発明し、その後、簡略化された制限ボルツマンマシンは機械学習に応用され、ディープ・ニューラル・ネットワークの階層構造の基礎となった。1986年、ヒントンは多層知覚機械のためのエラー・バックプロパゲーション・アルゴリズム(BP)を提案し、このアルゴリズムは後のディープ・ラーニングの基礎を築いた。ヒントンはたびたび新しいものを発明し、評判が悪くても200以上のニューラルネットワーク関連の論文を書き続けた。2006年までに、ヒントンは豊富な理論と実践的な基礎を蓄積し、今度は機械学習全体、ひいては世界全体を変えることになる論文を発表した。
シントンは、複数の隠れ層を持つニューラルネットワークは、学習のための特徴を自動的に抽出する能力を持つことができ、これは手作業で特徴を抽出する従来の機械学習よりも効果的であることを発見した。さらに、多層ニューラル・ネットワークの学習の難易度は、層ごとの事前学習によって下げることができ、多層ニューラル・ネットワークの学習における長年の問題を解決した。ヒントンは、ニューラルネットワークという言葉が多くの学術誌編集者から拒絶され、「ニューラルネットワーク」という言葉が含まれているために原稿のタイトルが返送されたこともあった時代に、2つの論文で成果を発表した。こうした人々の感受性を刺激しないために、ヒントンは新しい名前を取り、モデルを「ディープ・ビリーフ・ネットワーク」(深層信念ネットワーク)と名付けた。
センサー
実際、ニューラルネットワークの研究は1940年代まで遡ることができる。1940年、17歳のウォルター・ピッツは、イリノイ大学シカゴ校で42歳のウォーレン・マッカロク教授と出会い、後者の研究プロジェクトに加わった。彼らは論理演算を使って人間の脳の思考モデルを抽象化し、「ニューラル・ネットワーク」(神経回路網)という概念を提唱した。神経細胞は神経回路網の最小の情報処理単位であり、彼らは神経細胞の作業プロセスを非常に単純な論理演算モデルに抽象化・単純化した。M-Pニューロンモデル」と名付けられた。
このモデルでは、ニューロンは他のニューロンから多数の入力信号を受け取るが、入力信号の重要度はニューロンごとに異なり、それは接続の「重み」で表され、ニューロンは重みに応じてすべての入力を合計し、その結果をニューロンの「しきい値」と比較して信号を出力するかどうかを決定する。ニューロンは重みに従ってすべての入力を合計し、その結果をニューロンの「しきい値」と比較して、信号を外部に出力するかどうかを決定する。
M-Pモデル」は記号論理でモデル化できるほどシンプルでわかりやすく、AIの専門家たちはこのモデルに基づいてニューラルネットワーク・モデルを構築し、機械学習課題を解決してきた。人工知能、機械学習、ディープラーニングの関係を簡単に説明しよう。人工知能とは、人間の知能を実現するためにコンピュータ技術を利用することであり、一般的な教科書では知的エージェントの研究と構築と定義されている。知能エージェントとは、人間の思考や認知を模倣して、特定のタスクや汎用的なタスクを解決する知能エージェント、または単にエージェントのことで、特徴的なタスクを解決する知能エージェントは弱い人工知能、または狭い人工知能(ANI)と呼ばれ、汎用的なタスクを解決する知能エージェントは強い人工知能、または汎用人工知能(AGI)と呼ばれる。機械学習は、データから学習してシステムを改善するAIの一分野である。一方、ディープラーニングも機械学習の一分野であり、ニューラルネットワークの技術を機械学習に用いる。
1957年、コーネル大学の心理学教授であったローゼンブラットは、「パーセプトロン」と呼ばれるニューラルネットワーク・モデルをIBMコンピュータ上でシミュレーションし、実装した。彼のアプローチは、マシンビジョンのパターン認識タスクを訓練し、実行するために使用できるM-Pモデルニューロンのセットをまとめることだった。一般的に機械学習には、分類と回帰という2種類のタスクがある。分類とは、画像が猫か犬かを識別するように、データがどのクラスに属するかを決定する問題であり、回帰とは、画像に基づいて人の体重を予測するように、あるデータを別のデータから予測する問題である。パーセプトロンは線形分類問題を解く。パーセプトロン・マシンがどのように働くか、『知性の最前線』から例を挙げて説明しなさい:
タスクの目的はアラビア数字を自動的に認識することであるとする。認識される数字は、手書きまたは印刷された様々な形式であり、14*14ピクセルのサイズの画像ファイルにスキャンして保存される。まず、機械学習のために下図のような学習セットを用意する。学習セットは、コンピュータ学習のために特別に用意されたデータセットであり、絵やその他のデータのセットであるだけでなく、絵のデータが表す数字が何であるかを機械に伝えるために、手動であらかじめラベル付けされている。
次に、マシンがこれらの画像を保存して処理できるように、データ構造を設計しなければならない。14*14のグレイスケールのデジタル画像では、黒画素は1、白画素は0、黒と白の間のグレイスケールの画素は、そのグレイスケールの強さに応じて0-1の間の浮動小数点数で表すことができる。次の図に示すように、この図は2次元テンソル配列に変換することができる:
そして機械は、主に特定の数字を表す絵の特徴を見つけることによって、その絵の数字が何であるかを認識することができる。人間にとって、手書きの数字を認識するのは簡単だが、その特徴が何であるかを説明するのは難しい。M-Pモデルによれば、特徴を抽出する方法は、写真の個々のピクセルの値を重み付けして合計することを選択することであり、各数字に対応する各ピクセルの重みを、訓練セットのサンプル写真と注釈付きデータとの対応付けの結果に基づいて計算することである。あるピクセルが画像がある数字に属さないという非常に否定的な証拠を持つ場合、そのピクセルの重みはその数字に対して否定的な値に設定され、逆にあるピクセルが画像がある数字に属するという非常に肯定的な証拠を持つ場合、そのピクセルの重みはその数字に対して肯定的な値に設定される。例えば、"0 "という数字の場合、画像の真ん中の画素には黒(1)の画素があってはならない。もし黒(1)の画素があれば、その画像は "0 "という数字に属するという否定的な証拠となり、その画像が "0 "という数字である確率を下げることができる。このようにして、データセットの学習とキャリブレーションを行った後、0~9の各数字に対応する各画素の重み分布は、14*14 (=196)として求めることができる。
そして、各数値の分類処理をM-Pニューロンに変換し、各ニューロンは196ピクセルの入力を持ち、各入力とそのニューロン間の重み値は学習によって得られるので、下図のように、10ニューロン、196入力、その前に重みを持つ1960本の接続線からなるニューラルネットワークを構成する:(一般にニューラルネットワークでは、閾値はは、演算処理を簡単にするために、和の項のひとつと呼ばれるバイアスの偏りに変換される)。
しかし、実際には手書きフォントには曖昧さがあり、加重和の後に2つ以上のニューロンが活性化されることがある。そこで、下図に示すような活性化関数の設計を導入して知覚機械を実現する。ソフトマックスは活性化関数であり、確率の小さい数値分類を抑制し、確率の大きい数値分類を強化するように和の値を処理する。
ローゼンブラットはその2年後、世界初のハードウェアパーセプトロン「Mark-1」を作った。このパーセプトロンは英語のアルファベットを識別できるが、当時は大きな反響を呼んだ。米国防総省と海軍軍も注目し、多くの資金援助を与え、マシンの自信の認識にローゼンブラットは、ピークに達しており、さらに記者が尋ねた "マシンが物事を行うことはできませんの認識はありません"、ローゼンブラットの答えは "愛、希望、絶望 "です!ローゼンブラットの答えは「愛、希望、絶望」だった。ローゼンブラットの名声は高まり、その派手な性格からあちこちに敵を作るようになった。その中でも最も有名なのが、人工知能のもう一人の巨人、マービン・ミンスキーだった。ミンスキーはダートマス会議の主催者であり、AIの創始者の一人である。1969年、彼は『知覚機械』という本を出版し、知覚機械に存在する欠陥を明確に指摘した。最初は、知覚機械が不均一分散性(heteroscedasticity)のような非線形の分類問題に対処できないことを数学的に証明したことであり、続いて、多層知覚機械の複雑さが、適切な訓練方法なしに接続データの劇的な拡大をもたらすことを証明した。ミンスキーはこの本が出版された年に第4回チューリング賞を受賞し、知覚機械に関する彼の判断の絶大な威信は、ニューラルネットワーク研究に死を宣告した。コネクショニズムは打撃を受け、記号論的研究がAIの主流となった。
人工知能の分野には主にコネクティビズムとシンボリズムという2つの学派があり、武侠小説における剣の宗派と気の宗派のようなもので、長い間互いにしのぎを削ってきた。コネクティビズムは、人間の脳をモデルにしてニューラルネットワークを構築し、多数の接続に知識を蓄え、データに基づいて学習することでAIを発展させる。一方、シンボリズムは、知識や推論はシンボルとルール、すなわち多数の「if-then」ルール定義によって表現され、判断や推論を生み出すべきだと考え、ルールとロジックに基づいてAIを開発する。前者はニューラルネットワーク、後者はエキスパートシステムによって表現される。
III ディープラーニング
パーセプション・マシンの失敗により、AI分野への政府投資は減少し、AIは最初の冬の時代を迎えた。そして1980年代になると、エキスパート・システムに代表される記号論がAIの主流となり、AIの第二の波が巻き起こる一方、ニューラルネットワーク研究は冷遇された。前述したように、いまだに根強く残っている人物がただ一人、ジェフリー・ヒントンである。
1980年代から今世紀初頭にかけての人工知能分野の主流は、まだ知識ベースと統計解析であったが、シントンの先駆的な貢献により、ニューラルネットワークの様々な手法がブレークスルーを始め、代表的な例として、畳み込みニューラルネットワーク(CNN)、長期短期記憶ネットワーク(LSTM)などが、ニューラルネットワークの分野に生命を吹き込んだ。ネットワーク(LSTM)などである。2006年、Hintonが深層信念ネットワークを提唱し、深層学習の時代が幕を開けた。
ディープラーニングに対応するニューラルネットワークモデルはディープニューラルネットワークと呼ばれ、シャローニューラルネットワークと相対する。浅いニューラルネットワークの場合、一般的に隠れ層(または中間層)は1層のみで、入力層と出力層を加えた合計3層となる。一方、ディープ・ニューラル・ネットワークは、2種類のニューラルネットワークを比較すると、隠れ層が1層以上ある:
ディープラーニングの前に浅いニューラルネットワークに注目が集まってきたのは、ニューラルネットワークの層数が増えると学習の難易度が上がるためで、一方では十分な演算サポートがなく、他方では良いアルゴリズムがない。ヒントンによって提案されたディープ・ビリーフ・ネットワークは、誤差逆伝播アルゴリズムを使用し、層ごとに事前学習を行うことで、この学習問題を解決している。ディープ・ビリーフ・ネットワークの後、ディープ・ニューラル・ネットワークが機械学習の主流となり、現在人気のGPTやLlamaなどの大型モデルは、1つ以上のディープ・ニューラル・ネットワークから構築されている。
ディープニューラルネットワークを理解するために、上記の知覚機械の原理の紹介を参照することができます、ディープニューラルネットワークは、複数の層の複数のニューロンの組み合わせとして考えられ、前節から理解することができます、出力の各層は、重み、バイアス、活性化関数に関連しており、ディープニューラルネットワークの出力はまた、層の数および他の数値に関連しています。ディープニューラルネットワークでは、これらの数値は2つに分けることができ、1つはハイパーパラメータと呼ばれる、技術者が設定する層数、活性化関数、オプティマイザなどであり、もう1つはパラメータと呼ばれる、ディープニューラルネットワークの学習過程で自動的に得られる重みとバイアスであり、適切なパラメータを見つけることがディープラーニングの目的である。
しかし問題は、ディープ・ニューラル・ネットワークには膨大な数のパラメータが含まれており、1つのパラメータを変更すると他のパラメータの挙動に影響するため、これらのパラメータの正しい値を見つけるのは難しい作業だということだ。パラメータの正しい値を見つけ、モデルの出力を正確にするためには、モデルの出力と望ましい出力とのギャップを測定する方法が必要だ。そのため、ディープラーニングの学習は、目的関数やコスト関数とも呼ばれる損失関数を用いて測定される。損失関数は、ディープニューラルネットワークの予測値と真の目標値を比較して損失値を求めることで、この訓練サンプルに対するニューラルネットワークモデルの良し悪しを示します。
ディープラーニングアプローチは、損失値をフィードバック信号として使用し、現在のサンプルトレーニングの損失値を減らすためにパラメータを微調整する。このチューニングはオプティマイザーによって達成され、オプティマイザーは勾配降下などの最適化アルゴリズムを実装し、逆伝播によって各層のニューロンノードのパラメータを更新する。
最初に、ニューラルネットワークのパラメータはランダムに割り当てられ、バッチ学習データが入力され、入力層、隠れ層から出力層を通してネットワークの予測出力を得た後、損失関数に従って損失値が計算されます。.ニューラルネットワークによって処理されるトレーニングサンプルの各バッチは、パラメータが正しい方向に微調整され、損失値が減少する。十分な回数の訓練サイクルにより、損失関数を最小化するパラメータが得られ、その結果、優れたニューラルネットワークモデルが完成します。
もちろん、実際のディープラーニングのプロセスはこれよりもずっと複雑なので、ここでは一般的なプロセスの概要を簡単に説明する。
2012年、ヒントンは2人の学生、アレックス・クリシェフスキーとイリヤ・スッツケバーを率いてAlexNetニューラルネットワークを開発し、ImageNet画像認識コンペティションに出場、2位以下を大きく上回る精度で優勝した。その後、ヒントンと彼の学生たちは、ディープ・ニューラル・ネットワークに特化したDNNResearch社を設立した。2012年の冬、アメリカとカナダの国境にあるタホ湖で秘密裏にオークションが行われた。オークションの対象は設立されたばかりのDNNResearchで、買い手はグーグル、マイクロソフト、ディープマインド、バイドゥだった。結局、GoogleとBaiduがまだ価格を競り上げている間に、Hintonはオークションを中止し、4400万ドルでGoogleに売却することを選んだ。2014年、GoogleはDeepMindを懐に入れた。2016年、古典的なモンテカルロ木探索とディープ・ニューラル・ネットワークを組み合わせたAlphaGoがLee Sedolを破り、翌年には世界囲碁ランキング1位の柯潔を破り、AlphaGoは人工知能とディープラーニングの限界を押し広げた。人工知能とディープラーニングの限界を新たな高みへと押し上げた。
大型モデル
2015年、マスク、ストライプのCTOであるグレッグ・ブロックマン、YCベンチャーズのCEOであるサム・アルトマンとイリヤ・サッツケヴァーらがカリフォルニアのレジウッドホテルに集まり、大手インターネット企業によるAI技術の支配に対抗するためのAIラボの設立について話し合った。次に、グレッグ・ブロックマンがグーグル、マイクロソフトなどから研究者を集め、OpenAIと呼ばれる新しいラボを設立し、グレッグ・ブロックマン、サム・アルトマン、イリヤ・サッツケバーがそれぞれOpenAIの会長、CEO、チーフ・サイエンティストを務めることになった。
マスクとサム・アルトマンは当初、大手インターネット企業によるAI技術の支配がもたらす危険に対抗する手段として、AI技術を誰にでも開放する非営利団体としてOpenAIを構想していた。ディープラーニングによるAI技術は爆発的に普及していたため、その技術が将来的に人類の脅威となるかどうかは誰にも予測できず、オープンであることがそれに対抗する最善の方法かもしれなかったからだ。そして2019年後半、OpenAIは技術開発の資金を調達するため、収益性の高い子会社を設立し、後回しになっていたコア技術をクローズドソース化することを選択した。
2017年、グーグルのエンジニアは「Attention is all you need」という論文を発表し、その中で人間の注意メカニズムをニューラルネットワークに導入したことを特徴とする「Transformer」ニューラルネットワークアーキテクチャを提案した。前述した画像認識は、ディープラーニングにおけるシナリオのひとつで、画像データは離散的で互いに関連性がない。実生活では、もう一つのシナリオがある。それは、テキストのような時間的データを扱うことで、テキストの文脈は関連しているし、音声やビデオなども時間的データである。この時間順序付けられたデータは、シーケンス(シーケンス)と呼ばれ、実際のタスクは、多くの場合、翻訳、英語の段落に中国語の段落のような別のシーケンスにシーケンスであるだけでなく、ロボットのQ&A、インテリジェントに生成された回答の段落に質問の段落、したがって、コンバータ(Transformer)の使用であり、これがTransformerの名前の由来です。これがトランスフォーマーの名前の由来である。前述したように、ニューロンの励起は、それが接続されている入力データの重み付き和によって決定され、重みは接続の強さを表す。時系列データの場合、各要素の重みは異なっており、これは日常的な経験と一致する:
例えば、この文章を読み終えたとき、その中のすべての文字がぐちゃぐちゃになっていることに気づく。
これは漢字だけでなく、英語など他の人間の言語にも当てはまる。Googleのエンジニアは、自然言語処理で使用されるニューラルネットワークモデルにアテンションメカニズムを導入し、機械が人間の言語の意図を「理解」できるようにした。その後、2018年にはOpenAIがTransformerアーキテクチャに基づくGPT-1を、2019年にはGPT-2を、2020年にはGPT-3を、2022年末にはGPT-3.5に基づくAI Q&AプログラムChatGPTをリリースし、その対話能力は衝撃的であり、AIはAGIの方向へ大きく前進した。
GPTの正式名称はGenerative Pre-trained Transformerで、Generativeは新しいコンテンツを生成する能力、Transformerはそのインフラストラクチャー、真ん中のPre-trainedはそのトレーニング方法が事前トレーニングであることを示している。なぜpre-trainedと呼ばれるのか?それは、AlexNetを皮切りに、より良い結果を得るために、ニューラルネットワークの訓練に大きなデータとより多くのパラメータを使うようになり、訓練がより臨機応変で時間のかかるものになりつつあることを意味するからだ。このコストは、特定のタスクをトレーニングするには少々高く、他のニューラルネットワークと共有できないため、やや無駄が多い。そのため、業界ではニューラルネットワークモデルのトレーニングに事前トレーニング+ファインチューニングアプローチを採用し始めています。つまり、最初に大きなデータセットで一般的な大きなモデルのトレーニングを完了させ、次に特定のタスクシナリオのための小さなデータセットでモデルのファインチューニングを完了させます。ChatGPTは、ニューラルネットワークモデルのトレーニング手法であるRLHF(reinforcement learning from human feedback)を採用しています。ChatGPTは、人間のフィードバックからの強化学習(RLHF)を事前学習と微調整に使用しており、3つのステップに分かれています:第1ステップは言語モデル(LM)の事前学習、第2ステップはQ&Aデータの収集と報酬モデル(RM)の学習、第3ステップは強化学習(RL)による言語モデル(LM)の微調整です。この報酬モデルには人間のフィードバックが含まれるため、学習プロセスはRLHFと呼ばれる。
ユーザーはChatGPTの使用中、その精度に加え、複数ラウンドの対話能力に感銘を受けています。ニューラルネットワークの基礎的な探求によると、各推論プロセスは入力から各ニューロンの重み付けと活性化を経て出力に至るものであり、記憶能力はありません。そして、ChatGPTが多ラウンド対話と相性が良いのは、対話管理にプロンプトエンジニアリングの技術が使われているからです。
ChatGPTのような大規模な言語モデルの場合、その入力は文字列を変換した後のトークンであり、大規模なモデルでは計算効率やメモリの制約から、入力トークンの数を制限するために固定コンテキストウィンドウを設計するのが一般的である。テキストはまずトークナイザによって細分化され、ルックアップテーブルによって番号が付けられ、次の図に示すように、行列に埋め込まれて高次元空間ベクトルになります。これがテキストベクトル化のプロセスです。
トークンの数に制限があるため、限られたコンテキストウィンドウでより包括的な情報をより大きなモデルに伝えるためには、プロンプトエンジニアリングのテクニックを使用する必要があります。プロンプトエンジニアリングは、モデルがより期待にマッチする出力を生成するように、モデル入力を最適化するために多くの戦略を使用します。
ChatGPTの成功の背景には、GPTに代表される大規模モデルの技術的進化がある。 OpenAIは、精力的な努力が奇跡を生むと信じており、GPTのパラメータを継続的に拡張してきた。GPT-1のモデルパラメータは1億1700万、GPT-2のモデルパラメータは15億、GPT-3は1750億、GPT-4のモデルパラメータは1兆8000億に達したと言われている。モデル・パラメータが増えるということは、学習をサポートする計算能力も増えるということだ。そこでOpenAIは、モデルの性能はモデル・サイズ、データ量、計算リソースに関係するという「スケーリングの法則」をまとめた。簡単に言えば、モデルが大きいほど、データ量が大きいほど、計算リソースが大きいほど、モデルの性能は向上するということだ。強化学習の生みの親であるリッチ・サットンも、論文「苦い教訓」(the Bitter Lesson)の中で同様の見解を示しており、ここ数十年の人工知能の発展を振り返り、短期的には、人々は常に知識の構築を通じて知能体の性能を向上させようとしているが、長期的には、強力な演算能力が王者であると結論づけている。
大型モデルの能力も定量的な変化から定性的な変化へと変化しており、グーグルのチーフ・サイエンティスト、ジェフ・ディーンは大型モデルの「創発的能力」(Emergent abilities)と呼んだ。市場はこの機会を捉え、一方では大型モデル投資の大手ベンダーが軍拡競争を繰り広げ、他方ではオープンソース生態の大型モデルも本格化している。
Vハグ顔
2016年、フランス人のClément Delangue、Julien Chaumond、Thomas Wolfの3人は、絵文字のアイコンをロゴにしたHugging Faceという会社を設立した。 Hugging Faceは、若者向けのインテリジェントなチャットボットの開発からスタートし、その後、モデルをトレーニングする過程でいくつかのモデルトレーニングツールを開発し、オープンソース化した。その後、いくつかのモデル訓練ツールを開発し、それをオープンソース化し、さらにその後、後者に重点を移すという、一見「プロらしくない」アプローチで、新たな軌道に乗り、ディープラーニング分野で欠かせない役割を担うまでになった。
シリコンバレーは、多くの企業が実績を作るために副業をしている、例えばSlackはもともとゲームを開発し、会社のチームは多くの場所に分散している、運用の過程で開発されたコミュニケーションツールの結果は、偶然の火災、つまり、Slackです。そして、ハグFaceのターンもまた似ていますが、また、独自のペインポイントを解決するために、2018年に、Googleは大きなモデルBERTをリリースし、ハグFaceの従業員は、その後、BERTを実装するために彼らのおなじみのPytorchフレームワークを使用して、モデルをpytorch-pretrained-bertと名付け、Gitubにオープンソース化した。その後、Hugging Faceの従業員は、使い慣れたPytorchフレームワークを使ってBERTを実装し、モデルをpytorch-pretrained-bertと名付け、GitHubにオープンソース化した。その後、コミュニティの協力を得て、GPT、GPT-2、Transformer-XLなどのモデル群が導入され、プロジェクトは次のように改名された。ディープラーニングの分野では、PytorchとTensorFlowの2つのフレームワークが競合しており、研究者は2つのフレームワークの長所と短所を比較するために、2つのフレームワークを切り替えることが多いため、オープンソースプロジェクトでは、2つのフレームワークを切り替える機能が追加され、プロジェクト名もTransformersに変更されました。また、TransformersはGitHubで最も急速に成長しているプロジェクトとなっている。
ハギング・フェイスは、データセット、トーケナイザー、ディフューザー......といった一連の機械学習ツールの開発とオープンソース化を続けている。Hugging Face以前は、AI開発は標準化された工学的アプローチを持たない研究者たちによって支配されていたと言えます。 Hugging Faceは包括的なAIツールセットを提供し、デファクトスタンダードのセットを確立することで、より多くのAI開発者、そしてAIを専門としない人たちでさえも、素早く開発に着手し、モデルを訓練することを可能にしています。
Hugging Faceはその後、GitとGit LFS技術に基づいてモデル、データセット、AIアプリケーションをホスティングするHugging Face Hubを立ち上げ、これまでに35万個のモデル、7万5千個のデータセット、15万個のサンプルAIアプリケーションがこのプラットフォームにホスティングされている。モデルやデータセットをホスティングしてオープンソース化し、グローバルなオープンソース・リポジトリ・センターを設立する取り組みは、革新的で広範囲に及ぶ。前述の事前トレーニング+微調整アプローチは、ニューラルネットワークのトレーニングリソースの共有を促進するが、Hugging Face Hubは、AI開発者が世界最先端の結果を再利用し、それらに追加することを容易にすることで、AIの使用と開発を誰にでも民主化することで、それをさらに一歩進めている。GitHub、あるいは彼らのスローガンにあるように、未来のAIコミュニティを構築するのだ。以前、私は2つの記事を書いた。世界を変えたコード・コミットGitの紹介ゼロから100億ドルへの道GitHubの紹介、そしてGit、GitHub、Hugging Face。この2つの間には、未来を築くために世界を変えようとしているハッキングのレガシー(遺産)のようなものがあると思うし、それがこの記事を書こうと思ったきっかけのひとつでもある。
追記
この記事の終わりに近づいた頃、ヒントンが最近オックスフォード大学で行った講演を見た。ひとつは論理的アプローチ、つまり象徴主義と呼ばれるもので、もうひとつは生物学的アプローチ、つまり人間の脳をシミュレートするニューラルネットワーク接続主義と呼ばれるものである。そして、生物学的アプローチは論理的アプローチに対して明らかに勝者であることが証明された。ニューラルネットワークは人間の脳の理解を模倣するために設計されたモデルであり、大規模なモデルは脳のように働き、理解する。ヒントンは、人間の脳を超える人工知能が将来、しかも我々の予測よりもずっと早く出現すると考えている。
添付資料1 年表
1943年、マッカロクとピッツは「M-Pニューロンモデル」を発表し、数学的論理を用いて人間の脳の計算ユニットを説明、シミュレートし、ニューラルネットワークの概念を導入した。
人工知能」という言葉は、1956年のダートマス会議で初めて作られた。
1957年、ローゼンブラットは「パーセプトロン」モデルを提案し、その2年後、英語のアルファベットを認識できるハードウェアパーセプトロン「Mark-1」の製作に成功した。
1969年、ミンスキーは『知覚機械』を出版し、そこで指摘された知覚機械の欠陥は、知覚機械、さらにはニューラルネットワークの研究に大きな打撃を与えた。
1983年、ヒントンはボルツマンマシンを発明した。
1986年、ヒントンは誤差逆伝播アルゴリズムを発明した。
1989年、ヤン・ルクンは畳み込みニューラルネットワーク(CNN)を発明した。
2006年、ヒントンはディープ・ビリーフ・ネットワークを提唱し、ディープラーニングの時代を切り開いた。
ディープラーニングが業界で本格的に取り上げられるようになったのは、2012年にヒントンと彼の学生2人がAlexNetを設計し、ImageNetコンペティションで圧倒的な勝利を収めたときだ。
2015年、グーグルが買収したディープマインド社がアルファ碁を立ち上げ、2016年に李世ドル、2017年に柯潔を破った。オープンAIが設立された。
ハギング・フェイスは2016年に設立された。
2017年、グーグルはトランスフォーマーのモデルペーパーを発表した。
2018年、OpenAIはTransformerアーキテクチャに基づくGPT-1をリリースした。Hugging FaceはTransformersプロジェクトをリリースした。
2019年、OpenAIはGPT-2をリリースする。
2020年、OpenAIがGPT-3をリリース。 Hugging FaceがHugging Face Hubを発表。
2022年、OpenAIがChatGPTをリリース。
付録2 参考文献
本だ:
知性のフロンティア:チューリング機械から人工知能まで 周志明 (著) 機械工業出版社 2018年10月
ディープラーニング革命 ケイド・メッツ著 杜秀光中信出版社 2023年1月
Pythonで学ぶディープラーニング(第2版) Francois Chollet (著) Liang Zhang (翻訳) 人民郵政出版社 2022年8月
ディープラーニング入門:Pythonに基づく理論と実装 齋藤 泰瑞 (著) 呂 祐傑 (翻訳) 人民郵政出版社 2018年
ディープラーニングアドバンス:自然言語処理 齋藤 康敬 (著) 呂 裕傑 (翻訳) 人民郵政出版社 2020年10月
This is ChatGPT スティーブン・ウォルフラム (著) WOLFRAM Media Chinese Group (翻訳) 人民郵電出版社 2023年7月
生成人工知能 丁磊 (著) 中信出版社 2023年5月
ハギングフェイス自然言語処理解説 李富林 (著) 清華大学出版会 2023年4月
記事
ニューラルネットワーク入門 by Yifeng Nguyen
2012年、人類の運命を変えた180日」 円川研究所
GPTファミリーの進化 メタポスト
トランスフォーマー - 注意がすべて」。
学習済み言語モデルの開発.
ヒント・エンジニアリングの手引き
クレジット」の裏にあるChatGPT - RLHFテクノロジーの詳細解説。
ChatGPTラージモデリング技術の開発と応用。
ビター・レッスン』リッチ・サットン
HuggingFaceのCTOにインタビュー:オープンソースの台頭、スタートアップのストーリー、そしてAIの民主化」。