機械学習の歴史と発展
A Brief History of Machine Learning
入門
このページの目標
パーセプトロンから生成 AI まで、機械学習がどのような発想の積み重ねで発展してきたかを俯瞰し、なぜ「ブーム」と「冬の時代」が繰り返されたのか、計算資源とデータが何を変えたのかを理解する。
1. 全体像:主要マイルストーン年表
機械学習の歴史は、平坦な右肩上がりではない。期待が高まるブームと、期待外れで資金が引き上げられる冬の時代とが交互に訪れてきた。その背後には常に三つの要素――アイデア(学習の発想)、計算資源、データ――の三つ巴の関係がある。アイデアが先行しても計算資源とデータが伴わなければ実用に届かず、その断絶が冬を招いた。
図 1 に示すように、1958 年のパーセプトロンに始まり、1986 年の誤差逆伝播の普及、1995 年のサポートベクターマシン、2006 年と 2012 年の深層学習の躍進、2014 年以降の生成モデル、2017 年の Transformer、そして 2020 年代の大規模言語モデルと拡散モデルへと、約 60 年にわたって主役が移り変わってきた。以下、この年表を時代ごとに読み解いていく。
歴史全体を貫く構図を図 2 にまとめた。期待が先行して冷えた理由(赤)と、技術が追いついて再燃したきっかけ(緑)とが交互に現れる。アイデア・計算資源・データの三要素が揃えば前進し、欠ければ停滞する――この失敗と成功の繰り返しが機械学習の歴史である。
2. 黎明期:パーセプトロンと第1次ブーム
機械学習の出発点は、脳の神経細胞を単純化した数理モデルである。1943 年に McCulloch と Pitts が形式ニューロンを提案し、1958 年に Rosenblatt がパーセプトロンを発表した。パーセプトロンは入力ベクトル $\mathbf{x}$ に重み $\mathbf{w}$ を掛けて足し合わせ、しきい値を超えれば発火するという、いまも続くニューロンの計算の原型である:
$$y = \begin{cases} 1 & \mathbf{w}\cdot\mathbf{x} + b > 0 \\ 0 & \text{それ以外} \end{cases}$$ここで $\mathbf{w}\cdot\mathbf{x}$ は入力と重みの内積(重み付き和)、$b$ はバイアス項(発火のしやすさを左右するオフセット)である。
重みを誤りに応じて少しずつ修正する単純な学習規則で線形分離可能な問題を解けたことは、当時としては衝撃的であり、第1次 AI ブームを牽引した。しかし 1969 年、Minsky と Papert が単層パーセプトロンでは XOR のような線形分離不可能な問題を解けないことを厳密に示し、過熱した期待は急速にしぼんだ。これが最初の冬の時代である。本質的には多層化すれば解けるのだが、当時は多層を学習させる手段が確立していなかった。
3. 記号 AI とエキスパートシステム
ニューラルネットワークが停滞する一方、1970〜80 年代の AI 研究の中心は、知識を 記号(シンボル)と規則で表現する立場へ移った。代表がエキスパートシステムである。専門家の知識を「もし症状が A なら病気 B」といった if-then ルールの集合として書き下し、推論エンジンで結論を導く。医療診断の MYCIN や化学構造解析の DENDRAL が知られ、商用化も進んだ。
- 強み:判断の根拠を規則として説明できる。少数の明確な問題で高い性能を出せた。
- 弱み:規則を人手で書き続ける知識獲得のボトルネック。例外が増えるほど規則が膨張し、保守が破綻した。
1980 年代後半、エキスパートシステムの保守コストとハードウェア(専用 LISP マシン)の事業が行き詰まり、再び資金が引き上げられて第2の冬の時代に入った。この経験は「人手で規則を書く」より「データから自動で学ぶ」方向への回帰を促す転機となった。
4. 第2次ブーム:誤差逆伝播の再発見
多層ニューラルネットワークを学習させる鍵が誤差逆伝播法(バックプロパゲーション)である。出力の誤差を、各層の重みに関する勾配へ連鎖律で逆向きに伝え、勾配降下で重みを更新する。1986 年に Rumelhart・Hinton・Williams らの論文で広く知られ、単層パーセプトロンの限界を多層化で乗り越える道を開いた。
これにより XOR のような非線形問題も学習可能となり、第2次のニューラルネットブームが起きた。だが当時の計算機は遅く、データも乏しく、層を深くすると勾配が消失して学習が進まない勾配消失問題に阻まれた。理論的な枠組みは整ったものの、規模を活かす環境がまだ無かったのである。誤差逆伝播そのものは現在の深層学習でも中核であり続けており、アイデアは正しかったが「時期尚早」だった典型例といえる。
5. 統計的学習の時代
1990 年代、ニューラルネットワークが伸び悩む中で、統計的学習理論に基づく手法が主流となった。なかでも 1995 年に Cortes と Vapnik が確立したサポートベクターマシン(SVM)は、クラスを分ける境界(超平面)の余白(マージン)を最大化するという明快な原理を持ち、カーネル法で非線形分類にも拡張できた。理論的保証があり、少ないデータでも安定して高性能だったため広く使われた。
- SVM・カーネル法:マージン最大化と凸最適化に基づく。詳しくは凸最適化理論も参照。
- 決定木・ランダムフォレスト・ブースティング:複数の弱い学習器を組み合わせるアンサンブル学習が成熟した。
- 確率的グラフィカルモデル:ベイズの枠組みで不確実性を扱う手法が発展した。
この時代に「データから学ぶ」統計的な作法が確立し、特徴設計・汎化・過学習といった現在も重要な概念が整理された。一方でニューラルネットワークは「古い手法」と見なされ、研究の主流からは外れていた。
6. 深層学習の勃興
潮目が変わったのは 2006 年である。Hinton らが、層ごとに事前学習してから全体を微調整する手法で深いネットワークを実用的に学習させられることを示し、「ディープラーニング」という呼称が広まった。だが決定打は 2012 年だった。Krizhevsky・Sutskever・Hinton によるAlexNet が、画像認識のコンペティション ImageNet で従来手法を大差で上回り、深層学習の有効性を誰の目にも明らかにした。
この躍進を支えたのは、アイデアだけではない。三要素がそろったことが本質である:
- 計算資源:GPU による大規模並列計算で、巨大なネットワークの学習が現実的な時間で可能になった。
- データ:ImageNet をはじめとする大量のラベル付きデータが、深いモデルの表現力を埋めるだけの情報を供給した。
- 工夫:ReLU 活性化、ドロップアウト、より良い初期化などが勾配消失を緩和した。
かつて冬を招いた「アイデアはあるが計算とデータが足りない」状態が、ようやく解消されたのである。以後、画像・音声・自然言語処理のあらゆる分野で深層学習が標準となった。個々の CNN アーキテクチャ(LeNet・AlexNet・VGG・ResNet)の発展はCNN アーキテクチャで詳しく扱う。
7. 生成と大規模化
2010 年代後半からは、識別(分類)に加えて生成――データそのものを作り出す――が大きなテーマとなった。2014 年に Goodfellow らが提案した敵対的生成ネットワーク(GAN)は、生成器と識別器を競わせて本物そっくりの画像を作り、生成モデル研究を一気に押し進めた。
そして 2017 年、自然言語処理の景色を変えたのがTransformer である。注意機構(attention)によって系列全体の関係を並列に捉えられ、巨大なデータでの学習に向いていた。これを土台に GPT などの大規模言語モデル(LLM)が登場し、規模を増やすほど性能が伸びる「スケーリング則」が観測された。2020 年代には画像生成で拡散モデルが高品質な生成を実現し、2022 年には対話型 AI である ChatGPT が広く一般に普及した。図 1 の右端が、この生成 AI 時代に対応する。
歴史を振り返ると、現代の生成 AI もまた、パーセプトロンの「重み付き和」、誤差逆伝播の「勾配で学ぶ」という基本原理の延長線上にある。変わったのは規模――データ量・計算量・パラメータ数――であり、アイデアと計算資源とデータが同時にそろったとき技術が飛躍する、という歴史の教訓を改めて示している。
よくある質問
Q1. AIの「冬の時代」はなぜ来たのですか?
過剰な期待に技術が追いつかず、計算資源・データ・理論の限界が露呈したため。単層パーセプトロンの限界指摘(1969)やエキスパートシステムの保守コスト破綻が代表例で、研究資金が引き上げられ停滞期に入った。
Q2. 深層学習が2010年代に急成長した理由は?
誤差逆伝播という学習法に加え、GPU による大規模並列計算と、ImageNet など大量のラベル付きデータが揃ったため。2012 年の AlexNet が画像認識で圧倒的精度を示し、深層学習の有効性を実証した。
Q3. Transformerはなぜ重要なのですか?
2017 年に登場した Transformer は注意機構で系列を並列処理でき、巨大データでの学習を可能にした。GPT などの大規模言語モデルや画像生成の基盤となり、生成 AI 時代の中核技術となった。
関連項目・参考資料
参考資料
- Ian Goodfellow, Yoshua Bengio, Aaron Courville: Deep Learning, MIT Press, 2016.
- Christopher M. Bishop: Pattern Recognition and Machine Learning, Springer, 2006.
- Wikipedia (ja): 機械学習
- Wikipedia (en): History of artificial neural networks