機械学習 上級

Modern Deep Learning and Theory — 上級(研究者・実務者向け)

この章について

上級では、現代の深層学習の最前線と理論的基盤を学ぶ。Transformer アーキテクチャ、生成モデル(VAE, GAN, 拡散モデル)、統計的学習理論を扱う。最新の研究論文を読み、新しい手法を設計・実装できる能力を身につけることが目標である。

前提知識

  • 中級レベルの内容(NN, CNN, RNN)
  • 確率論・統計学
  • 最適化理論の基礎
  • 情報理論の基礎(KL ダイバージェンス)

目次

1. 注意機構

Transformer の基礎。

  • Self-Attention
  • Multi-Head Attention
  • 位置エンコーディング

2. Transformer

現代 NLP の基盤。

  • エンコーダ・デコーダ構造
  • BERT, GPT
  • 大規模言語モデル

3. Vision Transformer

画像への Transformer 適用。

  • パッチ埋め込み
  • ViT アーキテクチャ
  • CNN との比較

4. 変分オートエンコーダ(VAE)

確率的生成モデル。

  • 潜在変数モデル
  • 変分下界(ELBO)
  • 再パラメータ化トリック

5. 敵対的生成ネットワーク(GAN)

二人ゲームによる生成。

  • Generator と Discriminator
  • 訓練の不安定性
  • StyleGAN, BigGAN

6. 拡散モデル

最先端の生成モデル。

  • ノイズ除去スコアマッチング
  • DDPM
  • 条件付き生成

7. 自己教師あり学習

ラベルなしデータの活用。

  • 対照学習(SimCLR, MoCo)
  • マスク言語モデル
  • 事前訓練と微調整

8. 統計的学習理論

汎化の理論。

  • PAC 学習
  • VC 次元
  • Rademacher 複雑度

9. 深層学習の理論

なぜ深層学習は動くか。

  • 過パラメータ化と暗黙の正則化
  • Neural Tangent Kernel
  • 損失面の景観

10. 強化学習の深層化

DQN から AlphaGo へ。

  • Deep Q-Network
  • Policy Gradient
  • Actor-Critic

11. 最新トピック

研究の最前線。

  • マルチモーダル学習
  • プロンプト学習
  • AI の安全性・整合性

12. 大規模言語モデル(LLM)

GPT から Claude へ。

  • トークナイゼーション(BPE, SentencePiece)
  • スケーリング則(Kaplan, Chinchilla)
  • RLHF / DPO によるアラインメント
  • 推論最適化(KV キャッシュ, 量子化)

13. ファインチューニングと LoRA

パラメータ効率的適応。

  • LoRA / QLoRA(低ランク適応)
  • Adapter、Prefix Tuning
  • PEFT 手法の比較と実践

14. RAG(検索拡張生成)

外部知識で LLM を強化。

  • ベクトル検索と埋め込みモデル
  • チャンク戦略(固定長/セマンティック/親子)
  • リランキングとハイブリッド検索
  • Self-RAG、GraphRAG

15. 情報理論と機械学習

情報量の観点から学習を理解。

  • KL ダイバージェンス、相互情報量
  • ELBO と変分推論
  • 情報ボトルネック理論

16. グラフニューラルネットワーク

グラフ構造データの学習。

  • GCN、GAT、GraphSAGE
  • メッセージパッシング
  • 分子設計・推薦システム

17. 因果推論

相関から因果へ。

  • 反事実と do-calculus
  • 因果グラフ(DAG)
  • 処置効果推定、因果フォレスト

18. Stable Diffusion の数学的原理

SDE・スコア関数・潜在拡散。

  • スコア関数とスコアマッチング
  • 確率微分方程式(SDE/ODE)
  • VAE 潜在空間と Latent Diffusion
  • Classifier-Free Guidance の導出

主要な概念・手法

Self-Attention

Query $\boldsymbol{Q}$, Key $\boldsymbol{K}$, Value $\boldsymbol{V}$ から: $$\text{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) = \text{softmax}\left(\frac{\boldsymbol{Q}\boldsymbol{K}^\top}{\sqrt{d_k}}\right)\boldsymbol{V}$$ 系列内の任意の位置間の依存関係を直接モデル化。

VAE の目的関数(ELBO)

$$\mathcal{L} = \mathbb{E}_{q(\boldsymbol{z}|\boldsymbol{x})}[\log p(\boldsymbol{x}|\boldsymbol{z})] - D_{\text{KL}}(q(\boldsymbol{z}|\boldsymbol{x}) \| p(\boldsymbol{z}))$$ 再構成誤差と事前分布への正則化のトレードオフ。

GAN の目的関数

$$\min_G \max_D \mathbb{E}_{\boldsymbol{x} \sim p_{\text{data}}}[\log D(\boldsymbol{x})] + \mathbb{E}_{\boldsymbol{z} \sim p(\boldsymbol{z})}[\log(1 - D(G(\boldsymbol{z})))]$$ Generator と Discriminator のミニマックスゲーム。

拡散モデル

データに徐々にノイズを加える順方向過程と、ノイズを除去する逆過程を学習。逆過程は $p_\theta(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ をニューラルネットでパラメータ化。

PAC 学習

サンプル数 $n$ に対し、確率 $1-\delta$ 以上で汎化誤差が $\varepsilon$ 以下となるための十分条件を与える。$n = O\left(\frac{1}{\varepsilon}\left(d \log\frac{1}{\varepsilon} + \log\frac{1}{\delta}\right)\right)$($d$ は VC 次元)。

このレベルで理解できる応用

大規模言語モデル

GPT, Claude などの言語モデル。プロンプトエンジニアリング、fine-tuning、RLHF。

画像生成

Stable Diffusion, DALL-E。テキストから画像を生成。拡散モデルの実応用。

タンパク質構造予測

AlphaFold。Transformer と構造予測の融合。科学研究への深層学習応用。

ゲーム AI

AlphaGo, AlphaZero。深層強化学習によるゲームの制覇。

研究最前線との接続

上級の内容は、NeurIPS, ICML, ICLR などのトップ会議で発表される最新研究に直結する。論文を読み、再現実装し、新しいアイデアを検証する能力がこのレベルの目標である。

学習のポイント

  • 論文を読む:arXiv の最新論文を追う習慣
  • 再現実装:論文のモデルを自分で実装する
  • 理論と実践:なぜ動くかを説明できる
  • 批判的思考:手法の限界と仮定を理解する

参考文献

  • Goodfellow, Bengio & Courville, Deep Learning
  • Vaswani et al., "Attention Is All You Need" (2017)
  • Kingma & Welling, "Auto-Encoding Variational Bayes" (2014)
  • Ho et al., "Denoising Diffusion Probabilistic Models" (2020)
  • Shalev-Shwartz & Ben-David, Understanding Machine Learning

関連シリーズ