機械学習 上級
Modern Deep Learning and Theory — 上級(研究者・実務者向け)
この章について
上級では、現代の深層学習の最前線と理論的基盤を学ぶ。Transformer アーキテクチャ、生成モデル(VAE, GAN, 拡散モデル)、統計的学習理論を扱う。最新の研究論文を読み、新しい手法を設計・実装できる能力を身につけることが目標である。
前提知識
- 中級レベルの内容(NN, CNN, RNN)
- 確率論・統計学
- 最適化理論の基礎
- 情報理論の基礎(KL ダイバージェンス)
目次
1. 注意機構
Transformer の基礎。
- Self-Attention
- Multi-Head Attention
- 位置エンコーディング
2. Transformer
現代 NLP の基盤。
- エンコーダ・デコーダ構造
- BERT, GPT
- 大規模言語モデル
3. Vision Transformer
画像への Transformer 適用。
- パッチ埋め込み
- ViT アーキテクチャ
- CNN との比較
4. 変分オートエンコーダ(VAE)
確率的生成モデル。
- 潜在変数モデル
- 変分下界(ELBO)
- 再パラメータ化トリック
5. 敵対的生成ネットワーク(GAN)
二人ゲームによる生成。
- Generator と Discriminator
- 訓練の不安定性
- StyleGAN, BigGAN
6. 拡散モデル
最先端の生成モデル。
- ノイズ除去スコアマッチング
- DDPM
- 条件付き生成
7. 自己教師あり学習
ラベルなしデータの活用。
- 対照学習(SimCLR, MoCo)
- マスク言語モデル
- 事前訓練と微調整
8. 統計的学習理論
汎化の理論。
- PAC 学習
- VC 次元
- Rademacher 複雑度
9. 深層学習の理論
なぜ深層学習は動くか。
- 過パラメータ化と暗黙の正則化
- Neural Tangent Kernel
- 損失面の景観
10. 強化学習の深層化
DQN から AlphaGo へ。
- Deep Q-Network
- Policy Gradient
- Actor-Critic
11. 最新トピック
研究の最前線。
- マルチモーダル学習
- プロンプト学習
- AI の安全性・整合性
12. 大規模言語モデル(LLM)
GPT から Claude へ。
- トークナイゼーション(BPE, SentencePiece)
- スケーリング則(Kaplan, Chinchilla)
- RLHF / DPO によるアラインメント
- 推論最適化(KV キャッシュ, 量子化)
14. RAG(検索拡張生成)
外部知識で LLM を強化。
- ベクトル検索と埋め込みモデル
- チャンク戦略(固定長/セマンティック/親子)
- リランキングとハイブリッド検索
- Self-RAG、GraphRAG
18. Stable Diffusion の数学的原理
SDE・スコア関数・潜在拡散。
- スコア関数とスコアマッチング
- 確率微分方程式(SDE/ODE)
- VAE 潜在空間と Latent Diffusion
- Classifier-Free Guidance の導出
主要な概念・手法
Self-Attention
Query $\boldsymbol{Q}$, Key $\boldsymbol{K}$, Value $\boldsymbol{V}$ から: $$\text{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) = \text{softmax}\left(\frac{\boldsymbol{Q}\boldsymbol{K}^\top}{\sqrt{d_k}}\right)\boldsymbol{V}$$ 系列内の任意の位置間の依存関係を直接モデル化。
VAE の目的関数(ELBO)
$$\mathcal{L} = \mathbb{E}_{q(\boldsymbol{z}|\boldsymbol{x})}[\log p(\boldsymbol{x}|\boldsymbol{z})] - D_{\text{KL}}(q(\boldsymbol{z}|\boldsymbol{x}) \| p(\boldsymbol{z}))$$ 再構成誤差と事前分布への正則化のトレードオフ。
GAN の目的関数
$$\min_G \max_D \mathbb{E}_{\boldsymbol{x} \sim p_{\text{data}}}[\log D(\boldsymbol{x})] + \mathbb{E}_{\boldsymbol{z} \sim p(\boldsymbol{z})}[\log(1 - D(G(\boldsymbol{z})))]$$ Generator と Discriminator のミニマックスゲーム。
拡散モデル
データに徐々にノイズを加える順方向過程と、ノイズを除去する逆過程を学習。逆過程は $p_\theta(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ をニューラルネットでパラメータ化。
PAC 学習
サンプル数 $n$ に対し、確率 $1-\delta$ 以上で汎化誤差が $\varepsilon$ 以下となるための十分条件を与える。$n = O\left(\frac{1}{\varepsilon}\left(d \log\frac{1}{\varepsilon} + \log\frac{1}{\delta}\right)\right)$($d$ は VC 次元)。
このレベルで理解できる応用
大規模言語モデル
GPT, Claude などの言語モデル。プロンプトエンジニアリング、fine-tuning、RLHF。
画像生成
Stable Diffusion, DALL-E。テキストから画像を生成。拡散モデルの実応用。
タンパク質構造予測
AlphaFold。Transformer と構造予測の融合。科学研究への深層学習応用。
ゲーム AI
AlphaGo, AlphaZero。深層強化学習によるゲームの制覇。
研究最前線との接続
上級の内容は、NeurIPS, ICML, ICLR などのトップ会議で発表される最新研究に直結する。論文を読み、再現実装し、新しいアイデアを検証する能力がこのレベルの目標である。
学習のポイント
- 論文を読む:arXiv の最新論文を追う習慣
- 再現実装:論文のモデルを自分で実装する
- 理論と実践:なぜ動くかを説明できる
- 批判的思考:手法の限界と仮定を理解する
参考文献
- Goodfellow, Bengio & Courville, Deep Learning
- Vaswani et al., "Attention Is All You Need" (2017)
- Kingma & Welling, "Auto-Encoding Variational Bayes" (2014)
- Ho et al., "Denoising Diffusion Probabilistic Models" (2020)
- Shalev-Shwartz & Ben-David, Understanding Machine Learning
関連シリーズ
- 生成モデル - VAE, GAN, 拡散モデルの詳細