機械学習 初級
Classical Machine Learning
初級(大学1-2年レベル)
この章について
初級では、古典的な機械学習アルゴリズムを学ぶ。線形回帰から始め、分類、決定木、アンサンブル学習へと進む。各手法の数学的基礎を理解し、適切な評価方法を身につけることが目標である。「なぜこの手法を選ぶのか」を説明できるようになる。
前提知識
- 入門レベルの内容(学習の種類、基本概念)
- 線形代数の基礎(行列、ベクトル)
- 微分の基礎(偏微分、勾配)
- 確率・統計の基礎(期待値、分散)
目次
副読本(読み物)
章で学んだ手法を、図解で幾何的・直感的に深掘りする読み物。
最小二乗法の幾何学
残差二乗和の最小化=列空間への直交射影。3D回帰平面で見る。
正規方程式 vs 勾配降下
厳密解 $O(d^3)$ と反復解の使い分け。特徴数による逆転。
L1・L2正則化の幾何学
制約領域の角でなぜLassoがスパースになるか。
バギングとブースティング
並列で分散を下げる vs 逐次でバイアスを下げる。
k-NNの決定境界とk
kが小さいと複雑・大きいと滑らか。
特徴量重要度
Permutation Importanceとその落とし穴。
カーネルトリックの幾何学
高次元への持ち上げで線形分離可能にする。
不均衡データへの対処
正解率の罠とリサンプリング・SMOTE。
学習曲線による診断
訓練/検証誤差のギャップでモデルを診断する。
確率の較正
信頼度図とPlatt/isotonic/温度スケーリング。
主要な概念・手法
線形回帰の目的関数
パラメータ $\boldsymbol{w}$ を次の二乗誤差を最小化するように求める: $$\min_{\boldsymbol{w}} \displaystyle\sum_{i=1}^{n} (y_i - \boldsymbol{w}^\top \boldsymbol{x}_i)^2$$
正則化
Ridge 回帰:$\min_{\boldsymbol{w}} \displaystyle\sum_i (y_i - \boldsymbol{w}^\top \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{w}\|_2^2$
Lasso 回帰:$\min_{\boldsymbol{w}} \displaystyle\sum_i (y_i - \boldsymbol{w}^\top \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{w}\|_1$
正則化により過学習を抑制し、汎化性能を向上。
ロジスティック回帰
確率 $P(y=1|\boldsymbol{x}) = \sigma(\boldsymbol{w}^\top \boldsymbol{x})$ をモデル化($\sigma$ はシグモイド関数)。交差エントロピー損失を最小化。
バイアス-バリアンス分解
期待二乗誤差 $= \text{Bias}^2 + \text{Variance} + \text{Noise}$。モデルの複雑さを上げるとバイアスが減りバリアンスが増える。
ランダムフォレスト
多数の決定木をバギングで学習し、予測を平均(回帰)または多数決(分類)。各木は特徴量のランダムサブセットを使用。
このレベルで理解できる応用
住宅価格予測
線形回帰・Ridge 回帰で住宅価格をモデル化。特徴量エンジニアリングの練習にも最適。
スパムフィルタ
ナイーブベイズやロジスティック回帰でメールを分類。テキスト特徴量の扱いを学ぶ。
クレジットカード不正検知
不均衡データにおける分類。適合率・再現率のトレードオフが重要。
顧客セグメンテーション
k-means クラスタリングで顧客を分類。教師なし学習の実践。
学習のポイント
- 数学を逃げない:損失関数と最適化を理解する
- 手法の選び方:データの性質に応じて手法を選ぶ
- 評価を正しく:テストデータの汚染を避ける
- ベースラインを作る:まず単純なモデルで基準を設定