教師あり学習とは何ですか？

入力 x と正解ラベル y のペアからなる訓練データを使い、新しい入力に対して y を予測する関数 f: x → y を学習する手法です。正解ラベルが「教師」の役割を果たし、モデル予測との誤差をフィードバックして関数を修正していきます。代表的な例として住宅価格予測（回帰）やスパム判定（分類）があります。

回帰問題と分類問題の違いは何ですか？

出力 y が連続値（実数）なら回帰問題、離散的なカテゴリなら分類問題です。回帰の例は価格予測や気温予測で評価指標は MSE や MAE、分類の例はスパム判定や画像認識で評価指標は正解率や F1 スコアです。問題の種類によって損失関数とアルゴリズムの選び方が変わります。

訓練データとテストデータをなぜ分割するのですか？

訓練データだけで性能を測ると、モデルが訓練データを丸暗記している（過学習している）場合に高い数値が出てしまい、本当の予測能力（汎化性能）を評価できません。手持ちデータを訓練データ 70-80%、テストデータ 20-30% に分け、テストデータを「未知のデータ」のシミュレーションとして使うことで、新しい入力に対する性能を客観的に評価できます。

テストデータを何度も使ってチューニングしてもいいですか？

いけません。テストデータは最終評価の 1 回だけ使うのが原則で、何度もテストデータで評価するとそれが事実上の訓練データとなり、汎化性能の評価が不正確になります。ハイパーパラメータ調整など複数回評価したい場合は「検証データ（Validation Data）」を訓練データから別途切り出して使い、テストデータは最後まで触らずに残しておきます。

第3章: 教師あり学習

Supervised Learning

教師あり学習とは

教師あり学習

入力 $\mathbf{x}$ と正解（ラベル）$y$ のペアが与えられ、新しい入力に対する出力を予測する関数 $f$ を学習する。

$$\{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \ldots, (\mathbf{x}_n, y_n)\} \rightarrow f: \mathbf{x} \mapsto y$$

図 1: 教師あり学習の仕組み — 訓練データから学習アルゴリズムでモデル f を獲得

「教師」とは？

正解ラベル $y$ が「教師」の役割を果たす。モデルの予測が間違っていれば、正解との差（誤差）をフィードバックして修正する。

回帰問題

回帰（Regression）

出力 $y$ が連続値の場合。数値を予測する問題。

図 2: 回帰 — 連続値（住宅価格など）を直線で予測

回帰問題の例

住宅価格予測：面積、築年数、立地 → 価格（万円）
売上予測：広告費、季節、曜日 → 売上（円）
気温予測：過去の気象データ → 明日の最高気温（℃）
株価予測：過去の値動き → 翌日の終値（円）

分類問題

分類（Classification）

出力 $y$ が離散的なカテゴリの場合。クラスを予測する問題。

図 3: 分類 — 2 つのクラスを決定境界で分離

分類問題の例

スパム判定：メールの内容 → スパム/非スパム（2値分類）
画像認識：画像 → 猫/犬/鳥/...（多クラス分類）
病気診断：検査結果 → 陽性/陰性
感情分析：テキスト → ポジティブ/ネガティブ/中立

回帰 vs 分類

観点	回帰	分類
出力	連続値（実数）	離散値（カテゴリ）
例	価格、気温	クラスラベル
評価指標	MSE, MAE	正解率, F1スコア

訓練データとテストデータ

データの分割

手持ちのデータを訓練データとテストデータに分割する。

訓練データ：モデルの学習に使用
テストデータ：汎化性能の評価に使用（学習には使わない）

図 4: データ分割 — 訓練 70〜80%、テスト 20〜30%

なぜ分割が必要か？

訓練データでの性能が良くても、未知のデータで性能が悪ければ意味がない。

テストデータは「未知のデータ」のシミュレーションとして使い、汎化性能を評価する。

過学習（Overfitting）とは

モデルが訓練データに特化しすぎて、未知のデータでの性能が低下する現象。訓練データでは高得点でもテストデータでスコアが落ちれば過学習の兆候。訓練/テスト分割は、過学習を検出する最も基本的な手法である。

重要な原則

テストデータは一度も学習に使ってはいけない
テストデータで評価するのは最終評価の1回だけ
何度も評価したい場合は「検証データ（Validation Data）」を別途用意
分割割合は目安。データ数が少なければ訓練 90%・テスト 10% に振るか、交差検証（Cross-Validation）で複数の分割を組み合わせて評価する

まとめ

教師あり学習：入力と正解のペアから学習
回帰：連続値を予測（価格、気温など）
分類：カテゴリを予測（スパム判定、画像認識など）
データ分割：訓練用とテスト用に分け、汎化性能を評価

教師あり学習とは

教師あり学習

「教師」とは？

回帰問題

回帰（Regression）

回帰問題の例

分類問題

分類（Classification）

分類問題の例

回帰 vs 分類

訓練データとテストデータ

データの分割

なぜ分割が必要か？

過学習（Overfitting）とは

重要な原則

まとめ

参考資料