因子分析で行列微分が必要になるのはなぜですか？

因子分析では共分散構造 Σ = ΛΦΛ⊤ + Ψ のパラメータ Λ（因子負荷量）、Φ（因子相関）、Ψ（独自分散）を最尤推定します。ML 目的関数 F_ML が Σ を通してこれらのパラメータに依存するため、連鎖律と trace/行列式の微分公式が不可欠です。詳細は本ページの公式 19.1-19.4 で解説しています。

SEM の一般勾配公式とは何ですか？

∂F_ML/∂θ_i = tr[(Σ⁻¹ − Σ⁻¹SΣ⁻¹) ∂Σ/∂θ_i] です。この 1 本の式で任意のパラメータ θ_i（構造係数 B、因子負荷 Λ、共分散 Φ・Ψ など）について勾配が求められます。各パラメータ固有の計算は ∂Σ/∂θ_i の部分に閉じ込められます。

2PL と 3PL の IRT モデルの違いは？

2PL は識別力 a_j と困難度 b_j の 2 パラメータで P = σ(a(θ−b))。3PL はこれに当て推量パラメータ c_j を加え P = c + (1−c)σ(a(θ−b)) とします。3PL は低能力域での推測正答を表現でき、多肢選択式テストで現実的なモデルとなります。

RAM と LISREL の違いは？

どちらも SEM の記法です。LISREL は η（潜在）と y（観測）を別行列で扱い、RAM（Reticular Action Model）は全変数 v を 1 本にまとめ、フィルタ行列 F で観測変数を選びます。RAM は形式が簡潔で、OpenMx などのソフトウェアで採用されています。

潜在変数モデル

Q: RAM と LISREL の違いは？

どちらも SEM の記法です。LISREL は η（潜在） と y（観測）を別行列で扱い、RAM（Reticular Action Model）は全変数 v を 1 本にまとめ、フィルタ行列 F で観測変数を選びます。RAM は形式が簡潔で、OpenMx などのソフトウェアで採用されています。

Latent Variable Models

表記規約
本ページの公式は分母レイアウト（denominator layout）に基づく。詳細はレイアウト規約を参照。

概要

観測できない潜在構造（因子・構造方程式・能力値）を推定する手法群。共通して「観測分布 = 潜在分布と観測分布の積を周辺化」という構造を持ち、尤度が複雑になるため行列微分が本質的な道具となる。

本ページでは、因子分析（ML 目的関数と 3 種のパラメータ勾配）、 構造方程式モデリング (SEM)（LISREL/RAM の共分散構造と一般勾配公式）、 項目反応理論 (IRT)（2PL/3PL モデルの識別力・困難度・能力・当て推量の勾配、情報関数）を扱う。

主要公式 highlight：

因子分析 ML 目的関数 $F_{\text{ML}} = \log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) - \log|\boldsymbol{S}| - p$
SEM 一般勾配 $\partial F/\partial \theta = \text{tr}[(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\partial \boldsymbol{\Sigma}/\partial \theta]$
IRT 2PL/3PL の尤度勾配と Fisher 情報関数

因子分析

19.1 因子分析の ML 目的関数

公式：$F_{\text{ML}} = \log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) - \log|\boldsymbol{S}| - p$

条件：$\boldsymbol{S}$: 標本共分散行列、$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$

証明

因子分析では、観測共分散 $\boldsymbol{S}$ がモデル共分散 $\boldsymbol{\Sigma}(\boldsymbol{\theta}) = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ で説明できるかを評価する。多変量正規分布の対数尤度は、定数項を除けば

$$\ell = -\dfrac{n}{2}\!\left(\log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\right)$$

$\ell$ を最大化する代わりに、$-2\ell/n$ を最小化する形に変えると $\log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1})$ となる。

この量は $\boldsymbol{\Sigma} = \boldsymbol{S}$ のときに最小値 $\log|\boldsymbol{S}| + p$ を取る (情報量の Kullback-Leibler 性質より)。最小値を 0 に揃えるためにこれを引き算してまとめると、目的の適合度関数

$$F_{\text{ML}} = \log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) - \log|\boldsymbol{S}| - p \geq 0$$

が得られる。$F_{\text{ML}} = 0$ は完全適合 ($\boldsymbol{\Sigma} = \boldsymbol{S}$) を意味し、この量は $\chi^2$ 検定で利用される (大標本では $n F_{\text{ML}}$ が自由度の $\chi^2$ に従う)。

19.2 因子負荷量の勾配

公式：$\displaystyle\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Lambda}} = 2(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda}\boldsymbol{\Phi}$

条件：$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$

証明

勾配を 2 段階で計算する。まず $F_{\text{ML}}$ の $\boldsymbol{\Sigma}$ に関する勾配は、$\log$ 行列式の微分が $\boldsymbol{\Sigma}^{-1}$、トレース $\text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1})$ の微分が $-\boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$ なので

$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Sigma}} = \boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$$

これを $\boldsymbol{G}$ と置くと、$\boldsymbol{S} = \boldsymbol{\Sigma}$ のときに $\boldsymbol{G} = \boldsymbol{0}$ (すなわちモデル適合) という意味の「残差行列」として解釈できる。

次に連鎖律で $\boldsymbol{\Lambda}$ への勾配につなぐ。微分形式 $dF = \text{tr}(\boldsymbol{G}\,d\boldsymbol{\Sigma})$ を使うと、$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ の全微分は、積の微分から

$$d\boldsymbol{\Sigma} = (d\boldsymbol{\Lambda})\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Lambda}\boldsymbol{\Phi}(d\boldsymbol{\Lambda})^\top$$

これをトレースに代入し、巡回性 $\text{tr}(\boldsymbol{A}\boldsymbol{B}) = \text{tr}(\boldsymbol{B}\boldsymbol{A})$ で $d\boldsymbol{\Lambda}$ を末尾にまとめる。$\boldsymbol{G}$ は対称 ($\boldsymbol{G}^\top = \boldsymbol{G}$) なので 2 項は等しく、

$$dF = \text{tr}(\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi}\,d\boldsymbol{\Lambda}^\top) + \text{tr}(\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi}\,d\boldsymbol{\Lambda}^\top) = 2\,\text{tr}(\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi}\,d\boldsymbol{\Lambda}^\top)$$

$dF = \text{tr}((\partial F/\partial \boldsymbol{\Lambda})^\top d\boldsymbol{\Lambda})$ と比較して

$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Lambda}} = 2\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi} = 2(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda}\boldsymbol{\Phi} \quad \square$$

19.3 独自分散の勾配

公式：$\displaystyle\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Psi}} = \text{diag}(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})$

条件：$\boldsymbol{\Psi}$ は対角行列

証明

独自分散 $\boldsymbol{\Psi}$ は対角成分のみが自由パラメータ。$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ の中で $\boldsymbol{\Psi}$ に依存するのは加算項のみで、$\boldsymbol{\Psi}$ の対角成分 $\Psi_{ii}$ で偏微分すると $(i,i)$ 位置にだけ 1 が立つ行列が現れる。

$$\dfrac{\partial \Sigma_{kl}}{\partial \Psi_{ii}} = \delta_{ki}\delta_{li}, \quad \text{つまり}\ \dfrac{\partial \boldsymbol{\Sigma}}{\partial \Psi_{ii}} = \boldsymbol{e}_i\boldsymbol{e}_i^\top$$

連鎖律 $\partial F/\partial \Psi_{ii} = \text{tr}(\boldsymbol{G}\,\partial \boldsymbol{\Sigma}/\partial \Psi_{ii})$ に代入すると、$\boldsymbol{e}_i^\top \boldsymbol{G}\,\boldsymbol{e}_i = G_{ii}$ となる。

$$\dfrac{\partial F_{\text{ML}}}{\partial \Psi_{ii}} = G_{ii}$$

つまり、$\boldsymbol{\Psi}$ の各対角成分に関する勾配は、残差行列 $\boldsymbol{G}$ の対応する対角成分そのもの。これを行列表現にまとめれば

$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Psi}} = \text{diag}(\boldsymbol{G}) = \text{diag}(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) \quad \square$$

19.4 因子間相関の勾配

公式：$\displaystyle\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Phi}} = \boldsymbol{\Lambda}^\top(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda}$

条件：$\boldsymbol{\Phi}$ は対称行列（因子間相関行列）

証明

因子間相関 $\boldsymbol{\Phi}$ への勾配も、$\boldsymbol{\Sigma}$ への勾配 $\boldsymbol{G} = \boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$ から連鎖律で導く。$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ の中で $\boldsymbol{\Phi}$ に依存するのは中央のサンドイッチ項だけなので、全微分は

$$d\boldsymbol{\Sigma} = \boldsymbol{\Lambda}(d\boldsymbol{\Phi})\boldsymbol{\Lambda}^\top$$

これを $dF = \text{tr}(\boldsymbol{G}\,d\boldsymbol{\Sigma})$ に代入し、トレースの巡回性で $d\boldsymbol{\Phi}$ を末尾に持ってくる。

$$dF = \text{tr}\!\left(\boldsymbol{G}\boldsymbol{\Lambda}(d\boldsymbol{\Phi})\boldsymbol{\Lambda}^\top\right) = \text{tr}\!\left(\boldsymbol{\Lambda}^\top\boldsymbol{G}\boldsymbol{\Lambda}\,d\boldsymbol{\Phi}\right)$$

これを $dF = \text{tr}((\partial F/\partial \boldsymbol{\Phi})^\top d\boldsymbol{\Phi})$ と見比べて勾配が読み取れる。$\boldsymbol{\Lambda}^\top \boldsymbol{G}\boldsymbol{\Lambda}$ は対称なので転置を取っても変わらず

$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Phi}} = \boldsymbol{\Lambda}^\top\boldsymbol{G}\boldsymbol{\Lambda} = \boldsymbol{\Lambda}^\top(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda} \quad \square$$

解釈としては、$\boldsymbol{\Lambda}^\top \boldsymbol{G}\boldsymbol{\Lambda}$ は「因子空間で評価された残差」を表しており、因子間相関の調整方向を示す。

構造方程式モデリング（SEM）

19.5 SEM の暗示された共分散

公式：$\boldsymbol{\Sigma}(\boldsymbol{\theta}) = \boldsymbol{\Lambda}(\boldsymbol{I} - \boldsymbol{B})^{-1}(\boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi})(\boldsymbol{I} - \boldsymbol{B})^{-\top}\boldsymbol{\Lambda}^\top + \boldsymbol{\Theta}$

条件：LISREL 表記、$\boldsymbol{\eta} = \boldsymbol{B}\boldsymbol{\eta} + \boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta}$

証明

SEM の標準的な LISREL 表記では、構造モデル (内生潜在変数 $\boldsymbol{\eta}$ の連立方程式) と測定モデル (観測変数 $\boldsymbol{y}$ への射影) の 2 段階で観測共分散を組み立てる。

構造モデル $\boldsymbol{\eta} = \boldsymbol{B}\boldsymbol{\eta} + \boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta}$ を $\boldsymbol{\eta}$ について解くと、$(\boldsymbol{I} - \boldsymbol{B})\boldsymbol{\eta} = \boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta}$ より

$$\boldsymbol{\eta} = (\boldsymbol{I} - \boldsymbol{B})^{-1}(\boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta})$$

外生潜在変数の共分散 $\text{Cov}(\boldsymbol{\xi}) = \boldsymbol{\Phi}$、構造誤差の共分散 $\text{Cov}(\boldsymbol{\zeta}) = \boldsymbol{\Psi}$、$\boldsymbol{\xi}$ と $\boldsymbol{\zeta}$ は無相関と仮定すると、$\boldsymbol{\eta}$ の共分散は

$$\boldsymbol{\Sigma}_\eta = (\boldsymbol{I} - \boldsymbol{B})^{-1}(\boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi})(\boldsymbol{I} - \boldsymbol{B})^{-\top}$$

測定モデル $\boldsymbol{y} = \boldsymbol{\Lambda}\boldsymbol{\eta} + \boldsymbol{\epsilon}$、$\text{Cov}(\boldsymbol{\epsilon}) = \boldsymbol{\Theta}$ から、観測共分散は

$$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Sigma}_\eta\boldsymbol{\Lambda}^\top + \boldsymbol{\Theta}$$

これに $\boldsymbol{\Sigma}_\eta$ の表式を代入すれば、目的の暗示共分散が得られる。$\boldsymbol{\theta} = (\boldsymbol{B}, \boldsymbol{\Gamma}, \boldsymbol{\Phi}, \boldsymbol{\Psi}, \boldsymbol{\Lambda}, \boldsymbol{\Theta})$ がモデルパラメータ。

19.6 SEM の一般勾配公式

公式：$\displaystyle\dfrac{\partial F_{\text{ML}}}{\partial \theta_i} = \text{tr}\left[(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\displaystyle\dfrac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}\right]$

条件：$\theta_i$ は任意のパラメータ

証明

この公式は SEM の最大の道具で、「どのパラメータに対しても同じ形で勾配が書ける」点が画期的。鍵は、$F_{\text{ML}}$ がパラメータ $\theta_i$ に依存するのは $\boldsymbol{\Sigma}(\boldsymbol{\theta})$ を介してのみ、という観察。

連鎖律 (行列バージョン) を使うと、スカラー $F$ の $\theta_i$ への偏微分は

$$\dfrac{\partial F}{\partial \theta_i} = \text{tr}\!\left(\dfrac{\partial F}{\partial \boldsymbol{\Sigma}} \cdot \dfrac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}\right)$$

と書ける。ここで右辺の $\partial F/\partial \boldsymbol{\Sigma}$ は $F_{\text{ML}}$ の定義から (19.1 と同じ計算)

$$\dfrac{\partial F}{\partial \boldsymbol{\Sigma}} = \boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$$

これを連鎖律に代入すれば、目的の一般勾配公式

$$\dfrac{\partial F_{\text{ML}}}{\partial \theta_i} = \text{tr}\!\left[(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\dfrac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}\right] \quad \square$$

が得られる。残るは $\partial \boldsymbol{\Sigma}/\partial \theta_i$ をパラメータ別に計算するだけで、SEM のすべての勾配計算が同じ枠組みで処理できる。

補足：$\displaystyle\dfrac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}$ は各パラメータ（$\boldsymbol{\Lambda}$, $\boldsymbol{B}$, $\boldsymbol{\Gamma}$ など）について個別に計算する。

19.7 SEM の構造係数の勾配

公式：$\displaystyle\dfrac{\partial \boldsymbol{\Sigma}}{\partial B_{ij}} = \boldsymbol{\Lambda}\boldsymbol{A}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{\Sigma}_\eta\boldsymbol{\Lambda}^\top + \boldsymbol{\Lambda}\boldsymbol{\Sigma}_\eta\boldsymbol{e}_j\boldsymbol{e}_i^\top\boldsymbol{A}^{-\top}\boldsymbol{\Lambda}^\top$

条件：$\boldsymbol{A} = \boldsymbol{I} - \boldsymbol{B}$、$\boldsymbol{\Sigma}_\eta = \boldsymbol{A}^{-1}(\boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi})\boldsymbol{A}^{-\top}$

証明

$\boldsymbol{B}$ は構造方程式の係数行列で、$\boldsymbol{\Sigma}$ への影響は $\boldsymbol{A} := \boldsymbol{I} - \boldsymbol{B}$ の逆行列を介する。$\boldsymbol{A}$ の単一要素 $B_{ij}$ への微分は単純に $\partial \boldsymbol{A}/\partial B_{ij} = -\boldsymbol{e}_i\boldsymbol{e}_j^\top$ (1 つの要素だけ −1 が立つ)。

逆行列の微分公式 $\partial \boldsymbol{A}^{-1}/\partial B_{ij} = -\boldsymbol{A}^{-1}(\partial \boldsymbol{A}/\partial B_{ij})\boldsymbol{A}^{-1}$ を適用すると、負号が打ち消し合って

$$\dfrac{\partial \boldsymbol{A}^{-1}}{\partial B_{ij}} = \boldsymbol{A}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{A}^{-1}$$

$\boldsymbol{M} := \boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi}$ と置けば $\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}^{-\top}\boldsymbol{\Lambda}^\top + \boldsymbol{\Theta}$ と書ける。$\boldsymbol{B}$ への偏微分では、$\boldsymbol{A}^{-1}$ と $\boldsymbol{A}^{-\top}$ の両方が変動するので、積の微分則で 2 項に分かれる。

$$\dfrac{\partial \boldsymbol{\Sigma}}{\partial B_{ij}} = \boldsymbol{\Lambda}\dfrac{\partial \boldsymbol{A}^{-1}}{\partial B_{ij}}\boldsymbol{M}\boldsymbol{A}^{-\top}\boldsymbol{\Lambda}^\top + \boldsymbol{\Lambda}\boldsymbol{A}^{-1}\boldsymbol{M}\dfrac{\partial \boldsymbol{A}^{-\top}}{\partial B_{ij}}\boldsymbol{\Lambda}^\top$$

これを $\partial/\partial \boldsymbol{B}$ 行列 (またはベクトル化形式) にまとめるには、$\boldsymbol{\Sigma}_\eta = \boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}^{-\top}$ を導入し、Kronecker 積を使った表現になる。これは SEM ソフトウェア (lavaan, OpenMx 等) の内部で実装されている。

19.8 RAM モデルの共分散構造

公式：$\boldsymbol{\Sigma} = \boldsymbol{F}(\boldsymbol{I} - \boldsymbol{A})^{-1}\boldsymbol{S}(\boldsymbol{I} - \boldsymbol{A})^{-\top}\boldsymbol{F}^\top$

条件：$\boldsymbol{v} = \boldsymbol{A}\boldsymbol{v} + \boldsymbol{u}$、$\text{Cov}(\boldsymbol{u}) = \boldsymbol{S}$、$\boldsymbol{F}$: フィルタ行列

証明

RAM (Reticular Action Model) は McArdle が提案した SEM の統一表記で、潜在・観測変数を区別せず、すべての変数を 1 本のベクトル $\boldsymbol{v}$ にまとめる。LISREL の 8 行列をたった 3 行列 ($\boldsymbol{A}, \boldsymbol{S}, \boldsymbol{F}$) に集約できる利点がある。

RAM の構造方程式 $\boldsymbol{v} = \boldsymbol{A}\boldsymbol{v} + \boldsymbol{u}$ では、$\boldsymbol{A}$ が変数間の有向係数、$\boldsymbol{u}$ が外生入力 (誤差含む)。これを $\boldsymbol{v}$ について解くと

$$(\boldsymbol{I} - \boldsymbol{A})\boldsymbol{v} = \boldsymbol{u} \quad\Longrightarrow\quad \boldsymbol{v} = (\boldsymbol{I} - \boldsymbol{A})^{-1}\boldsymbol{u}$$

$\boldsymbol{u}$ の共分散を $\boldsymbol{S}$ とおくと、全変数の共分散は

$$\text{Cov}(\boldsymbol{v}) = (\boldsymbol{I} - \boldsymbol{A})^{-1}\,\boldsymbol{S}\,(\boldsymbol{I} - \boldsymbol{A})^{-\top}$$

観測変数のみを取り出すために、観測変数行を選択する 0/1 フィルタ行列 $\boldsymbol{F}$ を用いて両側から挟む。

$$\boldsymbol{\Sigma} = \boldsymbol{F}\,\text{Cov}(\boldsymbol{v})\,\boldsymbol{F}^\top = \boldsymbol{F}(\boldsymbol{I} - \boldsymbol{A})^{-1}\boldsymbol{S}(\boldsymbol{I} - \boldsymbol{A})^{-\top}\boldsymbol{F}^\top$$

これが RAM の暗示共分散構造。LISREL より簡潔で OpenMx などのソフトウェアで採用されている。

補足：RAM は LISREL より簡潔で、OpenMx などのソフトウェアで使用される。$\boldsymbol{F}$ は観測変数の行を選択する 0-1 行列。

19.9 RAM 行列 A の勾配

公式：$\displaystyle\dfrac{\partial \boldsymbol{\Sigma}}{\partial A_{ij}} = \boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{E}^{-1}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top + \boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{e}_j\boldsymbol{e}_i^\top\boldsymbol{E}^{-\top}\boldsymbol{F}^\top$

条件：$\boldsymbol{E} = \boldsymbol{I} - \boldsymbol{A}$

証明

$\boldsymbol{E} := \boldsymbol{I} - \boldsymbol{A}$ と置けば $\boldsymbol{\Sigma} = \boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top$。$\boldsymbol{A}$ の単一要素 $A_{ij}$ への偏微分は、19.7 と同型の議論で $\partial \boldsymbol{E}/\partial A_{ij} = -\boldsymbol{e}_i\boldsymbol{e}_j^\top$ から、逆行列の微分公式により

$$\dfrac{\partial \boldsymbol{E}^{-1}}{\partial A_{ij}} = \boldsymbol{E}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{E}^{-1}$$

$\boldsymbol{\Sigma}$ の表式には $\boldsymbol{E}^{-1}$ が左、$\boldsymbol{E}^{-\top}$ が右に現れるので、積の微分則を適用すると 2 項が残る。

$$\dfrac{\partial \boldsymbol{\Sigma}}{\partial A_{ij}} = \boldsymbol{F}\dfrac{\partial \boldsymbol{E}^{-1}}{\partial A_{ij}}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top + \boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{S}\dfrac{\partial \boldsymbol{E}^{-\top}}{\partial A_{ij}}\boldsymbol{F}^\top$$

第 1 項を展開すると $\boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{E}^{-1}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top$、第 2 項はその転置の形になる。これを 19.6 の一般勾配公式に代入して $\partial F_{\text{ML}}/\partial A_{ij}$ を計算するのが標準的な実装ルート。

項目反応理論（IRT）

19.10 IRT の対数尤度

公式：$\ell = \displaystyle\sum_{i,j} [x_{ij}\log P_{ij} + (1-x_{ij})\log(1-P_{ij})]$

条件：$x_{ij} \in \{0, 1\}$、$P_{ij} = P(X_{ij}=1|\theta_i, a_j, b_j)$

証明

IRT モデルでは、被験者 $i$ が項目 $j$ に正答する確率 $P_{ij}$ は能力 $\theta_i$ と項目パラメータ ($a_j, b_j, c_j$) の関数として与えられる。各反応 $X_{ij}$ は二値 (正答=1, 誤答=0) なのでベルヌーイ分布に従う。

$$P(X_{ij} = x_{ij}) = P_{ij}^{x_{ij}}(1 - P_{ij})^{1 - x_{ij}}$$

(被験者が異なれば被験者間で独立、項目が異なれば項目間でも条件付き独立 — 局所独立性) を仮定すると、全データの尤度はすべての反応の積になる。

$$L = \prod_{i,j} P_{ij}^{x_{ij}}(1 - P_{ij})^{1 - x_{ij}}$$

対数を取れば、ベルヌーイの対数尤度の和になる。

$$\ell = \log L = \sum_{i,j}\!\left[x_{ij}\log P_{ij} + (1 - x_{ij})\log(1 - P_{ij})\right]$$

各項目モデル (1PL/2PL/3PL) の違いは $P_{ij}$ の関数形だけで、対数尤度の構造は変わらない。以下の各勾配公式は連鎖律でこの $\ell$ を $P_{ij}$ → 各パラメータ、と微分していくだけで導ける。

19.11 2PL 識別力の勾配

公式：$\displaystyle\dfrac{\partial \ell}{\partial a_j} = \displaystyle\sum_i (x_{ij} - P_{ij})(\theta_i - b_j)$

条件：$P_{ij} = \sigma(a_j(\theta_i - b_j))$、$\sigma$ はロジスティック関数

証明

2PL モデルでは $P_{ij} = \sigma(z_{ij})$、線形指標は $z_{ij} = a_j(\theta_i - b_j)$。$a_j$ への偏微分はまずロジスティック関数の標準公式 $\sigma'(z) = \sigma(z)(1 - \sigma(z))$ と $\partial z_{ij}/\partial a_j = \theta_i - b_j$ から

$$\dfrac{\partial P_{ij}}{\partial a_j} = P_{ij}(1 - P_{ij})(\theta_i - b_j)$$

次に対数尤度を $P_{ij}$ で微分し、連鎖律で $a_j$ に繋ぐ。ベルヌーイの対数尤度の $P_{ij}$ 微分は

$$\dfrac{\partial}{\partial P_{ij}}[x_{ij}\log P_{ij} + (1-x_{ij})\log(1-P_{ij})] = \dfrac{x_{ij}}{P_{ij}} - \dfrac{1 - x_{ij}}{1 - P_{ij}}$$

これらを掛け合わせ、被験者 $i$ について足すと、分子分母の $P_{ij}(1 - P_{ij})$ が見事に約分される。

$$\dfrac{\partial \ell}{\partial a_j} = \sum_i \dfrac{x_{ij}(1-P_{ij}) - (1-x_{ij})P_{ij}}{P_{ij}(1-P_{ij})} \cdot P_{ij}(1-P_{ij})(\theta_i - b_j)$$

分子も $x_{ij} - P_{ij}$ にまとまり、最終的に

$$\dfrac{\partial \ell}{\partial a_j} = \sum_i (x_{ij} - P_{ij})(\theta_i - b_j) \quad \square$$

「観測 $x_{ij}$ と予測 $P_{ij}$ の差を、被験者の能力ずれ $(\theta_i - b_j)$ で重み付けた和」という直感的に解釈しやすい形になる。

19.12 2PL 困難度の勾配

公式：$\displaystyle\dfrac{\partial \ell}{\partial b_j} = \displaystyle\sum_i (P_{ij} - x_{ij}) a_j$

条件：$P_{ij} = \sigma(a_j(\theta_i - b_j))$

証明

困難度パラメータ $b_j$ への偏微分は、19.11 とほぼ同じ計算。違いは $\partial z_{ij}/\partial b_j = -a_j$ (符号反転) だけ。ロジスティック関数の微分から

$$\dfrac{\partial P_{ij}}{\partial b_j} = -P_{ij}(1 - P_{ij}) a_j$$

この負号を 19.11 と同じ流れに乗せると、$P_{ij}(1 - P_{ij})$ が約分された後に符号が入れ替わる。

$$\dfrac{\partial \ell}{\partial b_j} = \sum_i (x_{ij} - P_{ij})(-a_j) = \sum_i (P_{ij} - x_{ij}) a_j \quad \square$$

$x_{ij} > P_{ij}$ (予測より正答が多い) なら $b_j$ を下げる方向、逆なら上げる方向に勾配が向くという妥当な振る舞いを示す。

19.13 能力パラメータの勾配

公式：$\displaystyle\dfrac{\partial \ell}{\partial \theta_i} = \displaystyle\sum_j (x_{ij} - P_{ij}) a_j$

条件：$P_{ij} = \sigma(a_j(\theta_i - b_j))$

証明

能力 $\theta_i$ は被験者 $i$ のパラメータなので、$\theta_i$ への偏微分では項目 $j$ について和を取る (項目を変数として扱う)。$\partial z_{ij}/\partial \theta_i = a_j$ から

$$\dfrac{\partial P_{ij}}{\partial \theta_i} = P_{ij}(1 - P_{ij}) a_j$$

19.11 と同じ流れ ($P_{ij}(1 - P_{ij})$ の約分) で計算すると

$$\dfrac{\partial \ell}{\partial \theta_i} = \sum_j (x_{ij} - P_{ij}) a_j \quad \square$$

「項目への正答誤差を、項目の識別力 $a_j$ で重み付けた和」という形。Newton-Raphson 法や Fisher スコアリング法で被験者の能力推定に使われる。識別力の高い項目ほど能力推定への寄与が大きい点も直感的。

補足：この勾配は Newton-Raphson 法や Fisher スコアリング法による能力推定に使用される。

19.14 3PL 識別力の勾配

公式：$\displaystyle\dfrac{\partial \ell}{\partial a_j} = \displaystyle\sum_i \displaystyle\dfrac{(x_{ij} - P_{ij})(1-c_j)P^*_{ij}(1-P^*_{ij})(\theta_i - b_j)}{P_{ij}(1-P_{ij})}$

条件：$P_{ij} = c_j + (1-c_j)P^*_{ij}$、$P^*_{ij} = \sigma(a_j(\theta_i - b_j))$

証明

3PL モデルでは、当て推量パラメータ $c_j \in (0, 1)$ が下限を規定し、$P^*_{ij} = \sigma(z_{ij})$ ($z_{ij} = a_j(\theta_i - b_j)$) を上に持ち上げる形になる。

$$P_{ij} = c_j + (1 - c_j)\,P^*_{ij}$$

$a_j$ への偏微分では、$c_j$ は $a_j$ に依存しないので $(1 - c_j)$ が前因子として残り、内側の $P^*_{ij}$ が 19.11 と同じ形で微分される。

$$\dfrac{\partial P_{ij}}{\partial a_j} = (1 - c_j)\,P^*_{ij}(1 - P^*_{ij})(\theta_i - b_j)$$

対数尤度の勾配は連鎖律から

$$\dfrac{\partial \ell}{\partial a_j} = \sum_i \dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - P_{ij})}\dfrac{\partial P_{ij}}{\partial a_j}$$

2PL のときと違い、ここでは「$P_{ij}$」と「$P^*_{ij}$」が異なる ($P_{ij} = c_j + (1-c_j)P^*_{ij}$) ので $P_{ij}(1 - P_{ij})$ の約分が完全には起きず、$P^*_{ij}(1 - P^*_{ij})$ と $P_{ij}(1 - P_{ij})$ の比が残る。

$$\dfrac{\partial \ell}{\partial a_j} = \sum_i \dfrac{(x_{ij} - P_{ij})(1 - c_j)P^*_{ij}(1 - P^*_{ij})(\theta_i - b_j)}{P_{ij}(1 - P_{ij})} \quad \square$$

$c_j \to 0$ では 2PL に帰着する。

19.15 当て推量パラメータの勾配

公式：$\displaystyle\dfrac{\partial \ell}{\partial c_j} = \displaystyle\sum_i \displaystyle\dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - c_j)}$

条件：$P_{ij} = c_j + (1-c_j)P^*_{ij}$

証明

当て推量パラメータ $c_j$ への偏微分から始める。$P_{ij} = c_j + (1 - c_j)P^*_{ij}$ を $c_j$ で微分するとき、$P^*_{ij}$ は $c_j$ に依存しない (内部の $z_{ij}$ にしか依存) ので

$$\dfrac{\partial P_{ij}}{\partial c_j} = 1 - P^*_{ij}$$

連鎖律でベルヌーイ対数尤度の勾配 (19.11 で使った $\partial \ell/\partial P_{ij}$ の表式) と組み合わせる。

$$\dfrac{\partial \ell}{\partial c_j} = \sum_i\!\left[\dfrac{x_{ij}}{P_{ij}} - \dfrac{1 - x_{ij}}{1 - P_{ij}}\right](1 - P^*_{ij})$$

分子を共通分母で揃えると $x_{ij}(1 - P_{ij}) - (1 - x_{ij})P_{ij} = x_{ij} - P_{ij}$ にまとまる。

$$= \sum_i \dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - P_{ij})}(1 - P^*_{ij})$$

さらに重要な恒等式 $1 - P_{ij} = 1 - c_j - (1 - c_j)P^*_{ij} = (1 - c_j)(1 - P^*_{ij})$ を使うと、$(1 - P^*_{ij})$ と $(1 - P_{ij})$ の間に簡単な関係があり、表式を簡潔にできる。

$$\dfrac{\partial \ell}{\partial c_j} = \sum_i \dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - c_j)} \quad \square$$

($1 - c_j$ で割っているので、$c_j$ が 1 に近いと推定が不安定になる — これは IRT の実装上の課題。)

19.16 2PL 項目情報関数

公式：$I_j(\theta) = a_j^2 P_j(\theta)(1 - P_j(\theta))$

条件：$P_j(\theta) = \sigma(a_j(\theta - b_j))$

証明

Fisher 情報量の定義から始める。

$$I_j(\theta) = \mathbb{E}\!\left[\left(\dfrac{\partial \log P(X_j|\theta)}{\partial \theta}\right)^2\right]$$

ベルヌーイ分布 (項目 $j$ への反応 $X_j$ の分布) では、対数尤度の $\theta$ 微分が $\displaystyle\dfrac{X_j - P_j}{P_j(1 - P_j)}P'_j$ の形になる。$\mathbb{E}[X_j] = P_j$、$\text{Var}(X_j) = P_j(1 - P_j)$ を使って二乗の期待値を計算すると、ベルヌーイ Fisher 情報量の標準公式

$$I_j(\theta) = \dfrac{(P'_j)^2}{P_j(1 - P_j)}$$

が得られる ($P'_j = \partial P_j/\partial \theta$)。2PL では 19.13 と同じ計算で $P'_j = a_j P_j(1 - P_j)$ なので、これを代入して

$$I_j(\theta) = \dfrac{[a_j P_j(1 - P_j)]^2}{P_j(1 - P_j)} = a_j^2 P_j(1 - P_j) \quad \square$$

$P_j(1 - P_j)$ の二乗のうち 1 つが約分されて消える。$P_j = 0.5$ ($\theta = b_j$) で最大値 $a_j^2/4$ を取り、これは「困難度に等しい能力の被験者を最も精度良く測定できる」という IRT の中核的な洞察。

補足：情報関数は $\theta = b_j$（困難度）で最大値 $a_j^2/4$ を取る。識別力が高いほど情報量が大きい。

19.17 3PL 項目情報関数

公式：$I_j(\theta) = a_j^2 \displaystyle\dfrac{(1-c_j)^2 P^{*2}_j (1-P^*_j)^2}{P_j(1-P_j)}$

条件：$P_j = c_j + (1-c_j)P^*_j$、$P^*_j = \sigma(a_j(\theta - b_j))$

証明

3PL でも Fisher 情報量の標準公式 $I_j(\theta) = (P'_j)^2 / [P_j(1 - P_j)]$ は変わらない。違いは $P_j$ の関数形と、その微分。

$P_j = c_j + (1 - c_j)P^*_j$ から $\theta$ 微分は $c_j$ が定数なので消えて

$$P'_j = \dfrac{\partial P_j}{\partial \theta} = (1 - c_j)\dfrac{\partial P^*_j}{\partial \theta} = (1 - c_j)\,a_j\,P^*_j(1 - P^*_j)$$

これを Fisher 情報の公式に代入する。

$$I_j(\theta) = \dfrac{(P'_j)^2}{P_j(1 - P_j)} = \dfrac{(1 - c_j)^2\,a_j^2\,P^{*2}_j(1 - P^*_j)^2}{P_j(1 - P_j)} \quad \square$$

2PL と異なり分子と分母の $P^*_j(1 - P^*_j)$ は $P_j(1 - P_j)$ と一致しないので、約分されない (2PL では $P_j = P^*_j$ で完全に約分される)。当て推量がある場合、低能力域で「下から $c_j$ までは推量で正答できる」ぶん識別力が低下し、Fisher 情報量も低下する。

補足：当て推量 $c_j > 0$ があると、低能力域での情報量が減少する。

19.18 情報関数の識別力に関する勾配

公式：$\displaystyle\dfrac{\partial I_j}{\partial a_j} = 2a_j P_j(1-P_j) + a_j^2(1-2P_j)P_j(1-P_j)(\theta - b_j)$（2PL）

条件：$I_j = a_j^2 P_j(1-P_j)$

証明

テスト設計では「項目 $j$ の識別力 $a_j$ を変えると、ある能力 $\theta$ での測定精度がどう変わるか」を知りたい。これは $\partial I_j/\partial a_j$ で評価できる。

2PL の Fisher 情報量 $I_j = a_j^2 P_j(1 - P_j)$ を $a_j$ で微分する。$a_j$ は前因子 $a_j^2$ にも、$P_j = \sigma(a_j(\theta - b_j))$ の中にも入っているので、積の微分則を使う必要がある。

$P_j$ への影響として $\partial P_j/\partial a_j = P_j(1 - P_j)(\theta - b_j)$ (19.11 と同じ計算)。これを使って $P_j(1 - P_j)$ の微分は

$$\dfrac{\partial}{\partial a_j}[P_j(1 - P_j)] = (1 - 2P_j)\,P_j(1 - P_j)(\theta - b_j)$$

($P_j(1-P_j)$ の微分はロジスティックの 2 階微分の典型形。) 積の微分則で 2 項に分けて

$$\dfrac{\partial I_j}{\partial a_j} = 2a_j\,P_j(1 - P_j) + a_j^2(1 - 2P_j)\,P_j(1 - P_j)(\theta - b_j)$$

共通因子 $2a_j P_j(1 - P_j)$ を括り出して整理する。

$$\dfrac{\partial I_j}{\partial a_j} = 2a_j P_j(1 - P_j)\bigl[1 - \tfrac{1}{2}a_j(\theta - b_j)(2P_j - 1)\bigr] \quad \square$$

等価な因子化形 $2a_j P_j(1-P_j)\bigl[1 + \tfrac{1}{2}a_j(\theta-b_j)(1-2P_j)\bigr]$ も同じ式で、$\theta = b_j$ ($P_j = 1/2$) で第 2 項が消えて純粋に $2a_j P_j(1-P_j)$ となる構造が読み取りやすい。識別力を上げると Fisher 情報量がどの能力域で増減するかを定量化でき、テスト設計や項目選択 (CAT) に使われる。