潜在変数モデル
Latent Variable Models
本ページの公式は分母レイアウト(denominator layout)に基づく。詳細はレイアウト規約を参照。
概要
観測できない潜在構造(因子・構造方程式・能力値)を推定する手法群。 共通して「観測分布 = 潜在分布と観測分布の積を周辺化」という構造を持ち、尤度が複雑になるため行列微分が本質的な道具となる。
本ページでは、因子分析(ML 目的関数と 3 種のパラメータ勾配)、 構造方程式モデリング (SEM)(LISREL/RAM の共分散構造と一般勾配公式)、 項目反応理論 (IRT)(2PL/3PL モデルの識別力・困難度・能力・当て推量の勾配、情報関数)を扱う。
主要公式 highlight:
- 因子分析 ML 目的関数 $F_{\text{ML}} = \log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) - \log|\boldsymbol{S}| - p$
- SEM 一般勾配 $\partial F/\partial \theta = \text{tr}[(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\partial \boldsymbol{\Sigma}/\partial \theta]$
- IRT 2PL/3PL の尤度勾配と Fisher 情報関数
因子分析
19.1 因子分析の ML 目的関数
証明
因子分析では、観測共分散 $\boldsymbol{S}$ がモデル共分散 $\boldsymbol{\Sigma}(\boldsymbol{\theta}) = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ で説明できるかを評価する。多変量正規分布の対数尤度は、定数項を除けば
$$\ell = -\dfrac{n}{2}\!\left(\log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\right)$$
$\ell$ を最大化する代わりに、$-2\ell/n$ を最小化する形に変えると $\log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1})$ となる。
この量は $\boldsymbol{\Sigma} = \boldsymbol{S}$ のときに最小値 $\log|\boldsymbol{S}| + p$ を取る (情報量の Kullback-Leibler 性質より)。最小値を 0 に揃えるためにこれを引き算してまとめると、目的の適合度関数
$$F_{\text{ML}} = \log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) - \log|\boldsymbol{S}| - p \geq 0$$
が得られる。$F_{\text{ML}} = 0$ は完全適合 ($\boldsymbol{\Sigma} = \boldsymbol{S}$) を意味し、この量は $\chi^2$ 検定で利用される (大標本では $n F_{\text{ML}}$ が自由度の $\chi^2$ に従う)。
19.2 因子負荷量の勾配
証明
勾配を 2 段階で計算する。まず $F_{\text{ML}}$ の $\boldsymbol{\Sigma}$ に関する勾配は、$\log$ 行列式の微分が $\boldsymbol{\Sigma}^{-1}$、トレース $\text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1})$ の微分が $-\boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$ なので
$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Sigma}} = \boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$$
これを $\boldsymbol{G}$ と置くと、$\boldsymbol{S} = \boldsymbol{\Sigma}$ のときに $\boldsymbol{G} = \boldsymbol{0}$ (すなわちモデル適合) という意味の「残差行列」として解釈できる。
次に連鎖律で $\boldsymbol{\Lambda}$ への勾配につなぐ。微分形式 $dF = \text{tr}(\boldsymbol{G}\,d\boldsymbol{\Sigma})$ を使うと、$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ の全微分は、積の微分から
$$d\boldsymbol{\Sigma} = (d\boldsymbol{\Lambda})\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Lambda}\boldsymbol{\Phi}(d\boldsymbol{\Lambda})^\top$$
これをトレースに代入し、巡回性 $\text{tr}(\boldsymbol{A}\boldsymbol{B}) = \text{tr}(\boldsymbol{B}\boldsymbol{A})$ で $d\boldsymbol{\Lambda}$ を末尾にまとめる。$\boldsymbol{G}$ は対称 ($\boldsymbol{G}^\top = \boldsymbol{G}$) なので 2 項は等しく、
$$dF = \text{tr}(\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi}\,d\boldsymbol{\Lambda}^\top) + \text{tr}(\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi}\,d\boldsymbol{\Lambda}^\top) = 2\,\text{tr}(\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi}\,d\boldsymbol{\Lambda}^\top)$$
$dF = \text{tr}((\partial F/\partial \boldsymbol{\Lambda})^\top d\boldsymbol{\Lambda})$ と比較して
$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Lambda}} = 2\boldsymbol{G}\boldsymbol{\Lambda}\boldsymbol{\Phi} = 2(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda}\boldsymbol{\Phi} \quad \square$$
19.3 独自分散の勾配
証明
独自分散 $\boldsymbol{\Psi}$ は対角成分のみが自由パラメータ。$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ の中で $\boldsymbol{\Psi}$ に依存するのは加算項のみで、$\boldsymbol{\Psi}$ の対角成分 $\Psi_{ii}$ で偏微分すると $(i,i)$ 位置にだけ 1 が立つ行列が現れる。
$$\dfrac{\partial \Sigma_{kl}}{\partial \Psi_{ii}} = \delta_{ki}\delta_{li}, \quad \text{つまり}\ \dfrac{\partial \boldsymbol{\Sigma}}{\partial \Psi_{ii}} = \boldsymbol{e}_i\boldsymbol{e}_i^\top$$
連鎖律 $\partial F/\partial \Psi_{ii} = \text{tr}(\boldsymbol{G}\,\partial \boldsymbol{\Sigma}/\partial \Psi_{ii})$ に代入すると、$\boldsymbol{e}_i^\top \boldsymbol{G}\,\boldsymbol{e}_i = G_{ii}$ となる。
$$\dfrac{\partial F_{\text{ML}}}{\partial \Psi_{ii}} = G_{ii}$$
つまり、$\boldsymbol{\Psi}$ の各対角成分に関する勾配は、残差行列 $\boldsymbol{G}$ の対応する対角成分そのもの。これを行列表現にまとめれば
$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Psi}} = \text{diag}(\boldsymbol{G}) = \text{diag}(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) \quad \square$$
19.4 因子間相関の勾配
証明
因子間相関 $\boldsymbol{\Phi}$ への勾配も、$\boldsymbol{\Sigma}$ への勾配 $\boldsymbol{G} = \boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$ から連鎖律で導く。$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$ の中で $\boldsymbol{\Phi}$ に依存するのは中央のサンドイッチ項だけなので、全微分は
$$d\boldsymbol{\Sigma} = \boldsymbol{\Lambda}(d\boldsymbol{\Phi})\boldsymbol{\Lambda}^\top$$
これを $dF = \text{tr}(\boldsymbol{G}\,d\boldsymbol{\Sigma})$ に代入し、トレースの巡回性で $d\boldsymbol{\Phi}$ を末尾に持ってくる。
$$dF = \text{tr}\!\left(\boldsymbol{G}\boldsymbol{\Lambda}(d\boldsymbol{\Phi})\boldsymbol{\Lambda}^\top\right) = \text{tr}\!\left(\boldsymbol{\Lambda}^\top\boldsymbol{G}\boldsymbol{\Lambda}\,d\boldsymbol{\Phi}\right)$$
これを $dF = \text{tr}((\partial F/\partial \boldsymbol{\Phi})^\top d\boldsymbol{\Phi})$ と見比べて勾配が読み取れる。$\boldsymbol{\Lambda}^\top \boldsymbol{G}\boldsymbol{\Lambda}$ は対称なので転置を取っても変わらず
$$\dfrac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Phi}} = \boldsymbol{\Lambda}^\top\boldsymbol{G}\boldsymbol{\Lambda} = \boldsymbol{\Lambda}^\top(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda} \quad \square$$
解釈としては、$\boldsymbol{\Lambda}^\top \boldsymbol{G}\boldsymbol{\Lambda}$ は「因子空間で評価された残差」を表しており、因子間相関の調整方向を示す。
構造方程式モデリング(SEM)
19.5 SEM の暗示された共分散
証明
SEM の標準的な LISREL 表記では、構造モデル (内生潜在変数 $\boldsymbol{\eta}$ の連立方程式) と測定モデル (観測変数 $\boldsymbol{y}$ への射影) の 2 段階で観測共分散を組み立てる。
構造モデル $\boldsymbol{\eta} = \boldsymbol{B}\boldsymbol{\eta} + \boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta}$ を $\boldsymbol{\eta}$ について解くと、$(\boldsymbol{I} - \boldsymbol{B})\boldsymbol{\eta} = \boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta}$ より
$$\boldsymbol{\eta} = (\boldsymbol{I} - \boldsymbol{B})^{-1}(\boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta})$$
外生潜在変数の共分散 $\text{Cov}(\boldsymbol{\xi}) = \boldsymbol{\Phi}$、構造誤差の共分散 $\text{Cov}(\boldsymbol{\zeta}) = \boldsymbol{\Psi}$、$\boldsymbol{\xi}$ と $\boldsymbol{\zeta}$ は無相関と仮定すると、$\boldsymbol{\eta}$ の共分散は
$$\boldsymbol{\Sigma}_\eta = (\boldsymbol{I} - \boldsymbol{B})^{-1}(\boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi})(\boldsymbol{I} - \boldsymbol{B})^{-\top}$$
測定モデル $\boldsymbol{y} = \boldsymbol{\Lambda}\boldsymbol{\eta} + \boldsymbol{\epsilon}$、$\text{Cov}(\boldsymbol{\epsilon}) = \boldsymbol{\Theta}$ から、観測共分散は
$$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Sigma}_\eta\boldsymbol{\Lambda}^\top + \boldsymbol{\Theta}$$
これに $\boldsymbol{\Sigma}_\eta$ の表式を代入すれば、目的の暗示共分散が得られる。$\boldsymbol{\theta} = (\boldsymbol{B}, \boldsymbol{\Gamma}, \boldsymbol{\Phi}, \boldsymbol{\Psi}, \boldsymbol{\Lambda}, \boldsymbol{\Theta})$ がモデルパラメータ。
19.6 SEM の一般勾配公式
証明
この公式は SEM の最大の道具で、「どのパラメータに対しても同じ形で勾配が書ける」点が画期的。鍵は、$F_{\text{ML}}$ がパラメータ $\theta_i$ に依存するのは $\boldsymbol{\Sigma}(\boldsymbol{\theta})$ を介してのみ、という観察。
連鎖律 (行列バージョン) を使うと、スカラー $F$ の $\theta_i$ への偏微分は
$$\dfrac{\partial F}{\partial \theta_i} = \text{tr}\!\left(\dfrac{\partial F}{\partial \boldsymbol{\Sigma}} \cdot \dfrac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}\right)$$
と書ける。ここで右辺の $\partial F/\partial \boldsymbol{\Sigma}$ は $F_{\text{ML}}$ の定義から (19.1 と同じ計算)
$$\dfrac{\partial F}{\partial \boldsymbol{\Sigma}} = \boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$$
これを連鎖律に代入すれば、目的の一般勾配公式
$$\dfrac{\partial F_{\text{ML}}}{\partial \theta_i} = \text{tr}\!\left[(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\dfrac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}\right] \quad \square$$
が得られる。残るは $\partial \boldsymbol{\Sigma}/\partial \theta_i$ をパラメータ別に計算するだけで、SEM のすべての勾配計算が同じ枠組みで処理できる。
19.7 SEM の構造係数の勾配
証明
$\boldsymbol{B}$ は構造方程式の係数行列で、$\boldsymbol{\Sigma}$ への影響は $\boldsymbol{A} := \boldsymbol{I} - \boldsymbol{B}$ の逆行列を介する。$\boldsymbol{A}$ の単一要素 $B_{ij}$ への微分は単純に $\partial \boldsymbol{A}/\partial B_{ij} = -\boldsymbol{e}_i\boldsymbol{e}_j^\top$ (1 つの要素だけ −1 が立つ)。
逆行列の微分公式 $\partial \boldsymbol{A}^{-1}/\partial B_{ij} = -\boldsymbol{A}^{-1}(\partial \boldsymbol{A}/\partial B_{ij})\boldsymbol{A}^{-1}$ を適用すると、負号が打ち消し合って
$$\dfrac{\partial \boldsymbol{A}^{-1}}{\partial B_{ij}} = \boldsymbol{A}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{A}^{-1}$$
$\boldsymbol{M} := \boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi}$ と置けば $\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}^{-\top}\boldsymbol{\Lambda}^\top + \boldsymbol{\Theta}$ と書ける。$\boldsymbol{B}$ への偏微分では、$\boldsymbol{A}^{-1}$ と $\boldsymbol{A}^{-\top}$ の両方が変動するので、積の微分則で 2 項に分かれる。
$$\dfrac{\partial \boldsymbol{\Sigma}}{\partial B_{ij}} = \boldsymbol{\Lambda}\dfrac{\partial \boldsymbol{A}^{-1}}{\partial B_{ij}}\boldsymbol{M}\boldsymbol{A}^{-\top}\boldsymbol{\Lambda}^\top + \boldsymbol{\Lambda}\boldsymbol{A}^{-1}\boldsymbol{M}\dfrac{\partial \boldsymbol{A}^{-\top}}{\partial B_{ij}}\boldsymbol{\Lambda}^\top$$
これを $\partial/\partial \boldsymbol{B}$ 行列 (またはベクトル化形式) にまとめるには、$\boldsymbol{\Sigma}_\eta = \boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}^{-\top}$ を導入し、Kronecker 積を使った表現になる。これは SEM ソフトウェア (lavaan, OpenMx 等) の内部で実装されている。
19.8 RAM モデルの共分散構造
証明
RAM (Reticular Action Model) は McArdle が提案した SEM の統一表記で、潜在・観測変数を区別せず、すべての変数を 1 本のベクトル $\boldsymbol{v}$ にまとめる。LISREL の 8 行列をたった 3 行列 ($\boldsymbol{A}, \boldsymbol{S}, \boldsymbol{F}$) に集約できる利点がある。
RAM の構造方程式 $\boldsymbol{v} = \boldsymbol{A}\boldsymbol{v} + \boldsymbol{u}$ では、$\boldsymbol{A}$ が変数間の有向係数、$\boldsymbol{u}$ が外生入力 (誤差含む)。これを $\boldsymbol{v}$ について解くと
$$(\boldsymbol{I} - \boldsymbol{A})\boldsymbol{v} = \boldsymbol{u} \quad\Longrightarrow\quad \boldsymbol{v} = (\boldsymbol{I} - \boldsymbol{A})^{-1}\boldsymbol{u}$$
$\boldsymbol{u}$ の共分散を $\boldsymbol{S}$ とおくと、全変数の共分散は
$$\text{Cov}(\boldsymbol{v}) = (\boldsymbol{I} - \boldsymbol{A})^{-1}\,\boldsymbol{S}\,(\boldsymbol{I} - \boldsymbol{A})^{-\top}$$
観測変数のみを取り出すために、観測変数行を選択する 0/1 フィルタ行列 $\boldsymbol{F}$ を用いて両側から挟む。
$$\boldsymbol{\Sigma} = \boldsymbol{F}\,\text{Cov}(\boldsymbol{v})\,\boldsymbol{F}^\top = \boldsymbol{F}(\boldsymbol{I} - \boldsymbol{A})^{-1}\boldsymbol{S}(\boldsymbol{I} - \boldsymbol{A})^{-\top}\boldsymbol{F}^\top$$
これが RAM の暗示共分散構造。LISREL より簡潔で OpenMx などのソフトウェアで採用されている。
19.9 RAM 行列 A の勾配
証明
$\boldsymbol{E} := \boldsymbol{I} - \boldsymbol{A}$ と置けば $\boldsymbol{\Sigma} = \boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top$。$\boldsymbol{A}$ の単一要素 $A_{ij}$ への偏微分は、19.7 と同型の議論で $\partial \boldsymbol{E}/\partial A_{ij} = -\boldsymbol{e}_i\boldsymbol{e}_j^\top$ から、逆行列の微分公式により
$$\dfrac{\partial \boldsymbol{E}^{-1}}{\partial A_{ij}} = \boldsymbol{E}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{E}^{-1}$$
$\boldsymbol{\Sigma}$ の表式には $\boldsymbol{E}^{-1}$ が左、$\boldsymbol{E}^{-\top}$ が右に現れるので、積の微分則を適用すると 2 項が残る。
$$\dfrac{\partial \boldsymbol{\Sigma}}{\partial A_{ij}} = \boldsymbol{F}\dfrac{\partial \boldsymbol{E}^{-1}}{\partial A_{ij}}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top + \boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{S}\dfrac{\partial \boldsymbol{E}^{-\top}}{\partial A_{ij}}\boldsymbol{F}^\top$$
第 1 項を展開すると $\boldsymbol{F}\boldsymbol{E}^{-1}\boldsymbol{e}_i\boldsymbol{e}_j^\top\boldsymbol{E}^{-1}\boldsymbol{S}\boldsymbol{E}^{-\top}\boldsymbol{F}^\top$、第 2 項はその転置の形になる。これを 19.6 の一般勾配公式に代入して $\partial F_{\text{ML}}/\partial A_{ij}$ を計算するのが標準的な実装ルート。
項目反応理論(IRT)
19.10 IRT の対数尤度
証明
IRT モデルでは、被験者 $i$ が項目 $j$ に正答する確率 $P_{ij}$ は能力 $\theta_i$ と項目パラメータ ($a_j, b_j, c_j$) の関数として与えられる。各反応 $X_{ij}$ は二値 (正答=1, 誤答=0) なのでベルヌーイ分布に従う。
$$P(X_{ij} = x_{ij}) = P_{ij}^{x_{ij}}(1 - P_{ij})^{1 - x_{ij}}$$
(被験者が異なれば被験者間で独立、項目が異なれば項目間でも条件付き独立 — 局所独立性) を仮定すると、全データの尤度はすべての反応の積になる。
$$L = \prod_{i,j} P_{ij}^{x_{ij}}(1 - P_{ij})^{1 - x_{ij}}$$
対数を取れば、ベルヌーイの対数尤度の和になる。
$$\ell = \log L = \sum_{i,j}\!\left[x_{ij}\log P_{ij} + (1 - x_{ij})\log(1 - P_{ij})\right]$$
各項目モデル (1PL/2PL/3PL) の違いは $P_{ij}$ の関数形だけで、対数尤度の構造は変わらない。以下の各勾配公式は連鎖律でこの $\ell$ を $P_{ij}$ → 各パラメータ、と微分していくだけで導ける。
19.11 2PL 識別力の勾配
証明
2PL モデルでは $P_{ij} = \sigma(z_{ij})$、線形指標は $z_{ij} = a_j(\theta_i - b_j)$。$a_j$ への偏微分はまずロジスティック関数の標準公式 $\sigma'(z) = \sigma(z)(1 - \sigma(z))$ と $\partial z_{ij}/\partial a_j = \theta_i - b_j$ から
$$\dfrac{\partial P_{ij}}{\partial a_j} = P_{ij}(1 - P_{ij})(\theta_i - b_j)$$
次に対数尤度を $P_{ij}$ で微分し、連鎖律で $a_j$ に繋ぐ。ベルヌーイの対数尤度の $P_{ij}$ 微分は
$$\dfrac{\partial}{\partial P_{ij}}[x_{ij}\log P_{ij} + (1-x_{ij})\log(1-P_{ij})] = \dfrac{x_{ij}}{P_{ij}} - \dfrac{1 - x_{ij}}{1 - P_{ij}}$$
これらを掛け合わせ、被験者 $i$ について足すと、分子分母の $P_{ij}(1 - P_{ij})$ が見事に約分される。
$$\dfrac{\partial \ell}{\partial a_j} = \sum_i \dfrac{x_{ij}(1-P_{ij}) - (1-x_{ij})P_{ij}}{P_{ij}(1-P_{ij})} \cdot P_{ij}(1-P_{ij})(\theta_i - b_j)$$
分子も $x_{ij} - P_{ij}$ にまとまり、最終的に
$$\dfrac{\partial \ell}{\partial a_j} = \sum_i (x_{ij} - P_{ij})(\theta_i - b_j) \quad \square$$
「観測 $x_{ij}$ と予測 $P_{ij}$ の差を、被験者の能力ずれ $(\theta_i - b_j)$ で重み付けた和」という直感的に解釈しやすい形になる。
19.12 2PL 困難度の勾配
証明
困難度パラメータ $b_j$ への偏微分は、19.11 とほぼ同じ計算。違いは $\partial z_{ij}/\partial b_j = -a_j$ (符号反転) だけ。ロジスティック関数の微分から
$$\dfrac{\partial P_{ij}}{\partial b_j} = -P_{ij}(1 - P_{ij}) a_j$$
この負号を 19.11 と同じ流れに乗せると、$P_{ij}(1 - P_{ij})$ が約分された後に符号が入れ替わる。
$$\dfrac{\partial \ell}{\partial b_j} = \sum_i (x_{ij} - P_{ij})(-a_j) = \sum_i (P_{ij} - x_{ij}) a_j \quad \square$$
$x_{ij} > P_{ij}$ (予測より正答が多い) なら $b_j$ を下げる方向、逆なら上げる方向に勾配が向くという妥当な振る舞いを示す。
19.13 能力パラメータの勾配
証明
能力 $\theta_i$ は被験者 $i$ のパラメータなので、$\theta_i$ への偏微分では項目 $j$ について和を取る (項目を変数として扱う)。$\partial z_{ij}/\partial \theta_i = a_j$ から
$$\dfrac{\partial P_{ij}}{\partial \theta_i} = P_{ij}(1 - P_{ij}) a_j$$
19.11 と同じ流れ ($P_{ij}(1 - P_{ij})$ の約分) で計算すると
$$\dfrac{\partial \ell}{\partial \theta_i} = \sum_j (x_{ij} - P_{ij}) a_j \quad \square$$
「項目への正答誤差を、項目の識別力 $a_j$ で重み付けた和」という形。Newton-Raphson 法や Fisher スコアリング法で被験者の能力推定に使われる。識別力の高い項目ほど能力推定への寄与が大きい点も直感的。
19.14 3PL 識別力の勾配
証明
3PL モデルでは、当て推量パラメータ $c_j \in (0, 1)$ が下限を規定し、$P^*_{ij} = \sigma(z_{ij})$ ($z_{ij} = a_j(\theta_i - b_j)$) を上に持ち上げる形になる。
$$P_{ij} = c_j + (1 - c_j)\,P^*_{ij}$$
$a_j$ への偏微分では、$c_j$ は $a_j$ に依存しないので $(1 - c_j)$ が前因子として残り、内側の $P^*_{ij}$ が 19.11 と同じ形で微分される。
$$\dfrac{\partial P_{ij}}{\partial a_j} = (1 - c_j)\,P^*_{ij}(1 - P^*_{ij})(\theta_i - b_j)$$
対数尤度の勾配は連鎖律から
$$\dfrac{\partial \ell}{\partial a_j} = \sum_i \dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - P_{ij})}\dfrac{\partial P_{ij}}{\partial a_j}$$
2PL のときと違い、ここでは「$P_{ij}$」と「$P^*_{ij}$」が異なる ($P_{ij} = c_j + (1-c_j)P^*_{ij}$) ので $P_{ij}(1 - P_{ij})$ の約分が完全には起きず、$P^*_{ij}(1 - P^*_{ij})$ と $P_{ij}(1 - P_{ij})$ の比が残る。
$$\dfrac{\partial \ell}{\partial a_j} = \sum_i \dfrac{(x_{ij} - P_{ij})(1 - c_j)P^*_{ij}(1 - P^*_{ij})(\theta_i - b_j)}{P_{ij}(1 - P_{ij})} \quad \square$$
$c_j \to 0$ では 2PL に帰着する。
19.15 当て推量パラメータの勾配
証明
当て推量パラメータ $c_j$ への偏微分から始める。$P_{ij} = c_j + (1 - c_j)P^*_{ij}$ を $c_j$ で微分するとき、$P^*_{ij}$ は $c_j$ に依存しない (内部の $z_{ij}$ にしか依存) ので
$$\dfrac{\partial P_{ij}}{\partial c_j} = 1 - P^*_{ij}$$
連鎖律でベルヌーイ対数尤度の勾配 (19.11 で使った $\partial \ell/\partial P_{ij}$ の表式) と組み合わせる。
$$\dfrac{\partial \ell}{\partial c_j} = \sum_i\!\left[\dfrac{x_{ij}}{P_{ij}} - \dfrac{1 - x_{ij}}{1 - P_{ij}}\right](1 - P^*_{ij})$$
分子を共通分母で揃えると $x_{ij}(1 - P_{ij}) - (1 - x_{ij})P_{ij} = x_{ij} - P_{ij}$ にまとまる。
$$= \sum_i \dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - P_{ij})}(1 - P^*_{ij})$$
さらに重要な恒等式 $1 - P_{ij} = 1 - c_j - (1 - c_j)P^*_{ij} = (1 - c_j)(1 - P^*_{ij})$ を使うと、$(1 - P^*_{ij})$ と $(1 - P_{ij})$ の間に簡単な関係があり、表式を簡潔にできる。
$$\dfrac{\partial \ell}{\partial c_j} = \sum_i \dfrac{x_{ij} - P_{ij}}{P_{ij}(1 - c_j)} \quad \square$$
($1 - c_j$ で割っているので、$c_j$ が 1 に近いと推定が不安定になる — これは IRT の実装上の課題。)
19.16 2PL 項目情報関数
証明
Fisher 情報量の定義から始める。
$$I_j(\theta) = \mathbb{E}\!\left[\left(\dfrac{\partial \log P(X_j|\theta)}{\partial \theta}\right)^2\right]$$
ベルヌーイ分布 (項目 $j$ への反応 $X_j$ の分布) では、対数尤度の $\theta$ 微分が $\displaystyle\dfrac{X_j - P_j}{P_j(1 - P_j)}P'_j$ の形になる。$\mathbb{E}[X_j] = P_j$、$\text{Var}(X_j) = P_j(1 - P_j)$ を使って二乗の期待値を計算すると、ベルヌーイ Fisher 情報量の標準公式
$$I_j(\theta) = \dfrac{(P'_j)^2}{P_j(1 - P_j)}$$
が得られる ($P'_j = \partial P_j/\partial \theta$)。2PL では 19.13 と同じ計算で $P'_j = a_j P_j(1 - P_j)$ なので、これを代入して
$$I_j(\theta) = \dfrac{[a_j P_j(1 - P_j)]^2}{P_j(1 - P_j)} = a_j^2 P_j(1 - P_j) \quad \square$$
$P_j(1 - P_j)$ の二乗のうち 1 つが約分されて消える。$P_j = 0.5$ ($\theta = b_j$) で最大値 $a_j^2/4$ を取り、これは「困難度に等しい能力の被験者を最も精度良く測定できる」という IRT の中核的な洞察。
19.17 3PL 項目情報関数
証明
3PL でも Fisher 情報量の標準公式 $I_j(\theta) = (P'_j)^2 / [P_j(1 - P_j)]$ は変わらない。違いは $P_j$ の関数形と、その微分。
$P_j = c_j + (1 - c_j)P^*_j$ から $\theta$ 微分は $c_j$ が定数なので消えて
$$P'_j = \dfrac{\partial P_j}{\partial \theta} = (1 - c_j)\dfrac{\partial P^*_j}{\partial \theta} = (1 - c_j)\,a_j\,P^*_j(1 - P^*_j)$$
これを Fisher 情報の公式に代入する。
$$I_j(\theta) = \dfrac{(P'_j)^2}{P_j(1 - P_j)} = \dfrac{(1 - c_j)^2\,a_j^2\,P^{*2}_j(1 - P^*_j)^2}{P_j(1 - P_j)} \quad \square$$
2PL と異なり分子と分母の $P^*_j(1 - P^*_j)$ は $P_j(1 - P_j)$ と一致しないので、約分されない (2PL では $P_j = P^*_j$ で完全に約分される)。当て推量がある場合、低能力域で「下から $c_j$ までは推量で正答できる」ぶん識別力が低下し、Fisher 情報量も低下する。
19.18 情報関数の識別力に関する勾配
証明
テスト設計では「項目 $j$ の識別力 $a_j$ を変えると、ある能力 $\theta$ での測定精度がどう変わるか」を知りたい。これは $\partial I_j/\partial a_j$ で評価できる。
2PL の Fisher 情報量 $I_j = a_j^2 P_j(1 - P_j)$ を $a_j$ で微分する。$a_j$ は前因子 $a_j^2$ にも、$P_j = \sigma(a_j(\theta - b_j))$ の中にも入っているので、積の微分則を使う必要がある。
$P_j$ への影響として $\partial P_j/\partial a_j = P_j(1 - P_j)(\theta - b_j)$ (19.11 と同じ計算)。これを使って $P_j(1 - P_j)$ の微分は
$$\dfrac{\partial}{\partial a_j}[P_j(1 - P_j)] = (1 - 2P_j)\,P_j(1 - P_j)(\theta - b_j)$$
($P_j(1-P_j)$ の微分はロジスティックの 2 階微分の典型形。) 積の微分則で 2 項に分けて
$$\dfrac{\partial I_j}{\partial a_j} = 2a_j\,P_j(1 - P_j) + a_j^2(1 - 2P_j)\,P_j(1 - P_j)(\theta - b_j)$$
共通因子 $2a_j P_j(1 - P_j)$ を括り出して整理する。
$$\dfrac{\partial I_j}{\partial a_j} = 2a_j P_j(1 - P_j)\bigl[1 - \tfrac{1}{2}a_j(\theta - b_j)(2P_j - 1)\bigr] \quad \square$$
等価な因子化形 $2a_j P_j(1-P_j)\bigl[1 + \tfrac{1}{2}a_j(\theta-b_j)(1-2P_j)\bigr]$ も同じ式で、$\theta = b_j$ ($P_j = 1/2$) で第 2 項が消えて純粋に $2a_j P_j(1-P_j)$ となる構造が読み取りやすい。識別力を上げると Fisher 情報量がどの能力域で増減するかを定量化でき、テスト設計や項目選択 (CAT) に使われる。