5. トレースの微分
本章の前提条件
本章の公式は、特に断りのない限り、以下の条件下で成立する:
- すべての公式は分母レイアウト(denominator layout)に基づく
- スカラ $f$ を行列 $\boldsymbol{X} \in \mathbb{R}^{M \times N}$ で微分した結果は $\frac{\partial f}{\partial \boldsymbol{X}} \in \mathbb{R}^{M \times N}$
- トレースは正方行列に対してのみ定義される
行列 $\boldsymbol{X}$ が $N \times N$ 正方行列のとき、トレース(対角成分の和)に関する微分公式がある。
ここでは分母レイアウトの観点から、関連する公式を紹介する。
トレースの定義
\begin{eqnarray}
\text{tr}(\boldsymbol{X}) = \displaystyle\sum_{i=0}^{N-1} X_{ii}
\end{eqnarray}
二次形式とトレースの関係
二次形式はトレースを使って表現できる。
\begin{eqnarray}
\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}
&=&
\text{tr}(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x})
=
\text{tr}(\boldsymbol{A} \boldsymbol{x} \boldsymbol{x}^\top)
\end{eqnarray}
これは $\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}$ がスカラであることと、トレースの巡回性(1.12)
$\text{tr}(\boldsymbol{ABC}) = \text{tr}(\boldsymbol{CAB})$ による。
トレース表現への書き換えの意義
スカラー値関数をトレースで表現することで、微分を行列計算として統一的に扱える。
これは多変数微分を体系化するための記法上の工夫であり、値そのものが変わるわけではない。
内積とトレース
ベクトルの内積もトレースで表現できる。
\begin{eqnarray}
\boldsymbol{a}^\top \boldsymbol{x}
&=&
\text{tr}(\boldsymbol{a}^\top \boldsymbol{x})
=
\text{tr}(\boldsymbol{x} \boldsymbol{a}^\top)
\end{eqnarray}
公式一覧はトレースの微分を参照。
以下、各公式を証明する。$\boldsymbol{X}$ を $N \times M$ 行列とし、
分母レイアウトでは結果も $N \times M$ 行列となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}) = \boldsymbol{I}$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times N}$ は $N \times N$ 正方行列、$\text{tr}(\boldsymbol{X}) \in \mathbb{R}$ はスカラ
証明
トレースの定義を確認する。トレースとは正方行列の対角成分の和である。
\begin{equation}
\text{tr}(\boldsymbol{X}) = \sum_{i=0}^{N-1} X_{ii}
\label{eq:5-1-1}
\end{equation}
このスカラ値を行列 $\boldsymbol{X}$ の $(j, l)$ 成分 $X_{jl}$ で偏微分すると
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{X}) = \frac{\partial}{\partial X_{jl}} \sum_{i=0}^{N-1} X_{ii} = \sum_{i=0}^{N-1} \frac{\partial X_{ii}}{\partial X_{jl}}
\label{eq:5-1-2}
\end{equation}
$X_{ii}$ と $X_{jl}$ が同じ変数になるのは $i = j$ かつ $i = l$、すなわち $j = l$ のときだけであるから、Kroneckerのデルタを用いて
\begin{equation}
\frac{\partial X_{ii}}{\partial X_{jl}} = \delta_{ij} \delta_{il}
\label{eq:5-1-3}
\end{equation}
式 \eqref{eq:5-1-3} を式 \eqref{eq:5-1-2} に代入し、$i$ について和をとる。$\delta_{ij} = 1$ となるのは $i = j$ のときだけなので
\begin{equation}
\sum_{i=0}^{N-1} \delta_{ij} \delta_{il} = \delta_{jl}
\label{eq:5-1-4}
\end{equation}
$\delta_{jl}$ は単位行列 $\boldsymbol{I}$ の $(j, l)$ 成分であるから
\begin{equation}
\delta_{jl} = I_{jl}
\label{eq:5-1-5}
\end{equation}
すべての $(j, l)$ について式 \eqref{eq:5-1-5} が成り立つので、行列形式で最終結果を得る。
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}) = \boldsymbol{I}
\label{eq:5-1-6}
\end{equation}
補足:トレースは対角成分の和なので、対角成分 $X_{jj}$ で微分したときだけ 1 になり、非対角成分で微分すると 0 になる。これが単位行列 $\boldsymbol{I}$(対角成分が 1、非対角成分が 0)という結果になる理由である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}^\top$
条件:$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ は $M \times N$ 定数行列、$\boldsymbol{X} \in \mathbb{R}^{N \times M}$ は $N \times M$ 行列変数、$\boldsymbol{A}\boldsymbol{X} \in \mathbb{R}^{M \times M}$ は正方行列
証明
行列積 $\boldsymbol{A}\boldsymbol{X}$ の $(i, i)$ 成分(対角成分)を定義に従って書き下すと
\begin{equation}
(\boldsymbol{A}\boldsymbol{X})_{ii} = \sum_{k=0}^{N-1} A_{ik} X_{ki}
\label{eq:5-2-1}
\end{equation}
トレースは対角成分の和なので
\begin{equation}
\text{tr}(\boldsymbol{A}\boldsymbol{X}) = \sum_{i=0}^{M-1} (\boldsymbol{A}\boldsymbol{X})_{ii} = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} X_{ki}
\label{eq:5-2-2}
\end{equation}
このスカラ値を $\boldsymbol{X}$ の $(j, l)$ 成分 $X_{jl}$ で偏微分する。$A_{ik}$ は定数なので
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \frac{\partial X_{ki}}{\partial X_{jl}}
\label{eq:5-2-3}
\end{equation}
$X_{ki}$ と $X_{jl}$ が同じ変数になるのは $(k, i) = (j, l)$ のときだけであるから、Kroneckerのデルタを用いて
\begin{equation}
\frac{\partial X_{ki}}{\partial X_{jl}} = \delta_{kj} \delta_{il}
\label{eq:5-2-4}
\end{equation}
式 \eqref{eq:5-2-4} を式 \eqref{eq:5-2-3} に代入すると
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \delta_{kj} \delta_{il}
\label{eq:5-2-5}
\end{equation}
$\delta_{kj} = 1$ となるのは $k = j$ のときだけなので $\sum_{k=0}^{N-1} A_{ik} \delta_{kj} = A_{ij}$、同様に $\delta_{il} = 1$ となるのは $i = l$ のときだけなので
\begin{equation}
\sum_{i=0}^{M-1} A_{ij} \delta_{il} = A_{lj}
\label{eq:5-2-6}
\end{equation}
$A_{lj}$ は転置行列 $\boldsymbol{A}^\top$ の $(j, l)$ 成分であるから
\begin{equation}
A_{lj} = (\boldsymbol{A}^\top)_{jl}
\label{eq:5-2-7}
\end{equation}
すべての $(j, l)$ について式 \eqref{eq:5-2-7} が成り立つので、行列形式で最終結果を得る。
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}^\top
\label{eq:5-2-8}
\end{equation}
補足:転置が現れる理由は、トレースの定義で対角成分の和をとる際に、$\boldsymbol{A}$ の行インデックスと $\boldsymbol{X}$ の列インデックスが一致するからである。微分結果では添字が入れ替わり、転置となる。$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)の場合は $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}$ となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A}) = \boldsymbol{A}^\top$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times M}$ は $N \times M$ 行列変数、$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ は $M \times N$ 定数行列、$\boldsymbol{X}\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は正方行列
証明
方法1:トレースの巡回性を利用
トレースの巡回性(cyclic property)より、任意の行列 $\boldsymbol{P}, \boldsymbol{Q}$ について $\text{tr}(\boldsymbol{P}\boldsymbol{Q}) = \text{tr}(\boldsymbol{Q}\boldsymbol{P})$ が成り立つ。この性質を $\boldsymbol{X}\boldsymbol{A}$ に適用すると
\begin{equation}
\text{tr}(\boldsymbol{X}\boldsymbol{A}) = \text{tr}(\boldsymbol{A}\boldsymbol{X})
\label{eq:5-3-1}
\end{equation}
公式 5.2 の結果を適用すると
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A}) = \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}^\top
\label{eq:5-3-2}
\end{equation}
方法2:直接計算
行列積 $\boldsymbol{X}\boldsymbol{A}$ の $(i, i)$ 成分を書き下すと
\begin{equation}
(\boldsymbol{X}\boldsymbol{A})_{ii} = \sum_{k=0}^{M-1} X_{ik} A_{ki}
\label{eq:5-3-3}
\end{equation}
トレースは対角成分の和なので
\begin{equation}
\text{tr}(\boldsymbol{X}\boldsymbol{A}) = \sum_{i=0}^{N-1} \sum_{k=0}^{M-1} X_{ik} A_{ki}
\label{eq:5-3-4}
\end{equation}
$X_{jl}$ で偏微分し、$\displaystyle\frac{\partial X_{ik}}{\partial X_{jl}} = \delta_{ij} \delta_{kl}$ を代入して和をとると
\begin{equation}
\sum_{i=0}^{N-1} \sum_{k=0}^{M-1} \delta_{ij} \delta_{kl} A_{ki} = A_{lj} = (\boldsymbol{A}^\top)_{jl}
\label{eq:5-3-5}
\end{equation}
補足:トレースの巡回性により、$\text{tr}(\boldsymbol{X}\boldsymbol{A})$ と $\text{tr}(\boldsymbol{A}\boldsymbol{X})$ は同じ値を持つ。したがって微分結果も同じになる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{A}$
条件:$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ は $M \times N$ 定数行列、$\boldsymbol{X} \in \mathbb{R}^{M \times N}$ は $M \times N$ 行列変数、$\boldsymbol{X}^\top \in \mathbb{R}^{N \times M}$、$\boldsymbol{A}\boldsymbol{X}^\top \in \mathbb{R}^{M \times M}$ は正方行列
証明
転置行列の成分を確認する。$\boldsymbol{X}^\top$ の $(k, i)$ 成分は $\boldsymbol{X}$ の $(i, k)$ 成分に等しい。
\begin{equation}
(\boldsymbol{X}^\top)_{ki} = X_{ik}
\label{eq:5-4-1}
\end{equation}
行列積 $\boldsymbol{A}\boldsymbol{X}^\top$ の $(i, i)$ 成分を書き下すと
\begin{equation}
(\boldsymbol{A}\boldsymbol{X}^\top)_{ii} = \sum_{k=0}^{N-1} A_{ik} (\boldsymbol{X}^\top)_{ki} = \sum_{k=0}^{N-1} A_{ik} X_{ik}
\label{eq:5-4-2}
\end{equation}
トレースは対角成分の和なので
\begin{equation}
\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} X_{ik}
\label{eq:5-4-3}
\end{equation}
この式を $X_{jl}$ で偏微分する。$A_{ik}$ は定数なので
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \frac{\partial X_{ik}}{\partial X_{jl}}
\label{eq:5-4-4}
\end{equation}
$(i, k) = (j, l)$ のときだけ 1 となるので $\displaystyle\frac{\partial X_{ik}}{\partial X_{jl}} = \delta_{ij} \delta_{kl}$ を代入すると
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \delta_{ij} \delta_{kl}
\label{eq:5-4-5}
\end{equation}
$\delta_{ij}$ について $i$ の和をとると $i = j$ の項だけが残り、$\delta_{kl}$ について $k$ の和をとると $k = l$ の項だけが残るので
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = A_{jl}
\label{eq:5-4-6}
\end{equation}
すべての $(j, l)$ について式 \eqref{eq:5-4-6} が成り立つので、行列形式で最終結果を得る。
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{A}
\label{eq:5-4-7}
\end{equation}
補足:
5.2 の結果と比較すると、$\boldsymbol{X}$ が $\boldsymbol{X}^\top$ に置き換わることで、結果から転置が消える。これは $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i,k} A_{ik} X_{ik}$ が $\boldsymbol{A}$ と $\boldsymbol{X}$ の Frobenius 内積 $\langle \boldsymbol{A}, \boldsymbol{X} \rangle_F$ に等しいことと関連している。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}) = \boldsymbol{A}$
条件:$\boldsymbol{X} \in \mathbb{R}^{M \times N}$ は $M \times N$ 行列変数、$\boldsymbol{X}^\top \in \mathbb{R}^{N \times M}$、$\boldsymbol{A} \in \mathbb{R}^{N \times M}$ は $N \times M$ 定数行列、$\boldsymbol{X}^\top\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は正方行列
証明
トレースの巡回性を適用する。$\boldsymbol{X}^\top$ を $\boldsymbol{P}$、$\boldsymbol{A}$ を $\boldsymbol{Q}$ として $\text{tr}(\boldsymbol{P}\boldsymbol{Q}) = \text{tr}(\boldsymbol{Q}\boldsymbol{P})$ を用いると
\begin{equation}
\text{tr}(\boldsymbol{X}^\top\boldsymbol{A}) = \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top)
\label{eq:5-5-1}
\end{equation}
$\text{tr}(\boldsymbol{X}^\top\boldsymbol{A})$ が定義されるためには $\boldsymbol{X}^\top\boldsymbol{A}$ が正方行列である必要がある。$\boldsymbol{X}^\top \in \mathbb{R}^{N \times M}$、$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ なので、$\boldsymbol{X}^\top\boldsymbol{A} \in \mathbb{R}^{N \times N}$ となり、トレースが定義できる。
この場合、$\boldsymbol{A}\boldsymbol{X}^\top \in \mathbb{R}^{M \times M}$ となり、巡回性により両辺は同じスカラ値となる。公式 5.4 の結果を適用すると
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}) = \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{A}
\label{eq:5-5-2}
\end{equation}
補足:この公式は機械学習で頻繁に用いられる。例えば、$\boldsymbol{A}$ がラベル行列、$\boldsymbol{X}$ が予測行列のとき、$\text{tr}(\boldsymbol{X}^\top\boldsymbol{A})$ は予測とラベルの内積和を表し、その勾配は $\boldsymbol{A}$ となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2) = 2\boldsymbol{X}^\top$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times N}$ は $N \times N$ 正方行列変数
証明
$\boldsymbol{X}^2 = \boldsymbol{X} \cdot \boldsymbol{X}$ の $(i, i)$ 成分を書き下すと
\begin{equation}
(\boldsymbol{X}^2)_{ii} = \sum_{k=0}^{N-1} X_{ik} X_{ki}
\label{eq:5-6-1}
\end{equation}
トレースは対角成分の和なので
\begin{equation}
\text{tr}(\boldsymbol{X}^2) = \sum_{i=0}^{N-1} \sum_{k=0}^{N-1} X_{ik} X_{ki}
\label{eq:5-6-2}
\end{equation}
この式を $X_{jl}$ で偏微分する。$X_{ik}$ と $X_{ki}$ の両方が $\boldsymbol{X}$ の成分なので、積の微分法則(1.25)を適用する。
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{X}^2) = \sum_{i=0}^{N-1} \sum_{k=0}^{N-1} \left( \frac{\partial X_{ik}}{\partial X_{jl}} X_{ki} + X_{ik} \frac{\partial X_{ki}}{\partial X_{jl}} \right)
\label{eq:5-6-3}
\end{equation}
第1項を計算する。$\displaystyle\frac{\partial X_{ik}}{\partial X_{jl}} = \delta_{ij} \delta_{kl}$ を代入し、$\delta_{ij}$ について $i = j$ の項、$\delta_{kl}$ について $k = l$ の項だけが残るので
\begin{equation}
\sum_{i=0}^{N-1} \sum_{k=0}^{N-1} \delta_{ij} \delta_{kl} X_{ki} = X_{lj}
\label{eq:5-6-4}
\end{equation}
第2項を計算する。$\displaystyle\frac{\partial X_{ki}}{\partial X_{jl}} = \delta_{kj} \delta_{il}$ を代入し、$\delta_{kj}$ について $k = j$ の項、$\delta_{il}$ について $i = l$ の項だけが残るので
\begin{equation}
\sum_{i=0}^{N-1} \sum_{k=0}^{N-1} X_{ik} \delta_{kj} \delta_{il} = X_{lj}
\label{eq:5-6-5}
\end{equation}
第1項と第2項を合わせると
\begin{equation}
\frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{X}^2) = X_{lj} + X_{lj} = 2X_{lj}
\label{eq:5-6-6}
\end{equation}
$X_{lj}$ は転置行列 $\boldsymbol{X}^\top$ の $(j, l)$ 成分であるから、行列形式で最終結果を得る。
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2) = 2\boldsymbol{X}^\top
\label{eq:5-6-7}
\end{equation}
補足:係数 2 が現れる理由は、$\text{tr}(\boldsymbol{X}^2) = \sum_{i,k} X_{ik} X_{ki}$ において、$X_{jl}$ が第1因子として現れる項と第2因子として現れる項の両方から寄与があるためである。$\boldsymbol{X}$ が対称行列の場合、$\boldsymbol{X}^\top = \boldsymbol{X}$ なので結果は $2\boldsymbol{X}$ となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = (\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X})^\top$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times N}$ は $N \times N$ 正方行列変数、$\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は $N \times N$ 定数行列
証明
$\boldsymbol{X}^2$ の $(i, j)$ 成分は $(\boldsymbol{X}^2)_{ij} = \sum_{k=0}^{N-1} X_{ik} X_{kj}$ であるから、トレースは
\begin{equation}
\text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = \sum_{i=0}^{N-1} \sum_{j=0}^{N-1} \sum_{k=0}^{N-1} X_{ik} X_{kj} A_{ji}
\label{eq:5-7-1}
\end{equation}
この式を $X_{pq}$ で偏微分する。$X_{ik}$ と $X_{kj}$ の両方が $\boldsymbol{X}$ の成分なので、積の微分法則(1.25)を適用する。
\begin{equation}
\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = \sum_{i,j,k} \left( \frac{\partial X_{ik}}{\partial X_{pq}} X_{kj} A_{ji} + X_{ik} \frac{\partial X_{kj}}{\partial X_{pq}} A_{ji} \right)
\label{eq:5-7-2}
\end{equation}
第1項を計算する。$\displaystyle\frac{\partial X_{ik}}{\partial X_{pq}} = \delta_{ip} \delta_{kq}$ を代入すると、$i = p$、$k = q$ が選ばれるので
\begin{equation}
\sum_{i,j,k} \delta_{ip} \delta_{kq} X_{kj} A_{ji} = \sum_{j} X_{qj} A_{jp} = (\boldsymbol{X}\boldsymbol{A})_{qp}
\label{eq:5-7-3}
\end{equation}
第2項を計算する。$\displaystyle\frac{\partial X_{kj}}{\partial X_{pq}} = \delta_{kp} \delta_{jq}$ を代入すると、$k = p$、$j = q$ が選ばれるので
\begin{equation}
\sum_{i,j,k} X_{ik} \delta_{kp} \delta_{jq} A_{ji} = \sum_{i} X_{ip} A_{qi} = (\boldsymbol{A}\boldsymbol{X})_{qp}
\label{eq:5-7-4}
\end{equation}
第1項と第2項を合わせると
\begin{equation}
\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = (\boldsymbol{X}\boldsymbol{A})_{qp} + (\boldsymbol{A}\boldsymbol{X})_{qp}
\label{eq:5-7-5}
\end{equation}
$(qp)$ 成分は転置行列の $(pq)$ 成分であり、転置の線形性により
\begin{equation}
(\boldsymbol{X}\boldsymbol{A})_{qp} + (\boldsymbol{A}\boldsymbol{X})_{qp} = ((\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X})^\top)_{pq}
\label{eq:5-7-6}
\end{equation}
すべての $(p, q)$ について式 \eqref{eq:5-7-6} が成り立つので、行列形式で最終結果を得る。
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = (\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X})^\top
\label{eq:5-7-7}
\end{equation}
補足:$\boldsymbol{A}$ が対称行列かつ $\boldsymbol{X}$ も対称行列の場合、$\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X}$ も対称行列となり、結果は $\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X}$ となる。$\boldsymbol{A} = \boldsymbol{I}$ の場合は
5.6 に帰着する。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times M}$ は $N \times M$ 行列変数、$\boldsymbol{X}^\top \in \mathbb{R}^{M \times N}$、$\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は $N \times N$ 定数行列、$\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X} \in \mathbb{R}^{M \times M}$ は正方行列
証明
$\boldsymbol{A}\boldsymbol{X}$ の $(i, k)$ 成分を書き下すと
\begin{equation}
(\boldsymbol{A}\boldsymbol{X})_{ik} = \sum_{j=0}^{N-1} A_{ij} X_{jk}
\label{eq:5-8-1}
\end{equation}
となる。$\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}$ の $(l, l)$ 成分は
\begin{equation}
(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})_{ll} = \sum_{i=0}^{N-1} (\boldsymbol{X}^\top)_{li} (\boldsymbol{A}\boldsymbol{X})_{il}
\label{eq:5-8-2}
\end{equation}
である。$(\boldsymbol{X}^\top)_{li} = X_{il}$ を代入し、\eqref{eq:5-8-1} を用いると
\begin{equation}
(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})_{ll} = \sum_{i=0}^{N-1} X_{il} \sum_{j=0}^{N-1} A_{ij} X_{jl}
\label{eq:5-8-3}
\end{equation}
となる。和を整理すると
\begin{equation}
(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})_{ll} = \sum_{i=0}^{N-1} \sum_{j=0}^{N-1} X_{il} A_{ij} X_{jl}
\label{eq:5-8-4}
\end{equation}
となる。トレースは対角成分の和なので、$l$ について和をとると
\begin{equation}
\text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \sum_{l=0}^{M-1} \sum_{i=0}^{N-1} \sum_{j=0}^{N-1} X_{il} A_{ij} X_{jl}
\label{eq:5-8-5}
\end{equation}
となる。この式を $X_{pq}$ で偏微分する。$X_{il}$ と $X_{jl}$ の両方が $\boldsymbol{X}$ の成分なので、積の微分法則(1.25)を適用すると
\begin{equation}
\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \sum_{l,i,j} \left( \frac{\partial X_{il}}{\partial X_{pq}} A_{ij} X_{jl} + X_{il} A_{ij} \frac{\partial X_{jl}}{\partial X_{pq}} \right)
\label{eq:5-8-6}
\end{equation}
となる。第1項を計算する。$\displaystyle\frac{\partial X_{il}}{\partial X_{pq}} = \delta_{ip} \delta_{lq}$ を代入すると
\begin{equation}
\sum_{l,i,j} \delta_{ip} \delta_{lq} A_{ij} X_{jl} = \sum_{j} A_{pj} X_{jq}
\label{eq:5-8-7}
\end{equation}
となる。$\delta_{ip}$ により $i = p$ が、$\delta_{lq}$ により $l = q$ が選ばれる。
\eqref{eq:5-8-7} の結果を行列積の形に書き直すと
\begin{equation}
\sum_{j} A_{pj} X_{jq} = (\boldsymbol{A}\boldsymbol{X})_{pq}
\label{eq:5-8-8}
\end{equation}
となる。第2項を計算する。$\displaystyle\frac{\partial X_{jl}}{\partial X_{pq}} = \delta_{jp} \delta_{lq}$ を代入すると
\begin{equation}
\sum_{l,i,j} X_{il} A_{ij} \delta_{jp} \delta_{lq} = \sum_{i} X_{iq} A_{ip}
\label{eq:5-8-9}
\end{equation}
となる。$\delta_{jp}$ により $j = p$ が、$\delta_{lq}$ により $l = q$ が選ばれる。
\eqref{eq:5-8-9} の結果を変形する。$A_{ip} = (\boldsymbol{A}^\top)_{pi}$ を用いると
\begin{equation}
\sum_{i} X_{iq} A_{ip} = \sum_{i} (\boldsymbol{A}^\top)_{pi} X_{iq}
\label{eq:5-8-10}
\end{equation}
となる。これを行列積の形に書き直すと
\begin{equation}
\sum_{i} (\boldsymbol{A}^\top)_{pi} X_{iq} = (\boldsymbol{A}^\top\boldsymbol{X})_{pq}
\label{eq:5-8-11}
\end{equation}
となる。第1項 \eqref{eq:5-8-8} と第2項 \eqref{eq:5-8-11} を合わせると
\begin{equation}
\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = (\boldsymbol{A}\boldsymbol{X})_{pq} + (\boldsymbol{A}^\top\boldsymbol{X})_{pq}
\label{eq:5-8-12}
\end{equation}
となる。すべての $(p, q)$ について \eqref{eq:5-8-12} が成り立つので、行列形式で最終結果を得る。
\begin{equation}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}
\label{eq:5-8-13}
\end{equation}
補足:$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)の場合、結果は $2\boldsymbol{A}\boldsymbol{X}$ となる。この公式は二次形式の一般化であり、$\text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \sum_{l} \boldsymbol{x}_l^\top \boldsymbol{A} \boldsymbol{x}_l$ と解釈できる($\boldsymbol{x}_l$ は $\boldsymbol{X}$ の $l$ 列目)。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{X}^\top) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{X}^\top) = \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})$ なので、5.8 と同じ結果となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{A}) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{A}) = \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})$ なので、5.8 と同じ結果となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{X}\boldsymbol{A}^\top + \boldsymbol{X}\boldsymbol{A}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
トレースを成分で書くと
\begin{eqnarray}
\text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top) = \displaystyle\sum_{i,j,k} X_{ij} A_{jk} X_{ik}
\end{eqnarray}
$X_{pq}$ で偏微分すると、$X_{pq}$ が現れる項は2種類ある。
第1の場合:$X_{ij} = X_{pq}$ のとき($i = p, j = q$)
\begin{align}
\frac{\partial}{\partial X_{pq}} \sum_{k} X_{pq} A_{qk} X_{pk}
&= \sum_{k} A_{qk} X_{pk} \notag \\
&= \sum_{k} X_{pk} A_{qk} = \sum_{k} X_{pk} (\boldsymbol{A}^\top)_{kq} \notag \\
&= (\boldsymbol{X}\boldsymbol{A}^\top)_{pq} \notag
\end{align}
第2の場合:$X_{ik} = X_{pq}$ のとき($i = p, k = q$)
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \sum_{j} X_{pj} A_{jq} X_{pq}
&=&
\sum_{j} X_{pj} A_{jq} = (\boldsymbol{X}\boldsymbol{A})_{pq}
\end{eqnarray}
以上を合わせると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top)
= (\boldsymbol{X}\boldsymbol{A}^\top)_{pq} + (\boldsymbol{X}\boldsymbol{A})_{pq}
\end{eqnarray}
補足:$\boldsymbol{A}$ が対称行列の場合、$\boldsymbol{A} = \boldsymbol{A}^\top$ より結果は $2\boldsymbol{X}\boldsymbol{A}$ となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{X}) = \boldsymbol{X}\boldsymbol{A}^\top + \boldsymbol{X}\boldsymbol{A}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{X}) = \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top)$ なので、5.11 と同じ結果となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{A}) = \boldsymbol{X}\boldsymbol{A}^\top + \boldsymbol{X}\boldsymbol{A}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{A}) = \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top)$ なので、5.11 と同じ結果となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}) = \boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top + \boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top$
条件:$\boldsymbol{A}, \boldsymbol{X}, \boldsymbol{B}$ は $N \times N$ 正方行列
証明
トレースを成分で書くと
\begin{eqnarray}
\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}) = \displaystyle\sum_{i,j,k,l} A_{ij} X_{jk} B_{kl} X_{li}
\end{eqnarray}
$X_{pq}$ で偏微分すると、$X_{pq}$ が現れる項は2種類ある。
第1の場合:$X_{jk} = X_{pq}$ のとき($j = p, k = q$)
\begin{align}
\frac{\partial}{\partial X_{pq}} \sum_{i,l} A_{ip} X_{pq} B_{ql} X_{li}
&= \sum_{i,l} A_{ip} B_{ql} X_{li} \notag \\
&= \sum_{i} A_{ip} \sum_{l} B_{ql} X_{li}
= \sum_{i} A_{ip} (\boldsymbol{B}\boldsymbol{X})_{qi} \notag \\
&= \sum_{i} (\boldsymbol{A}^\top)_{pi} (\boldsymbol{X}^\top\boldsymbol{B}^\top)_{iq}
= (\boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top)_{pq} \notag
\end{align}
第2の場合:$X_{li} = X_{pq}$ のとき($l = p, i = q$)
\begin{align}
\frac{\partial}{\partial X_{pq}} \sum_{j,k} A_{qj} X_{jk} B_{kp} X_{pq}
&= \sum_{j,k} A_{qj} X_{jk} B_{kp} \notag \\
&= \sum_{k} B_{kp} \sum_{j} A_{qj} X_{jk}
= \sum_{k} B_{kp} (\boldsymbol{A}\boldsymbol{X})_{qk} \notag \\
&= \sum_{k} (\boldsymbol{B}^\top)_{pk} (\boldsymbol{X}^\top\boldsymbol{A}^\top)_{kq}
= (\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top)_{pq} \notag
\end{align}
以上を合わせると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X})
= (\boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top)_{pq} + (\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top)_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{X}) = 2\boldsymbol{X}$
条件:$\boldsymbol{X}$ は任意サイズの行列
証明
5.8 で $\boldsymbol{B} = \boldsymbol{I}$ とおくと、$\boldsymbol{I}\boldsymbol{X} + \boldsymbol{I}^\top\boldsymbol{X} = 2\boldsymbol{X}$ となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{X}^\top) = 2\boldsymbol{X}$
条件:$\boldsymbol{X}$ は任意サイズの行列
証明
トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{X}\boldsymbol{X}^\top) = \text{tr}(\boldsymbol{X}^\top\boldsymbol{X})$ なので、5.15 と同じ結果となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$
条件:$\boldsymbol{B}, \boldsymbol{C}$ は定数行列
証明
$\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{B}$ とおくと $\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \text{tr}(\boldsymbol{Y}^\top\boldsymbol{C}\boldsymbol{Y})$ となる。5.8 より $\displaystyle\frac{\partial}{\partial \boldsymbol{Y}} \text{tr}(\boldsymbol{Y}^\top\boldsymbol{C}\boldsymbol{Y}) = (\boldsymbol{C} + \boldsymbol{C}^\top)\boldsymbol{Y}$ である。連鎖律(1.26の行列版)を適用すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})
= \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C}) = \boldsymbol{B}\boldsymbol{X}\boldsymbol{C} + \boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{C}^\top$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$ は $N \times N$ 定数行列、$\boldsymbol{C}$ は $M \times M$ 定数行列
証明
トレースを成分で書くと $\text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C}) = \displaystyle\sum_{i,j,k,l} X_{ji} B_{jk} X_{kl} C_{li}$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C})
= (\boldsymbol{B}\boldsymbol{X}\boldsymbol{C})_{pq} + (\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{C}^\top)_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C}) = \boldsymbol{A}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}^\top + \boldsymbol{C}\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}, \boldsymbol{C}$ は $M \times M$ 定数行列、$\boldsymbol{B}$ は $N \times N$ 定数行列
証明
トレースを成分で書くと $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C}) = \displaystyle\sum_{i,j,k,l,m} A_{ij} X_{jk} B_{kl} X_{ml} C_{mi}$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C})
= (\boldsymbol{A}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}^\top)_{pq} + (\boldsymbol{C}\boldsymbol{A}\boldsymbol{X}\boldsymbol{B})_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})^\top] = 2\boldsymbol{A}^\top(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})\boldsymbol{B}^\top$
条件:$\boldsymbol{A}, \boldsymbol{B}, \boldsymbol{C}$ は定数行列
証明
$\boldsymbol{Y} = \boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C}$ とおくと $\text{tr}(\boldsymbol{Y}\boldsymbol{Y}^\top) = \|\boldsymbol{Y}\|_F^2$ である。5.16 より $\displaystyle\frac{\partial}{\partial \boldsymbol{Y}} \text{tr}(\boldsymbol{Y}\boldsymbol{Y}^\top) = 2\boldsymbol{Y}$ である。連鎖律(1.26)を適用すると $\displaystyle\frac{\partial Y_{ij}}{\partial X_{pq}} = A_{ip} B_{qj}$ より
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{Y}\boldsymbol{Y}^\top)
= 2 (\boldsymbol{A}^\top \boldsymbol{Y} \boldsymbol{B}^\top)_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X} \otimes \boldsymbol{X}) = 2\text{tr}(\boldsymbol{X})\boldsymbol{I}$
条件:$\boldsymbol{X}$ は正方行列、$\otimes$ はKronecker積
証明
Kronecker積のトレースの性質 $\text{tr}(\boldsymbol{A} \otimes \boldsymbol{B}) = \text{tr}(\boldsymbol{A})\text{tr}(\boldsymbol{B})$ より $\text{tr}(\boldsymbol{X} \otimes \boldsymbol{X}) = [\text{tr}(\boldsymbol{X})]^2$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} [\text{tr}(\boldsymbol{X})]^2
= 2\text{tr}(\boldsymbol{X}) \cdot \delta_{pq}
= (2\text{tr}(\boldsymbol{X})\boldsymbol{I})_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}) = (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{X}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
$\text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}) = \displaystyle\sum_{i,j,k} X_{ik} A_{ij} X_{jk}$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X})
&=&
(\boldsymbol{A} \boldsymbol{X})_{pq} + (\boldsymbol{A}^\top \boldsymbol{X})_{pq}
=
((\boldsymbol{A} + \boldsymbol{A}^\top) \boldsymbol{X})_{pq}
\end{eqnarray}
補足:$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)の場合、結果は $2\boldsymbol{A}\boldsymbol{X}$ となる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{A}^\top \boldsymbol{B}^\top$
条件:$\boldsymbol{A}$ は $L \times N$ 定数行列、$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$ は $M \times L$ 定数行列
証明
成分で書くと $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}) = \displaystyle\sum_{l,i,j} A_{li} X_{ij} B_{jl}$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B})
=
\displaystyle\sum_{l} A_{lp} B_{ql}
=
(\boldsymbol{A}^\top \boldsymbol{B}^\top)_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B}) = \boldsymbol{B}\boldsymbol{A}$
条件:$\boldsymbol{A}$ は $M \times N$ 定数行列、$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$ は $N \times M$ 定数行列
証明
トレースを成分で書くと $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B}) = \displaystyle\sum_{i,j,k} A_{ij} X_{kj} B_{ki}$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B})
= \displaystyle\sum_{i} B_{pi} A_{iq}
= (\boldsymbol{B}\boldsymbol{A})_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A} \otimes \boldsymbol{X}) = \text{tr}(\boldsymbol{A})\boldsymbol{I}$
条件:$\boldsymbol{A}$ は $M \times M$ 定数行列、$\boldsymbol{X}$ は $N \times N$ 行列、$\otimes$ はKronecker積
証明
Kronecker積のトレースの性質より $\text{tr}(\boldsymbol{A} \otimes \boldsymbol{X}) = \text{tr}(\boldsymbol{A}) \cdot \text{tr}(\boldsymbol{X})$ である。$X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A} \otimes \boldsymbol{X})
= \text{tr}(\boldsymbol{A}) \cdot \delta_{pq}
= (\text{tr}(\boldsymbol{A})\boldsymbol{I})_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A}) = -\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{X}^{-\top}$
条件:$\boldsymbol{X}$ は $N \times N$ 正則行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明
恒等式 $\boldsymbol{X} \boldsymbol{X}^{-1} = \boldsymbol{I}$ を $X_{pq}$ で偏微分すると $\displaystyle\frac{\partial \boldsymbol{X}^{-1}}{\partial X_{pq}} = -\boldsymbol{X}^{-1} \boldsymbol{E}_{pq} \boldsymbol{X}^{-1}$ が得られる。これを用いて $\text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A})$ を $X_{pq}$ で偏微分すると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A})
&=&
-\text{tr}(\boldsymbol{X}^{-1} \boldsymbol{A} \boldsymbol{X}^{-1} \boldsymbol{E}_{pq})
=
-(\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{X}^{-\top})_{pq}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^k) = k(\boldsymbol{X}^{k-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$k$ は正の整数
証明
行列の累乗の微分に連鎖律(1.26)を適用すると $\displaystyle\frac{\partial \boldsymbol{X}^k}{\partial X_{pq}} = \displaystyle\sum_{r=0}^{k-1} \boldsymbol{X}^r \boldsymbol{E}_{pq} \boldsymbol{X}^{k-r-1}$ となる。トレースの巡回性を用いると
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^k)
= k \cdot \text{tr}(\boldsymbol{X}^{k-1} \boldsymbol{E}_{pq})
= k (\boldsymbol{X}^{k-1})_{qp}
= k ((\boldsymbol{X}^{k-1})^\top)_{pq}
\end{eqnarray}
補足:$k = 2$ の場合、$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2) = 2\boldsymbol{X}^\top$ となり、5.6 の公式と一致する。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) = \sum_{r=0}^{k-1} (\boldsymbol{X}^r \boldsymbol{A} \boldsymbol{X}^{k-r-1})^\top$
条件:$\boldsymbol{X}$, $\boldsymbol{A}$ は $N \times N$ 行列、$k$ は正の整数
証明
5.27 と同様に行列の累乗の微分を計算する。
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k)
&=&
\text{tr}\left( \boldsymbol{A} \displaystyle\frac{\partial \boldsymbol{X}^k}{\partial X_{pq}} \right) \\
&=&
\text{tr}\left( \boldsymbol{A} \displaystyle\sum_{r=0}^{k-1} \boldsymbol{X}^r \boldsymbol{E}_{pq} \boldsymbol{X}^{k-r-1} \right) \\
&=&
\displaystyle\sum_{r=0}^{k-1} \text{tr}(\boldsymbol{A} \boldsymbol{X}^r \boldsymbol{E}_{pq} \boldsymbol{X}^{k-r-1}) \\
&=&
\displaystyle\sum_{r=0}^{k-1} \text{tr}(\boldsymbol{X}^{k-r-1} \boldsymbol{A} \boldsymbol{X}^r \boldsymbol{E}_{pq}) \quad (\text{トレースの巡回性})
\end{eqnarray}
$\text{tr}(\boldsymbol{M} \boldsymbol{E}_{pq}) = M_{qp}$ を用いると:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k)
&=&
\displaystyle\sum_{r=0}^{k-1} (\boldsymbol{X}^{k-r-1} \boldsymbol{A} \boldsymbol{X}^r)_{qp} \\
&=&
\displaystyle\sum_{r=0}^{k-1} ((\boldsymbol{X}^{k-r-1} \boldsymbol{A} \boldsymbol{X}^r)^\top)_{pq} \\
&=&
\displaystyle\sum_{r=0}^{k-1} ((\boldsymbol{X}^r)^\top \boldsymbol{A}^\top (\boldsymbol{X}^{k-r-1})^\top)_{pq}
\end{eqnarray}
変数変換 $s = k - r - 1$($r = k - s - 1$)を行うと:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k)
&=&
\displaystyle\sum_{s=0}^{k-1} ((\boldsymbol{X}^{k-s-1})^\top \boldsymbol{A}^\top (\boldsymbol{X}^s)^\top)_{pq} \\
&=&
\displaystyle\sum_{s=0}^{k-1} ((\boldsymbol{X}^s \boldsymbol{A} \boldsymbol{X}^{k-s-1})^\top)_{pq}
\end{eqnarray}
よって $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) = \displaystyle\sum_{r=0}^{k-1} (\boldsymbol{X}^r \boldsymbol{A} \boldsymbol{X}^{k-r-1})^\top$ である。
補足:$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)なら、結果も簡略化される場合がある。
特に $\boldsymbol{A} = \boldsymbol{I}$ のとき、$\text{tr}(\boldsymbol{X}^k)$ となり 5.27 と一致する。
公式:
$$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}$$
$$\quad + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X} + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{B}$ は $N \times K$ 行列、$\boldsymbol{C}$ は $M \times M$ 行列
証明
この複合形式の微分は、$\boldsymbol{X}$ が4箇所に現れるため、それぞれの位置で微分した結果の和となる。
$\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{B}$ とおくと、元の式は $\text{tr}(\boldsymbol{Y}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{Y})$ と書ける。
これを $\boldsymbol{X}$ の各出現位置で微分する。
第1項(左端の $\boldsymbol{X}^\top$ での微分):
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})
&=&
\text{tr}(\boldsymbol{B}^\top \boldsymbol{E}_{pq}^\top \boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})
\end{eqnarray}
トレースの巡回性と $\text{tr}(\boldsymbol{E}_{qp}\boldsymbol{M}) = M_{pq}$ を用いると、この項は $(\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top)_{pq}$ を与える。
第2項($\boldsymbol{C}\boldsymbol{X}$ の $\boldsymbol{X}$ での微分):
\begin{eqnarray}
\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{E}_{pq}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})
\end{eqnarray}
トレースの巡回性を用いると、この項は $(\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X})_{pq}$ を与える。
第3項($\boldsymbol{X}\boldsymbol{X}^\top$ の $\boldsymbol{X}^\top$ での微分):
\begin{eqnarray}
\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{E}_{pq}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})
\end{eqnarray}
この項は $(\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})_{pq}$ を与える。
第4項(右端の $\boldsymbol{X}$ での微分):
\begin{eqnarray}
\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{E}_{pq}\boldsymbol{B})
\end{eqnarray}
この項は $(\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top)_{pq}$ を与える。
4つの項をまとめると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})
&= \boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top
+ \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X} \notag \\
&\quad + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}
+ \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top \notag
\end{align}
補足:この公式は複雑だが、各項は $\boldsymbol{X}$ の4つの出現位置それぞれで連鎖律を適用した結果である。
$\boldsymbol{C}$ が対称行列($\boldsymbol{C} = \boldsymbol{C}^\top$)の場合は、第1項と第4項、第2項と第3項がそれぞれ類似した形になる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B}) = -\boldsymbol{X}^{-\top}\boldsymbol{A}^\top\boldsymbol{B}^\top\boldsymbol{X}^{-\top}$
条件:$\boldsymbol{X}$ は $N \times N$ 正則行列、$\boldsymbol{A}$, $\boldsymbol{B}$ は適切なサイズの定数行列
証明
8.2 で導出した逆行列の微分公式を使う:
\begin{eqnarray}
\displaystyle\frac{\partial \boldsymbol{X}^{-1}}{\partial X_{pq}} = -\boldsymbol{X}^{-1} \boldsymbol{E}_{pq} \boldsymbol{X}^{-1}
\end{eqnarray}
ここで $\boldsymbol{E}_{pq}$ は $(p, q)$ 成分のみが $1$ の行列である。
$\text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})$ を $X_{pq}$ で偏微分すると:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})
&=&
\text{tr}\left( \boldsymbol{A} \displaystyle\frac{\partial \boldsymbol{X}^{-1}}{\partial X_{pq}} \boldsymbol{B} \right) \\
&=&
\text{tr}(-\boldsymbol{A} \boldsymbol{X}^{-1} \boldsymbol{E}_{pq} \boldsymbol{X}^{-1} \boldsymbol{B}) \\
&=&
-\text{tr}(\boldsymbol{X}^{-1} \boldsymbol{B} \boldsymbol{A} \boldsymbol{X}^{-1} \boldsymbol{E}_{pq}) \quad (\text{トレースの巡回性})
\end{eqnarray}
$\text{tr}(\boldsymbol{M} \boldsymbol{E}_{pq}) = M_{qp}$ であるから:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})
&=&
-(\boldsymbol{X}^{-1} \boldsymbol{B} \boldsymbol{A} \boldsymbol{X}^{-1})_{qp} \\
&=&
-((\boldsymbol{X}^{-1} \boldsymbol{B} \boldsymbol{A} \boldsymbol{X}^{-1})^\top)_{pq} \\
&=&
-(\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{B}^\top \boldsymbol{X}^{-\top})_{pq}
\end{eqnarray}
よって $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B}) = -\boldsymbol{X}^{-\top}\boldsymbol{A}^\top\boldsymbol{B}^\top\boldsymbol{X}^{-\top}$ である。
補足:これは $-(\boldsymbol{X}^{-1}\boldsymbol{B}\boldsymbol{A}\boldsymbol{X}^{-1})^\top$ と同値である。
$\boldsymbol{A} = \boldsymbol{I}$ の場合は 4.4 の公式に帰着する。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{A}] = -\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{A}+\boldsymbol{A}^\top)(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{C}$ は $N \times N$ 対称行列、$\boldsymbol{A}$ は $M \times M$ 行列
証明
$\boldsymbol{W} = \boldsymbol{X}^\top \boldsymbol{C} \boldsymbol{X}$($M \times M$ 行列)とおく。
まず $\boldsymbol{W}$ の $X_{pq}$ による微分を計算する。$W_{ij} = \displaystyle\sum_{k,l} X_{ki} C_{kl} X_{lj}$ より:
\begin{eqnarray}
\displaystyle\frac{\partial W_{ij}}{\partial X_{pq}}
&=& \displaystyle\sum_l C_{pl} X_{lj} \delta_{iq} + \displaystyle\sum_k X_{ki} C_{kp} \delta_{jq} \\
&=& (\boldsymbol{C}\boldsymbol{X})_{pj} \delta_{iq} + (\boldsymbol{X}^\top\boldsymbol{C})_{ip} \delta_{jq}
\end{eqnarray}
逆行列の微分公式 $\displaystyle\frac{\partial \boldsymbol{W}^{-1}}{\partial W_{ij}} = -\boldsymbol{W}^{-1} \boldsymbol{E}_{ij} \boldsymbol{W}^{-1}$ と連鎖律を用いて:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A})
&=& \displaystyle\sum_{i,j} \displaystyle\frac{\partial \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A})}{\partial W_{ij}} \cdot \displaystyle\frac{\partial W_{ij}}{\partial X_{pq}}
\end{eqnarray}
$\displaystyle\frac{\partial}{\partial W_{ij}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A}) = -(\boldsymbol{W}^{-1}\boldsymbol{A}\boldsymbol{W}^{-1})_{ji}$ を代入し、
$\boldsymbol{C} = \boldsymbol{C}^\top$ を用いると:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A})
&=& -(\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}\boldsymbol{A}\boldsymbol{W}^{-1})_{pq} - (\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}\boldsymbol{A}^\top\boldsymbol{W}^{-1})_{pq}
\end{eqnarray}
よって $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{A}] = -\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{A}+\boldsymbol{A}^\top)(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$ である。
公式:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]
&= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\
&\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag
\end{align}
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$, $\boldsymbol{C}$ は $N \times N$ 対称行列
証明
$\boldsymbol{W} = \boldsymbol{X}^\top \boldsymbol{C} \boldsymbol{X}$、$\boldsymbol{V} = \boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{X}$ とおく。
積の微分則より:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{V})
&=& \left(\displaystyle\frac{\partial \boldsymbol{W}^{-1}}{\partial \boldsymbol{X}}\right) \boldsymbol{V} + \boldsymbol{W}^{-1} \left(\displaystyle\frac{\partial \boldsymbol{V}}{\partial \boldsymbol{X}}\right)
\end{eqnarray}
第1項($\boldsymbol{W}^{-1}$ の微分、$\boldsymbol{V}$ は固定):
5.31 の結果で $\boldsymbol{A} = \boldsymbol{V} = \boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}$(対称)を代入すると:
\begin{eqnarray}
-\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}(\boldsymbol{V}+\boldsymbol{V}^\top)\boldsymbol{W}^{-1}
&=& -2\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}\boldsymbol{V}\boldsymbol{W}^{-1} \\
&=& -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}
\end{eqnarray}
第2項($\boldsymbol{V}$ の微分、$\boldsymbol{W}^{-1}$ は固定):
5.22 より $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}) = 2\boldsymbol{B}\boldsymbol{X}\boldsymbol{W}^{-1}$($\boldsymbol{B}$ が対称のとき)。
よって:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]
&= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\
&\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag
\end{align}
公式:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]
&= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\
&\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag
\end{align}
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $M \times M$ 定数行列、$\boldsymbol{B}$, $\boldsymbol{C}$ は $N \times N$ 対称行列
証明
$\boldsymbol{W} = \boldsymbol{A} + \boldsymbol{X}^\top \boldsymbol{C} \boldsymbol{X}$、$\boldsymbol{V} = \boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{X}$ とおく。
$\boldsymbol{W}$ の $X_{pq}$ による微分において、定数項 $\boldsymbol{A}$ は消えるので:
\begin{eqnarray}
\displaystyle\frac{\partial W_{ij}}{\partial X_{pq}} = (\boldsymbol{C}\boldsymbol{X})_{pj} \delta_{iq} + (\boldsymbol{X}^\top\boldsymbol{C})_{ip} \delta_{jq}
\end{eqnarray}
これは 5.32 の場合と同じ形なので、$\boldsymbol{W} = \boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}$ を $\boldsymbol{W} = \boldsymbol{A} + \boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}$ に置き換えるだけで結果が得られる:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]
&= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\
&\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag
\end{align}
補足:この公式群は、最小二乗法や一般化最小二乗法(GLS)の導出で重要な役割を果たす。
$(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$ の形は、重み付き最小二乗推定量の分散共分散行列に現れる。
初等関数のトレース微分
行列関数 $f(\boldsymbol{X})$ のトレースの微分について述べる。
行列関数はTaylor級数で定義され、対角化可能な行列 $\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$ に対して
$f(\boldsymbol{X}) = \boldsymbol{P} f(\boldsymbol{\Lambda}) \boldsymbol{P}^{-1}$ で与えられる。
ここで $f(\boldsymbol{\Lambda})$ は固有値に $f$ を適用した対角行列。
一般に、行列関数のトレースの微分は、行列が対角化可能で固有値が異なる場合、次の公式で与えられる:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(f(\boldsymbol{X})) = f'(\boldsymbol{X})^\top
\end{eqnarray}
ここで $f'(\boldsymbol{X})$ は $f$ の導関数を行列 $\boldsymbol{X}$ に適用したものである。
以下、個別の関数について証明する。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\exp(\boldsymbol{X})) = \exp(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
行列指数関数はTaylor級数で定義される:
\begin{eqnarray}
\exp(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{X}^k}{k!}
= \boldsymbol{I} + \boldsymbol{X} + \displaystyle\frac{\boldsymbol{X}^2}{2!} + \displaystyle\frac{\boldsymbol{X}^3}{3!} + \cdots
\end{eqnarray}
トレースを取り、項別に微分する:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\exp(\boldsymbol{X}))
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{k}{k!} (\boldsymbol{X}^{k-1})^\top \\
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(k-1)!} (\boldsymbol{X}^{k-1})^\top \\
&=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{m!} (\boldsymbol{X}^m)^\top \quad (m = k-1) \\
&=& \exp(\boldsymbol{X})^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\log(\boldsymbol{X})) = \boldsymbol{X}^{-\top}$
条件:$\boldsymbol{X}$ は $N \times N$ 正定値行列
証明
行列対数関数について、$\boldsymbol{X}$ が正定値行列の場合を考える。
トレースの性質 $\text{tr}(\log(\boldsymbol{X})) = \log(|\boldsymbol{X}|)$ を用いる。
これは対角化 $\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$ において
$\text{tr}(\log(\boldsymbol{X})) = \displaystyle\sum_i \log(\lambda_i) = \log(\prod_i \lambda_i) = \log(|\boldsymbol{X}|)$ から導かれる。
行列式の微分公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}| = |\boldsymbol{X}| \boldsymbol{X}^{-\top}$ を用いると:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\log(\boldsymbol{X}))
&=& \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \log(|\boldsymbol{X}|) \\
&=& \displaystyle\frac{1}{|\boldsymbol{X}|} \cdot |\boldsymbol{X}| \boldsymbol{X}^{-\top} \\
&=& \boldsymbol{X}^{-\top}
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sqrt{\boldsymbol{X}}) = \displaystyle\frac{1}{2}(\boldsymbol{X}^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正定値行列
証明
$\boldsymbol{X}$ が正定値行列のとき、一意な正定値平方根 $\boldsymbol{X}^{1/2}$ が存在する。
5.27 の一般化を用いる。$\boldsymbol{X}^n$ の微分公式で $n = 1/2$ とおくと:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^{1/2})
&=& \displaystyle\frac{1}{2} (\boldsymbol{X}^{1/2-1})^\top \\
&=& \displaystyle\frac{1}{2} (\boldsymbol{X}^{-1/2})^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sin(\boldsymbol{X})) = \cos(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
行列正弦関数はTaylor級数で定義される:
\begin{eqnarray}
\sin(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} \boldsymbol{X}^{2k+1}
= \boldsymbol{X} - \displaystyle\frac{\boldsymbol{X}^3}{3!} + \displaystyle\frac{\boldsymbol{X}^5}{5!} - \cdots
\end{eqnarray}
トレースを取り、項別に 5.27 の公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^n) = n(\boldsymbol{X}^{n-1})^\top$ を適用する:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sin(\boldsymbol{X}))
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} (2k+1)(\boldsymbol{X}^{2k})^\top \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} (\boldsymbol{X}^{2k})^\top \\
&=& \left( \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \boldsymbol{X}^{2k} \right)^\top \\
&=& \cos(\boldsymbol{X})^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cos(\boldsymbol{X})) = -\sin(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
行列余弦関数はTaylor級数で定義される:
\begin{eqnarray}
\cos(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \boldsymbol{X}^{2k}
= \boldsymbol{I} - \displaystyle\frac{\boldsymbol{X}^2}{2!} + \displaystyle\frac{\boldsymbol{X}^4}{4!} - \cdots
\end{eqnarray}
トレースを取り、項別に微分する。$k=0$ の項 $\boldsymbol{I}$ は定数なので微分は $\boldsymbol{O}$:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cos(\boldsymbol{X}))
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} (2k)(\boldsymbol{X}^{2k-1})^\top \\
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k-1)!} (\boldsymbol{X}^{2k-1})^\top \\
&=& -\displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{(-1)^m}{(2m+1)!} (\boldsymbol{X}^{2m+1})^\top \quad (m = k-1) \\
&=& -\sin(\boldsymbol{X})^\top
\end{eqnarray}
公式:
$$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(f(\boldsymbol{X})) = f'(\boldsymbol{X})^\top$$
より一般に、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ のとき:
$$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}f(\boldsymbol{X})) = (\boldsymbol{A}f'(\boldsymbol{X}))^\top$$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$f$ は解析的(Taylor 級数展開を持つ)。$\boldsymbol{A}$ 付き版では $\boldsymbol{A}$ と $\boldsymbol{X}$ が可換であること。
証明
$f$ は解析的であるから、Taylor 級数展開 $f(x) = \displaystyle\sum_{k=0}^{\infty} c_k x^k$ を持つ。
行列関数は $f(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} c_k \boldsymbol{X}^k$ と定義されるから:
\begin{align}
\text{tr}(f(\boldsymbol{X})) = \sum_{k=0}^{\infty} c_k \,\text{tr}(\boldsymbol{X}^k) \notag
\end{align}
5.34 の手法(べき乗トレースの項別微分)により、$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^k) = k(\boldsymbol{X}^{k-1})^\top$ が成り立つ。
これは $\text{tr}(\boldsymbol{X}^k) = \displaystyle\sum_i \lambda_i^k$ をスカラー的に微分しても、あるいは Taylor 級数の各項を直接微分しても同じ結果を与える。
項別微分を適用する:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(f(\boldsymbol{X}))
&= \sum_{k=1}^{\infty} c_k \cdot k (\boldsymbol{X}^{k-1})^\top \notag \\
&= \left( \sum_{k=1}^{\infty} k\, c_k \boldsymbol{X}^{k-1} \right)^\top = f'(\boldsymbol{X})^\top \notag
\end{align}
ここで $f'(x) = \displaystyle\sum_{k=1}^{\infty} k\, c_k x^{k-1}$ は $f$ のスカラー導関数であり、行列版 $f'(\boldsymbol{X})$ はこの級数に $\boldsymbol{X}$ を代入したものである。
$\boldsymbol{A}$ 付き版については、$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換のとき、同時対角化が可能である:$\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$, $\boldsymbol{A} = \boldsymbol{P}\boldsymbol{D}\boldsymbol{P}^{-1}$($\boldsymbol{\Lambda} = \text{diag}(\lambda_1, \ldots, \lambda_N)$, $\boldsymbol{D} = \text{diag}(d_1, \ldots, d_N)$)。このとき:
\begin{align}
\text{tr}(\boldsymbol{A}f(\boldsymbol{X})) = \sum_{i=1}^{N} d_i f(\lambda_i) \notag
\end{align}
各 $\lambda_i$ についてスカラー微分 $f'(\lambda_i)$ を取り、行列形式に再構成すると、上と同じ議論から $(\boldsymbol{A}f'(\boldsymbol{X}))^\top$ が得られる。$\square$
補足:この一般公式により、以下の 5.39〜5.58 の公式はすべて $f$ と $f'$ を代入するだけで得られる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tan(\boldsymbol{X})) = \sec^2(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\cos(\boldsymbol{X})$ が正則
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\tan(x) = \sec^2(x)$ である。
一般公式に $f(x) = \tan(x)$, $f'(x) = \sec^2(x)$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tan(\boldsymbol{X})) = \sec^2(\boldsymbol{X})^\top \qquad \square \notag
\end{align}
ここで $\sec^2(\boldsymbol{X}) = \cos(\boldsymbol{X})^{-2}$ は、行列余弦の逆行列の二乗として定義される。
補足:ここで $\sec(\boldsymbol{X}) = \cos(\boldsymbol{X})^{-1}$ である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arcsin(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\|\boldsymbol{X}\| < 1$
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\arcsin(x) = \displaystyle\frac{1}{\sqrt{1-x^2}}$ である。
一般公式に $f(x) = \arcsin(x)$, $f'(x) = (1-x^2)^{-1/2}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arcsin(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2}$ は、行列 $\boldsymbol{I}-\boldsymbol{X}^2$ の逆行列平方根として定義される。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arccos(\boldsymbol{X})) = -((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\|\boldsymbol{X}\| < 1$
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\arccos(x) = -\displaystyle\frac{1}{\sqrt{1-x^2}}$ である。
一般公式に $f(x) = \arccos(x)$, $f'(x) = -(1-x^2)^{-1/2}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arccos(\boldsymbol{X})) = -((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag
\end{align}
ここで行列版の $f'(\boldsymbol{X})$ は 5.40 と同じ $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2}$ であり、符号のみが異なる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arctan(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\arctan(x) = \displaystyle\frac{1}{1+x^2}$ である。
一般公式に $f(x) = \arctan(x)$, $f'(x) = (1+x^2)^{-1}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arctan(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{I}+\boldsymbol{X}^2)^{-1}$ は行列 $\boldsymbol{I}+\boldsymbol{X}^2$ の逆行列である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sinh(\boldsymbol{X})) = \cosh(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
行列双曲線正弦関数はTaylor級数で定義される:
\begin{eqnarray}
\sinh(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{X}^{2k+1}}{(2k+1)!}
= \boldsymbol{X} + \displaystyle\frac{\boldsymbol{X}^3}{3!} + \displaystyle\frac{\boldsymbol{X}^5}{5!} + \cdots
\end{eqnarray}
5.37 と同様に項別微分を行う:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sinh(\boldsymbol{X}))
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(2k+1)}{(2k+1)!} (\boldsymbol{X}^{2k})^\top \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} (\boldsymbol{X}^{2k})^\top \\
&=& \cosh(\boldsymbol{X})^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cosh(\boldsymbol{X})) = \sinh(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
行列双曲線余弦関数はTaylor級数で定義される:
\begin{eqnarray}
\cosh(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{X}^{2k}}{(2k)!}
= \boldsymbol{I} + \displaystyle\frac{\boldsymbol{X}^2}{2!} + \displaystyle\frac{\boldsymbol{X}^4}{4!} + \cdots
\end{eqnarray}
5.38 と同様に項別微分を行う:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cosh(\boldsymbol{X}))
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(2k)}{(2k)!} (\boldsymbol{X}^{2k-1})^\top \\
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(2k-1)!} (\boldsymbol{X}^{2k-1})^\top \\
&=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{(2m+1)!} (\boldsymbol{X}^{2m+1})^\top \quad (m = k-1) \\
&=& \sinh(\boldsymbol{X})^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tanh(\boldsymbol{X})) = \text{sech}^2(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\cosh(\boldsymbol{X})$ が正則
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\tanh(x) = \text{sech}^2(x)$ である。
一般公式に $f(x) = \tanh(x)$, $f'(x) = \text{sech}^2(x)$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tanh(\boldsymbol{X})) = \text{sech}^2(\boldsymbol{X})^\top \qquad \square \notag
\end{align}
ここで $\text{sech}^2(\boldsymbol{X}) = \cosh(\boldsymbol{X})^{-2}$ は、行列双曲線余弦の逆行列の二乗として定義される。
補足:ここで $\text{sech}(\boldsymbol{X}) = \cosh(\boldsymbol{X})^{-1}$ である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arcsinh}(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\text{arcsinh}(x) = \displaystyle\frac{1}{\sqrt{1+x^2}}$ である。
一般公式に $f(x) = \text{arcsinh}(x)$, $f'(x) = (1+x^2)^{-1/2}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arcsinh}(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2}$ は行列 $\boldsymbol{I}+\boldsymbol{X}^2$ の逆行列平方根である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arccosh}(\boldsymbol{X})) = ((\boldsymbol{X}^2-\boldsymbol{I})^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、すべての固有値が $1$ より大きい
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\text{arccosh}(x) = \displaystyle\frac{1}{\sqrt{x^2-1}}$($x > 1$)である。
一般公式に $f(x) = \text{arccosh}(x)$, $f'(x) = (x^2-1)^{-1/2}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arccosh}(\boldsymbol{X})) = ((\boldsymbol{X}^2-\boldsymbol{I})^{-1/2})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{X}^2-\boldsymbol{I})^{-1/2}$ は行列 $\boldsymbol{X}^2-\boldsymbol{I}$ の逆行列平方根であり、すべての固有値が $1$ より大きいとき定義される。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arctanh}(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\|\boldsymbol{X}\| < 1$
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\text{arctanh}(x) = \displaystyle\frac{1}{1-x^2}$($|x| < 1$)である。
一般公式に $f(x) = \text{arctanh}(x)$, $f'(x) = (1-x^2)^{-1}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arctanh}(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1}$ は行列 $\boldsymbol{I}-\boldsymbol{X}^2$ の逆行列である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sin(\boldsymbol{X})) = (\boldsymbol{A}\cos(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
5.37 と同様にTaylor級数を用いる:
\begin{eqnarray}
\text{tr}(\boldsymbol{A}\sin(\boldsymbol{X}))
&=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} \boldsymbol{X}^{2k+1} \right) \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k+1})
\end{eqnarray}
5.28 の公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^n) = n(\boldsymbol{A}\boldsymbol{X}^{n-1})^\top$($\boldsymbol{A}$ と $\boldsymbol{X}$ が可換のとき)を用いると:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sin(\boldsymbol{X}))
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} (2k+1)(\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} (\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\
&=& (\boldsymbol{A}\cos(\boldsymbol{X}))^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\exp(\boldsymbol{X})) = (\boldsymbol{A}\exp(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
5.37 と同様にTaylor級数を用いる:
\begin{eqnarray}
\text{tr}(\boldsymbol{A}\exp(\boldsymbol{X}))
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{k!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k)
\end{eqnarray}
$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\exp(\boldsymbol{X}))
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{k}{k!} (\boldsymbol{A}\boldsymbol{X}^{k-1})^\top \\
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(k-1)!} (\boldsymbol{A}\boldsymbol{X}^{k-1})^\top \\
&=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{m!} (\boldsymbol{A}\boldsymbol{X}^m)^\top \\
&=& (\boldsymbol{A}\exp(\boldsymbol{X}))^\top
\end{eqnarray}
補足:この公式は、行列 $\boldsymbol{A}$ と $\boldsymbol{X}$ が可換($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$)の場合に成り立つ。
非可換の場合は、微分がより複雑になり、Fréchet微分の形式を用いる必要がある。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cos(\boldsymbol{X})) = -(\boldsymbol{A}\sin(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
Taylor級数を用いる:
\begin{eqnarray}
\text{tr}(\boldsymbol{A}\cos(\boldsymbol{X}))
&=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \boldsymbol{X}^{2k} \right) \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k})
\end{eqnarray}
$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cos(\boldsymbol{X}))
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \cdot 2k \cdot (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k-1)!} (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\
&=& -\displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{(-1)^m}{(2m+1)!} (\boldsymbol{A}\boldsymbol{X}^{2m+1})^\top \\
&=& -(\boldsymbol{A}\sin(\boldsymbol{X}))^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tan(\boldsymbol{X})) = (\boldsymbol{A}\sec^2(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)、$\cos(\boldsymbol{X})$ が正則
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\tan(x) = \sec^2(x)$ である。
一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \tan(x)$, $f'(x) = \sec^2(x)$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tan(\boldsymbol{X}))
= (\boldsymbol{A}\sec^2(\boldsymbol{X}))^\top \qquad \square \notag
\end{align}
ここで $\sec^2(\boldsymbol{X}) = \cos(\boldsymbol{X})^{-2}$ である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arcsin(\boldsymbol{X})) = (\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\|\boldsymbol{X}\| < 1$、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\arcsin(x) = \displaystyle\frac{1}{\sqrt{1-x^2}}$ である。
一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \arcsin(x)$, $f'(x) = (1-x^2)^{-1/2}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arcsin(\boldsymbol{X}))
= (\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2}$ は行列 $\boldsymbol{I}-\boldsymbol{X}^2$ の逆行列平方根である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arccos(\boldsymbol{X})) = -(\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\|\boldsymbol{X}\| < 1$、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\arccos(x) = -\displaystyle\frac{1}{\sqrt{1-x^2}}$ である。
一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \arccos(x)$, $f'(x) = -(1-x^2)^{-1/2}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arccos(\boldsymbol{X}))
= -(\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag
\end{align}
ここで行列版の $f'(\boldsymbol{X})$ は 5.53 と符号のみが異なる。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arctan(\boldsymbol{X})) = (\boldsymbol{A}(\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
スカラーの場合 $\displaystyle\frac{d}{dx}\arctan(x) = \displaystyle\frac{1}{1+x^2}$ である。
一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \arctan(x)$, $f'(x) = (1+x^2)^{-1}$ を代入すると:
\begin{align}
\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arctan(\boldsymbol{X}))
= (\boldsymbol{A}(\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top \qquad \square \notag
\end{align}
ここで $(\boldsymbol{I}+\boldsymbol{X}^2)^{-1}$ は行列 $\boldsymbol{I}+\boldsymbol{X}^2$ の逆行列である。
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X})) = (\boldsymbol{A}\cosh(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
Taylor級数を用いる:
\begin{eqnarray}
\text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X}))
&=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k+1)!} \boldsymbol{X}^{2k+1} \right) \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k+1)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k+1})
\end{eqnarray}
$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X}))
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k+1)!} \cdot (2k+1) \cdot (\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} (\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\
&=& (\boldsymbol{A}\cosh(\boldsymbol{X}))^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X})) = (\boldsymbol{A}\sinh(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明
Taylor級数を用いる:
\begin{eqnarray}
\text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X}))
&=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} \boldsymbol{X}^{2k} \right) \\
&=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k})
\end{eqnarray}
$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:
\begin{eqnarray}
\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X}))
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(2k)!} \cdot 2k \cdot (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\
&=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(2k-1)!} (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\
&=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{(2m+1)!} (\boldsymbol{A}\boldsymbol{X}^{2m+1})^\top \\
&=& (\boldsymbol{A}\sinh(\boldsymbol{X}))^\top
\end{eqnarray}
公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X})) = (\boldsymbol{A}\text{sech}^2(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)、$\cosh(\boldsymbol{X})$ が正則
証明
行列の双曲線正接は、べき級数で定義される:
$$\tanh(\boldsymbol{X}) = \boldsymbol{X} - \frac{1}{3}\boldsymbol{X}^3 + \frac{2}{15}\boldsymbol{X}^5 - \cdots$$
より正確には $\tanh(\boldsymbol{X}) = \sinh(\boldsymbol{X})\cosh(\boldsymbol{X})^{-1}$ であり、$\cosh(\boldsymbol{X})$ が正則であるとき定義される。
$\boldsymbol{X}$ が対角化可能であるとする。$\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$($\boldsymbol{\Lambda} = \text{diag}(\lambda_1, \ldots, \lambda_N)$)とおくと、行列関数は固有値に作用する:
$$\tanh(\boldsymbol{X}) = \boldsymbol{P}\,\text{diag}(\tanh(\lambda_1), \ldots, \tanh(\lambda_N))\,\boldsymbol{P}^{-1}$$
トレースの性質 $\text{tr}(\boldsymbol{A}\boldsymbol{P}\boldsymbol{D}\boldsymbol{P}^{-1}) = \text{tr}(\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{D})$ より、$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$)のとき、$\boldsymbol{A}$ は $\boldsymbol{P}$ と同じ固有ベクトルで対角化できる(同時対角化)。
$\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P} = \text{diag}(a_1, \ldots, a_N)$ とおくと:
$$\text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X})) = \sum_{i=1}^{N} a_i \tanh(\lambda_i)$$
$\boldsymbol{X}$ の $(p,q)$ 成分 $X_{pq}$ での微分を考える。$\boldsymbol{A}$ と $\boldsymbol{X}$ が同時対角化されるとき、$\lambda_i$ は $\boldsymbol{X}$ の固有値であり、$\displaystyle\frac{\partial \lambda_i}{\partial X_{pq}}$ はスカラー関数の微分に帰着する。
スカラーの場合 $\displaystyle\frac{d}{d\lambda}\tanh(\lambda) = \text{sech}^2(\lambda)$ であるから、連鎖律より:
$$\frac{\partial}{\partial X_{pq}} \sum_{i} a_i \tanh(\lambda_i) = \sum_{i} a_i\,\text{sech}^2(\lambda_i) \cdot \frac{\partial \lambda_i}{\partial X_{pq}}$$
$\text{sech}^2(\boldsymbol{X}) = \boldsymbol{P}\,\text{diag}(\text{sech}^2(\lambda_1), \ldots, \text{sech}^2(\lambda_N))\,\boldsymbol{P}^{-1}$ であり、同時対角化の構造から、上の和は行列の積 $\boldsymbol{A}\,\text{sech}^2(\boldsymbol{X})$ の成分として再構成できる。
5.34 の一般公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}}\text{tr}(\boldsymbol{A}f(\boldsymbol{X})) = (\boldsymbol{A}f'(\boldsymbol{X}))^\top$($\boldsymbol{A}$ と $\boldsymbol{X}$ が可換のとき)を $f = \tanh$、$f' = \text{sech}^2$ に適用すると:
$$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X})) = (\boldsymbol{A}\,\text{sech}^2(\boldsymbol{X}))^\top \qquad \square$$