証明集 第5章: トレースの微分

Proofs Chapter 5: Trace Derivatives

本章では、トレース(行列の対角成分の和)を含む関数の微分を証明する。 トレースはスカラ値を返すため、行列変数に関するスカラ目的関数を構成する手段として 機械学習の損失関数設計、主成分分析(PCA)の定式化、共分散行列の推定で頻繁に用いられる。 tr(AX)、tr(X²)、tr(Xᵏ) の微分を成分計算から導出し、 行列形式の閉じた表現を得る。

前提知識: 第4章(行列微分の基本公式)本章の結果を用いる章: 第7章(行列式)第11章(行列べき乗)第13章(構造行列)

5. トレースの微分

本章の前提条件
本章の公式は、特に断りのない限り、以下の条件下で成立する:
  • すべての公式は分母レイアウト(denominator layout)に基づく
  • スカラ $f$ を行列 $\boldsymbol{X} \in \mathbb{R}^{M \times N}$ で微分した結果は $\frac{\partial f}{\partial \boldsymbol{X}} \in \mathbb{R}^{M \times N}$
  • トレースは正方行列に対してのみ定義される

行列 $\boldsymbol{X}$ が $N \times N$ 正方行列のとき、トレース(対角成分の和)に関する微分公式がある。 ここでは分母レイアウトの観点から、関連する公式を紹介する。

トレースの定義

\begin{eqnarray} \text{tr}(\boldsymbol{X}) = \displaystyle\sum_{i=0}^{N-1} X_{ii} \end{eqnarray}

二次形式とトレースの関係

二次形式はトレースを使って表現できる。

\begin{eqnarray} \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} &=& \text{tr}(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}) = \text{tr}(\boldsymbol{A} \boldsymbol{x} \boldsymbol{x}^\top) \end{eqnarray}

これは $\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}$ がスカラであることと、トレースの巡回性(1.12) $\text{tr}(\boldsymbol{ABC}) = \text{tr}(\boldsymbol{CAB})$ による。

トレース表現への書き換えの意義
スカラー値関数をトレースで表現することで、微分を行列計算として統一的に扱える。 これは多変数微分を体系化するための記法上の工夫であり、値そのものが変わるわけではない。

内積とトレース

ベクトルの内積もトレースで表現できる。

\begin{eqnarray} \boldsymbol{a}^\top \boldsymbol{x} &=& \text{tr}(\boldsymbol{a}^\top \boldsymbol{x}) = \text{tr}(\boldsymbol{x} \boldsymbol{a}^\top) \end{eqnarray}

公式一覧はトレースの微分を参照。 以下、各公式を証明する。$\boldsymbol{X}$ を $N \times M$ 行列とし、 分母レイアウトでは結果も $N \times M$ 行列となる。

5.1 トレースの微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}) = \boldsymbol{I}$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times N}$ は $N \times N$ 正方行列、$\text{tr}(\boldsymbol{X}) \in \mathbb{R}$ はスカラ
証明

トレースの定義を確認する。トレースとは正方行列の対角成分の和である。

\begin{equation} \text{tr}(\boldsymbol{X}) = \sum_{i=0}^{N-1} X_{ii} \label{eq:5-1-1} \end{equation}

このスカラ値を行列 $\boldsymbol{X}$ の $(j, l)$ 成分 $X_{jl}$ で偏微分すると

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{X}) = \frac{\partial}{\partial X_{jl}} \sum_{i=0}^{N-1} X_{ii} = \sum_{i=0}^{N-1} \frac{\partial X_{ii}}{\partial X_{jl}} \label{eq:5-1-2} \end{equation}

$X_{ii}$ と $X_{jl}$ が同じ変数になるのは $i = j$ かつ $i = l$、すなわち $j = l$ のときだけであるから、Kroneckerのデルタを用いて

\begin{equation} \frac{\partial X_{ii}}{\partial X_{jl}} = \delta_{ij} \delta_{il} \label{eq:5-1-3} \end{equation}

式 \eqref{eq:5-1-3} を式 \eqref{eq:5-1-2} に代入し、$i$ について和をとる。$\delta_{ij} = 1$ となるのは $i = j$ のときだけなので

\begin{equation} \sum_{i=0}^{N-1} \delta_{ij} \delta_{il} = \delta_{jl} \label{eq:5-1-4} \end{equation}

$\delta_{jl}$ は単位行列 $\boldsymbol{I}$ の $(j, l)$ 成分であるから

\begin{equation} \delta_{jl} = I_{jl} \label{eq:5-1-5} \end{equation}

すべての $(j, l)$ について式 \eqref{eq:5-1-5} が成り立つので、行列形式で最終結果を得る。

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}) = \boldsymbol{I} \label{eq:5-1-6} \end{equation}

補足:トレースは対角成分の和なので、対角成分 $X_{jj}$ で微分したときだけ 1 になり、非対角成分で微分すると 0 になる。これが単位行列 $\boldsymbol{I}$(対角成分が 1、非対角成分が 0)という結果になる理由である。

5.2 $\text{tr}(\boldsymbol{A}\boldsymbol{X})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}^\top$
条件:$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ は $M \times N$ 定数行列、$\boldsymbol{X} \in \mathbb{R}^{N \times M}$ は $N \times M$ 行列変数、$\boldsymbol{A}\boldsymbol{X} \in \mathbb{R}^{M \times M}$ は正方行列
証明

行列積 $\boldsymbol{A}\boldsymbol{X}$ の $(i, i)$ 成分(対角成分)を定義に従って書き下すと

\begin{equation} (\boldsymbol{A}\boldsymbol{X})_{ii} = \sum_{k=0}^{N-1} A_{ik} X_{ki} \label{eq:5-2-1} \end{equation}

トレースは対角成分の和なので

\begin{equation} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \sum_{i=0}^{M-1} (\boldsymbol{A}\boldsymbol{X})_{ii} = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} X_{ki} \label{eq:5-2-2} \end{equation}

このスカラ値を $\boldsymbol{X}$ の $(j, l)$ 成分 $X_{jl}$ で偏微分する。$A_{ik}$ は定数なので

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \frac{\partial X_{ki}}{\partial X_{jl}} \label{eq:5-2-3} \end{equation}

$X_{ki}$ と $X_{jl}$ が同じ変数になるのは $(k, i) = (j, l)$ のときだけであるから、Kroneckerのデルタを用いて

\begin{equation} \frac{\partial X_{ki}}{\partial X_{jl}} = \delta_{kj} \delta_{il} \label{eq:5-2-4} \end{equation}

式 \eqref{eq:5-2-4} を式 \eqref{eq:5-2-3} に代入すると

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \delta_{kj} \delta_{il} \label{eq:5-2-5} \end{equation}

$\delta_{kj} = 1$ となるのは $k = j$ のときだけなので $\sum_{k=0}^{N-1} A_{ik} \delta_{kj} = A_{ij}$、同様に $\delta_{il} = 1$ となるのは $i = l$ のときだけなので

\begin{equation} \sum_{i=0}^{M-1} A_{ij} \delta_{il} = A_{lj} \label{eq:5-2-6} \end{equation}

$A_{lj}$ は転置行列 $\boldsymbol{A}^\top$ の $(j, l)$ 成分であるから

\begin{equation} A_{lj} = (\boldsymbol{A}^\top)_{jl} \label{eq:5-2-7} \end{equation}

すべての $(j, l)$ について式 \eqref{eq:5-2-7} が成り立つので、行列形式で最終結果を得る。

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}^\top \label{eq:5-2-8} \end{equation}

補足:転置が現れる理由は、トレースの定義で対角成分の和をとる際に、$\boldsymbol{A}$ の行インデックスと $\boldsymbol{X}$ の列インデックスが一致するからである。微分結果では添字が入れ替わり、転置となる。$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)の場合は $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}$ となる。

5.3 $\text{tr}(\boldsymbol{X}\boldsymbol{A})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A}) = \boldsymbol{A}^\top$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times M}$ は $N \times M$ 行列変数、$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ は $M \times N$ 定数行列、$\boldsymbol{X}\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は正方行列
証明

方法1:トレースの巡回性を利用

トレースの巡回性(cyclic property)より、任意の行列 $\boldsymbol{P}, \boldsymbol{Q}$ について $\text{tr}(\boldsymbol{P}\boldsymbol{Q}) = \text{tr}(\boldsymbol{Q}\boldsymbol{P})$ が成り立つ。この性質を $\boldsymbol{X}\boldsymbol{A}$ に適用すると

\begin{equation} \text{tr}(\boldsymbol{X}\boldsymbol{A}) = \text{tr}(\boldsymbol{A}\boldsymbol{X}) \label{eq:5-3-1} \end{equation}

公式 5.2 の結果を適用すると

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A}) = \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}^\top \label{eq:5-3-2} \end{equation}

方法2:直接計算

行列積 $\boldsymbol{X}\boldsymbol{A}$ の $(i, i)$ 成分を書き下すと

\begin{equation} (\boldsymbol{X}\boldsymbol{A})_{ii} = \sum_{k=0}^{M-1} X_{ik} A_{ki} \label{eq:5-3-3} \end{equation}

トレースは対角成分の和なので

\begin{equation} \text{tr}(\boldsymbol{X}\boldsymbol{A}) = \sum_{i=0}^{N-1} \sum_{k=0}^{M-1} X_{ik} A_{ki} \label{eq:5-3-4} \end{equation}

$X_{jl}$ で偏微分し、$\displaystyle\frac{\partial X_{ik}}{\partial X_{jl}} = \delta_{ij} \delta_{kl}$ を代入して和をとると

\begin{equation} \sum_{i=0}^{N-1} \sum_{k=0}^{M-1} \delta_{ij} \delta_{kl} A_{ki} = A_{lj} = (\boldsymbol{A}^\top)_{jl} \label{eq:5-3-5} \end{equation}

補足:トレースの巡回性により、$\text{tr}(\boldsymbol{X}\boldsymbol{A})$ と $\text{tr}(\boldsymbol{A}\boldsymbol{X})$ は同じ値を持つ。したがって微分結果も同じになる。

5.4 $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{A}$
条件:$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ は $M \times N$ 定数行列、$\boldsymbol{X} \in \mathbb{R}^{M \times N}$ は $M \times N$ 行列変数、$\boldsymbol{X}^\top \in \mathbb{R}^{N \times M}$、$\boldsymbol{A}\boldsymbol{X}^\top \in \mathbb{R}^{M \times M}$ は正方行列
証明

転置行列の成分を確認する。$\boldsymbol{X}^\top$ の $(k, i)$ 成分は $\boldsymbol{X}$ の $(i, k)$ 成分に等しい。

\begin{equation} (\boldsymbol{X}^\top)_{ki} = X_{ik} \label{eq:5-4-1} \end{equation}

行列積 $\boldsymbol{A}\boldsymbol{X}^\top$ の $(i, i)$ 成分を書き下すと

\begin{equation} (\boldsymbol{A}\boldsymbol{X}^\top)_{ii} = \sum_{k=0}^{N-1} A_{ik} (\boldsymbol{X}^\top)_{ki} = \sum_{k=0}^{N-1} A_{ik} X_{ik} \label{eq:5-4-2} \end{equation}

トレースは対角成分の和なので

\begin{equation} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} X_{ik} \label{eq:5-4-3} \end{equation}

この式を $X_{jl}$ で偏微分する。$A_{ik}$ は定数なので

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \frac{\partial X_{ik}}{\partial X_{jl}} \label{eq:5-4-4} \end{equation}

$(i, k) = (j, l)$ のときだけ 1 となるので $\displaystyle\frac{\partial X_{ik}}{\partial X_{jl}} = \delta_{ij} \delta_{kl}$ を代入すると

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i=0}^{M-1} \sum_{k=0}^{N-1} A_{ik} \delta_{ij} \delta_{kl} \label{eq:5-4-5} \end{equation}

$\delta_{ij}$ について $i$ の和をとると $i = j$ の項だけが残り、$\delta_{kl}$ について $k$ の和をとると $k = l$ の項だけが残るので

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = A_{jl} \label{eq:5-4-6} \end{equation}

すべての $(j, l)$ について式 \eqref{eq:5-4-6} が成り立つので、行列形式で最終結果を得る。

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{A} \label{eq:5-4-7} \end{equation}

補足5.2 の結果と比較すると、$\boldsymbol{X}$ が $\boldsymbol{X}^\top$ に置き換わることで、結果から転置が消える。これは $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \sum_{i,k} A_{ik} X_{ik}$ が $\boldsymbol{A}$ と $\boldsymbol{X}$ の Frobenius 内積 $\langle \boldsymbol{A}, \boldsymbol{X} \rangle_F$ に等しいことと関連している。

5.5 $\text{tr}(\boldsymbol{X}^\top\boldsymbol{A})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}) = \boldsymbol{A}$
条件:$\boldsymbol{X} \in \mathbb{R}^{M \times N}$ は $M \times N$ 行列変数、$\boldsymbol{X}^\top \in \mathbb{R}^{N \times M}$、$\boldsymbol{A} \in \mathbb{R}^{N \times M}$ は $N \times M$ 定数行列、$\boldsymbol{X}^\top\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は正方行列
証明

トレースの巡回性を適用する。$\boldsymbol{X}^\top$ を $\boldsymbol{P}$、$\boldsymbol{A}$ を $\boldsymbol{Q}$ として $\text{tr}(\boldsymbol{P}\boldsymbol{Q}) = \text{tr}(\boldsymbol{Q}\boldsymbol{P})$ を用いると

\begin{equation} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}) = \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) \label{eq:5-5-1} \end{equation}

$\text{tr}(\boldsymbol{X}^\top\boldsymbol{A})$ が定義されるためには $\boldsymbol{X}^\top\boldsymbol{A}$ が正方行列である必要がある。$\boldsymbol{X}^\top \in \mathbb{R}^{N \times M}$、$\boldsymbol{A} \in \mathbb{R}^{M \times N}$ なので、$\boldsymbol{X}^\top\boldsymbol{A} \in \mathbb{R}^{N \times N}$ となり、トレースが定義できる。

この場合、$\boldsymbol{A}\boldsymbol{X}^\top \in \mathbb{R}^{M \times M}$ となり、巡回性により両辺は同じスカラ値となる。公式 5.4 の結果を適用すると

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}) = \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{A} \label{eq:5-5-2} \end{equation}

補足:この公式は機械学習で頻繁に用いられる。例えば、$\boldsymbol{A}$ がラベル行列、$\boldsymbol{X}$ が予測行列のとき、$\text{tr}(\boldsymbol{X}^\top\boldsymbol{A})$ は予測とラベルの内積和を表し、その勾配は $\boldsymbol{A}$ となる。

5.6 $\text{tr}(\boldsymbol{X}^2)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2) = 2\boldsymbol{X}^\top$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times N}$ は $N \times N$ 正方行列変数
証明

$\boldsymbol{X}^2 = \boldsymbol{X} \cdot \boldsymbol{X}$ の $(i, i)$ 成分を書き下すと

\begin{equation} (\boldsymbol{X}^2)_{ii} = \sum_{k=0}^{N-1} X_{ik} X_{ki} \label{eq:5-6-1} \end{equation}

トレースは対角成分の和なので

\begin{equation} \text{tr}(\boldsymbol{X}^2) = \sum_{i=0}^{N-1} \sum_{k=0}^{N-1} X_{ik} X_{ki} \label{eq:5-6-2} \end{equation}

この式を $X_{jl}$ で偏微分する。$X_{ik}$ と $X_{ki}$ の両方が $\boldsymbol{X}$ の成分なので、積の微分法則(1.25)を適用する。

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{X}^2) = \sum_{i=0}^{N-1} \sum_{k=0}^{N-1} \left( \frac{\partial X_{ik}}{\partial X_{jl}} X_{ki} + X_{ik} \frac{\partial X_{ki}}{\partial X_{jl}} \right) \label{eq:5-6-3} \end{equation}

第1項を計算する。$\displaystyle\frac{\partial X_{ik}}{\partial X_{jl}} = \delta_{ij} \delta_{kl}$ を代入し、$\delta_{ij}$ について $i = j$ の項、$\delta_{kl}$ について $k = l$ の項だけが残るので

\begin{equation} \sum_{i=0}^{N-1} \sum_{k=0}^{N-1} \delta_{ij} \delta_{kl} X_{ki} = X_{lj} \label{eq:5-6-4} \end{equation}

第2項を計算する。$\displaystyle\frac{\partial X_{ki}}{\partial X_{jl}} = \delta_{kj} \delta_{il}$ を代入し、$\delta_{kj}$ について $k = j$ の項、$\delta_{il}$ について $i = l$ の項だけが残るので

\begin{equation} \sum_{i=0}^{N-1} \sum_{k=0}^{N-1} X_{ik} \delta_{kj} \delta_{il} = X_{lj} \label{eq:5-6-5} \end{equation}

第1項と第2項を合わせると

\begin{equation} \frac{\partial}{\partial X_{jl}} \text{tr}(\boldsymbol{X}^2) = X_{lj} + X_{lj} = 2X_{lj} \label{eq:5-6-6} \end{equation}

$X_{lj}$ は転置行列 $\boldsymbol{X}^\top$ の $(j, l)$ 成分であるから、行列形式で最終結果を得る。

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2) = 2\boldsymbol{X}^\top \label{eq:5-6-7} \end{equation}

補足:係数 2 が現れる理由は、$\text{tr}(\boldsymbol{X}^2) = \sum_{i,k} X_{ik} X_{ki}$ において、$X_{jl}$ が第1因子として現れる項と第2因子として現れる項の両方から寄与があるためである。$\boldsymbol{X}$ が対称行列の場合、$\boldsymbol{X}^\top = \boldsymbol{X}$ なので結果は $2\boldsymbol{X}$ となる。

5.7 $\text{tr}(\boldsymbol{X}^2\boldsymbol{A})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = (\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X})^\top$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times N}$ は $N \times N$ 正方行列変数、$\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は $N \times N$ 定数行列
証明

$\boldsymbol{X}^2$ の $(i, j)$ 成分は $(\boldsymbol{X}^2)_{ij} = \sum_{k=0}^{N-1} X_{ik} X_{kj}$ であるから、トレースは

\begin{equation} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = \sum_{i=0}^{N-1} \sum_{j=0}^{N-1} \sum_{k=0}^{N-1} X_{ik} X_{kj} A_{ji} \label{eq:5-7-1} \end{equation}

この式を $X_{pq}$ で偏微分する。$X_{ik}$ と $X_{kj}$ の両方が $\boldsymbol{X}$ の成分なので、積の微分法則(1.25)を適用する。

\begin{equation} \frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = \sum_{i,j,k} \left( \frac{\partial X_{ik}}{\partial X_{pq}} X_{kj} A_{ji} + X_{ik} \frac{\partial X_{kj}}{\partial X_{pq}} A_{ji} \right) \label{eq:5-7-2} \end{equation}

第1項を計算する。$\displaystyle\frac{\partial X_{ik}}{\partial X_{pq}} = \delta_{ip} \delta_{kq}$ を代入すると、$i = p$、$k = q$ が選ばれるので

\begin{equation} \sum_{i,j,k} \delta_{ip} \delta_{kq} X_{kj} A_{ji} = \sum_{j} X_{qj} A_{jp} = (\boldsymbol{X}\boldsymbol{A})_{qp} \label{eq:5-7-3} \end{equation}

第2項を計算する。$\displaystyle\frac{\partial X_{kj}}{\partial X_{pq}} = \delta_{kp} \delta_{jq}$ を代入すると、$k = p$、$j = q$ が選ばれるので

\begin{equation} \sum_{i,j,k} X_{ik} \delta_{kp} \delta_{jq} A_{ji} = \sum_{i} X_{ip} A_{qi} = (\boldsymbol{A}\boldsymbol{X})_{qp} \label{eq:5-7-4} \end{equation}

第1項と第2項を合わせると

\begin{equation} \frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = (\boldsymbol{X}\boldsymbol{A})_{qp} + (\boldsymbol{A}\boldsymbol{X})_{qp} \label{eq:5-7-5} \end{equation}

$(qp)$ 成分は転置行列の $(pq)$ 成分であり、転置の線形性により

\begin{equation} (\boldsymbol{X}\boldsymbol{A})_{qp} + (\boldsymbol{A}\boldsymbol{X})_{qp} = ((\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X})^\top)_{pq} \label{eq:5-7-6} \end{equation}

すべての $(p, q)$ について式 \eqref{eq:5-7-6} が成り立つので、行列形式で最終結果を得る。

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2\boldsymbol{A}) = (\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X})^\top \label{eq:5-7-7} \end{equation}

補足:$\boldsymbol{A}$ が対称行列かつ $\boldsymbol{X}$ も対称行列の場合、$\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X}$ も対称行列となり、結果は $\boldsymbol{X}\boldsymbol{A} + \boldsymbol{A}\boldsymbol{X}$ となる。$\boldsymbol{A} = \boldsymbol{I}$ の場合は 5.6 に帰着する。

5.8 $\text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}$
条件:$\boldsymbol{X} \in \mathbb{R}^{N \times M}$ は $N \times M$ 行列変数、$\boldsymbol{X}^\top \in \mathbb{R}^{M \times N}$、$\boldsymbol{A} \in \mathbb{R}^{N \times N}$ は $N \times N$ 定数行列、$\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X} \in \mathbb{R}^{M \times M}$ は正方行列
証明

$\boldsymbol{A}\boldsymbol{X}$ の $(i, k)$ 成分を書き下すと

\begin{equation} (\boldsymbol{A}\boldsymbol{X})_{ik} = \sum_{j=0}^{N-1} A_{ij} X_{jk} \label{eq:5-8-1} \end{equation}

となる。$\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}$ の $(l, l)$ 成分は

\begin{equation} (\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})_{ll} = \sum_{i=0}^{N-1} (\boldsymbol{X}^\top)_{li} (\boldsymbol{A}\boldsymbol{X})_{il} \label{eq:5-8-2} \end{equation}

である。$(\boldsymbol{X}^\top)_{li} = X_{il}$ を代入し、\eqref{eq:5-8-1} を用いると

\begin{equation} (\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})_{ll} = \sum_{i=0}^{N-1} X_{il} \sum_{j=0}^{N-1} A_{ij} X_{jl} \label{eq:5-8-3} \end{equation}

となる。和を整理すると

\begin{equation} (\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})_{ll} = \sum_{i=0}^{N-1} \sum_{j=0}^{N-1} X_{il} A_{ij} X_{jl} \label{eq:5-8-4} \end{equation}

となる。トレースは対角成分の和なので、$l$ について和をとると

\begin{equation} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \sum_{l=0}^{M-1} \sum_{i=0}^{N-1} \sum_{j=0}^{N-1} X_{il} A_{ij} X_{jl} \label{eq:5-8-5} \end{equation}

となる。この式を $X_{pq}$ で偏微分する。$X_{il}$ と $X_{jl}$ の両方が $\boldsymbol{X}$ の成分なので、積の微分法則(1.25)を適用すると

\begin{equation} \frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \sum_{l,i,j} \left( \frac{\partial X_{il}}{\partial X_{pq}} A_{ij} X_{jl} + X_{il} A_{ij} \frac{\partial X_{jl}}{\partial X_{pq}} \right) \label{eq:5-8-6} \end{equation}

となる。第1項を計算する。$\displaystyle\frac{\partial X_{il}}{\partial X_{pq}} = \delta_{ip} \delta_{lq}$ を代入すると

\begin{equation} \sum_{l,i,j} \delta_{ip} \delta_{lq} A_{ij} X_{jl} = \sum_{j} A_{pj} X_{jq} \label{eq:5-8-7} \end{equation}

となる。$\delta_{ip}$ により $i = p$ が、$\delta_{lq}$ により $l = q$ が選ばれる。

\eqref{eq:5-8-7} の結果を行列積の形に書き直すと

\begin{equation} \sum_{j} A_{pj} X_{jq} = (\boldsymbol{A}\boldsymbol{X})_{pq} \label{eq:5-8-8} \end{equation}

となる。第2項を計算する。$\displaystyle\frac{\partial X_{jl}}{\partial X_{pq}} = \delta_{jp} \delta_{lq}$ を代入すると

\begin{equation} \sum_{l,i,j} X_{il} A_{ij} \delta_{jp} \delta_{lq} = \sum_{i} X_{iq} A_{ip} \label{eq:5-8-9} \end{equation}

となる。$\delta_{jp}$ により $j = p$ が、$\delta_{lq}$ により $l = q$ が選ばれる。

\eqref{eq:5-8-9} の結果を変形する。$A_{ip} = (\boldsymbol{A}^\top)_{pi}$ を用いると

\begin{equation} \sum_{i} X_{iq} A_{ip} = \sum_{i} (\boldsymbol{A}^\top)_{pi} X_{iq} \label{eq:5-8-10} \end{equation}

となる。これを行列積の形に書き直すと

\begin{equation} \sum_{i} (\boldsymbol{A}^\top)_{pi} X_{iq} = (\boldsymbol{A}^\top\boldsymbol{X})_{pq} \label{eq:5-8-11} \end{equation}

となる。第1項 \eqref{eq:5-8-8} と第2項 \eqref{eq:5-8-11} を合わせると

\begin{equation} \frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = (\boldsymbol{A}\boldsymbol{X})_{pq} + (\boldsymbol{A}^\top\boldsymbol{X})_{pq} \label{eq:5-8-12} \end{equation}

となる。すべての $(p, q)$ について \eqref{eq:5-8-12} が成り立つので、行列形式で最終結果を得る。

\begin{equation} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X} \label{eq:5-8-13} \end{equation}

補足:$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)の場合、結果は $2\boldsymbol{A}\boldsymbol{X}$ となる。この公式は二次形式の一般化であり、$\text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X}) = \sum_{l} \boldsymbol{x}_l^\top \boldsymbol{A} \boldsymbol{x}_l$ と解釈できる($\boldsymbol{x}_l$ は $\boldsymbol{X}$ の $l$ 列目)。

5.9 $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{X}^\top)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{X}^\top) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{X}^\top) = \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})$ なので、5.8 と同じ結果となる。

5.10 $\text{tr}(\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{A})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{A}) = \boldsymbol{A}\boldsymbol{X} + \boldsymbol{A}^\top\boldsymbol{X}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{A}) = \text{tr}(\boldsymbol{X}^\top\boldsymbol{A}\boldsymbol{X})$ なので、5.8 と同じ結果となる。

5.11 $\text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top) = \boldsymbol{X}\boldsymbol{A}^\top + \boldsymbol{X}\boldsymbol{A}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

トレースを成分で書くと

\begin{eqnarray} \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top) = \displaystyle\sum_{i,j,k} X_{ij} A_{jk} X_{ik} \end{eqnarray}

$X_{pq}$ で偏微分すると、$X_{pq}$ が現れる項は2種類ある。

第1の場合:$X_{ij} = X_{pq}$ のとき($i = p, j = q$)

\begin{align} \frac{\partial}{\partial X_{pq}} \sum_{k} X_{pq} A_{qk} X_{pk} &= \sum_{k} A_{qk} X_{pk} \notag \\ &= \sum_{k} X_{pk} A_{qk} = \sum_{k} X_{pk} (\boldsymbol{A}^\top)_{kq} \notag \\ &= (\boldsymbol{X}\boldsymbol{A}^\top)_{pq} \notag \end{align}

第2の場合:$X_{ik} = X_{pq}$ のとき($i = p, k = q$)

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \sum_{j} X_{pj} A_{jq} X_{pq} &=& \sum_{j} X_{pj} A_{jq} = (\boldsymbol{X}\boldsymbol{A})_{pq} \end{eqnarray}

以上を合わせると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top) = (\boldsymbol{X}\boldsymbol{A}^\top)_{pq} + (\boldsymbol{X}\boldsymbol{A})_{pq} \end{eqnarray}
補足:$\boldsymbol{A}$ が対称行列の場合、$\boldsymbol{A} = \boldsymbol{A}^\top$ より結果は $2\boldsymbol{X}\boldsymbol{A}$ となる。

5.12 $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{X})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{X}) = \boldsymbol{X}\boldsymbol{A}^\top + \boldsymbol{X}\boldsymbol{A}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{X}) = \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top)$ なので、5.11 と同じ結果となる。

5.13 $\text{tr}(\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{A})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{A}) = \boldsymbol{X}\boldsymbol{A}^\top + \boldsymbol{X}\boldsymbol{A}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{A}) = \text{tr}(\boldsymbol{X}\boldsymbol{A}\boldsymbol{X}^\top)$ なので、5.11 と同じ結果となる。

5.14 $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}) = \boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top + \boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top$
条件:$\boldsymbol{A}, \boldsymbol{X}, \boldsymbol{B}$ は $N \times N$ 正方行列
証明

トレースを成分で書くと

\begin{eqnarray} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}) = \displaystyle\sum_{i,j,k,l} A_{ij} X_{jk} B_{kl} X_{li} \end{eqnarray}

$X_{pq}$ で偏微分すると、$X_{pq}$ が現れる項は2種類ある。

第1の場合:$X_{jk} = X_{pq}$ のとき($j = p, k = q$)

\begin{align} \frac{\partial}{\partial X_{pq}} \sum_{i,l} A_{ip} X_{pq} B_{ql} X_{li} &= \sum_{i,l} A_{ip} B_{ql} X_{li} \notag \\ &= \sum_{i} A_{ip} \sum_{l} B_{ql} X_{li} = \sum_{i} A_{ip} (\boldsymbol{B}\boldsymbol{X})_{qi} \notag \\ &= \sum_{i} (\boldsymbol{A}^\top)_{pi} (\boldsymbol{X}^\top\boldsymbol{B}^\top)_{iq} = (\boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top)_{pq} \notag \end{align}

第2の場合:$X_{li} = X_{pq}$ のとき($l = p, i = q$)

\begin{align} \frac{\partial}{\partial X_{pq}} \sum_{j,k} A_{qj} X_{jk} B_{kp} X_{pq} &= \sum_{j,k} A_{qj} X_{jk} B_{kp} \notag \\ &= \sum_{k} B_{kp} \sum_{j} A_{qj} X_{jk} = \sum_{k} B_{kp} (\boldsymbol{A}\boldsymbol{X})_{qk} \notag \\ &= \sum_{k} (\boldsymbol{B}^\top)_{pk} (\boldsymbol{X}^\top\boldsymbol{A}^\top)_{kq} = (\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top)_{pq} \notag \end{align}

以上を合わせると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}) = (\boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top)_{pq} + (\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top)_{pq} \end{eqnarray}

5.15 $\text{tr}(\boldsymbol{X}^\top\boldsymbol{X})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{X}) = 2\boldsymbol{X}$
条件:$\boldsymbol{X}$ は任意サイズの行列
証明

5.8 で $\boldsymbol{B} = \boldsymbol{I}$ とおくと、$\boldsymbol{I}\boldsymbol{X} + \boldsymbol{I}^\top\boldsymbol{X} = 2\boldsymbol{X}$ となる。

5.16 $\text{tr}(\boldsymbol{X}\boldsymbol{X}^\top)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{X}^\top) = 2\boldsymbol{X}$
条件:$\boldsymbol{X}$ は任意サイズの行列
証明

トレースの巡回性(1.12)より $\text{tr}(\boldsymbol{X}\boldsymbol{X}^\top) = \text{tr}(\boldsymbol{X}^\top\boldsymbol{X})$ なので、5.15 と同じ結果となる。

5.17 $\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$
条件:$\boldsymbol{B}, \boldsymbol{C}$ は定数行列
証明

$\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{B}$ とおくと $\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \text{tr}(\boldsymbol{Y}^\top\boldsymbol{C}\boldsymbol{Y})$ となる。5.8 より $\displaystyle\frac{\partial}{\partial \boldsymbol{Y}} \text{tr}(\boldsymbol{Y}^\top\boldsymbol{C}\boldsymbol{Y}) = (\boldsymbol{C} + \boldsymbol{C}^\top)\boldsymbol{Y}$ である。連鎖律(1.26の行列版)を適用すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top \end{eqnarray}

5.18 $\text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C}) = \boldsymbol{B}\boldsymbol{X}\boldsymbol{C} + \boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{C}^\top$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$ は $N \times N$ 定数行列、$\boldsymbol{C}$ は $M \times M$ 定数行列
証明

トレースを成分で書くと $\text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C}) = \displaystyle\sum_{i,j,k,l} X_{ji} B_{jk} X_{kl} C_{li}$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C}) = (\boldsymbol{B}\boldsymbol{X}\boldsymbol{C})_{pq} + (\boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{C}^\top)_{pq} \end{eqnarray}

5.19 $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C}) = \boldsymbol{A}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}^\top + \boldsymbol{C}\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{A}, \boldsymbol{C}$ は $M \times M$ 定数行列、$\boldsymbol{B}$ は $N \times N$ 定数行列
証明

トレースを成分で書くと $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C}) = \displaystyle\sum_{i,j,k,l,m} A_{ij} X_{jk} B_{kl} X_{ml} C_{mi}$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C}) = (\boldsymbol{A}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}^\top)_{pq} + (\boldsymbol{C}\boldsymbol{A}\boldsymbol{X}\boldsymbol{B})_{pq} \end{eqnarray}

5.20 Frobeniusノルムの微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})^\top] = 2\boldsymbol{A}^\top(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})\boldsymbol{B}^\top$
条件:$\boldsymbol{A}, \boldsymbol{B}, \boldsymbol{C}$ は定数行列
証明

$\boldsymbol{Y} = \boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C}$ とおくと $\text{tr}(\boldsymbol{Y}\boldsymbol{Y}^\top) = \|\boldsymbol{Y}\|_F^2$ である。5.16 より $\displaystyle\frac{\partial}{\partial \boldsymbol{Y}} \text{tr}(\boldsymbol{Y}\boldsymbol{Y}^\top) = 2\boldsymbol{Y}$ である。連鎖律(1.26)を適用すると $\displaystyle\frac{\partial Y_{ij}}{\partial X_{pq}} = A_{ip} B_{qj}$ より

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{Y}\boldsymbol{Y}^\top) = 2 (\boldsymbol{A}^\top \boldsymbol{Y} \boldsymbol{B}^\top)_{pq} \end{eqnarray}

5.21 Kronecker積のトレースの微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X} \otimes \boldsymbol{X}) = 2\text{tr}(\boldsymbol{X})\boldsymbol{I}$
条件:$\boldsymbol{X}$ は正方行列、$\otimes$ はKronecker積
証明

Kronecker積のトレースの性質 $\text{tr}(\boldsymbol{A} \otimes \boldsymbol{B}) = \text{tr}(\boldsymbol{A})\text{tr}(\boldsymbol{B})$ より $\text{tr}(\boldsymbol{X} \otimes \boldsymbol{X}) = [\text{tr}(\boldsymbol{X})]^2$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} [\text{tr}(\boldsymbol{X})]^2 = 2\text{tr}(\boldsymbol{X}) \cdot \delta_{pq} = (2\text{tr}(\boldsymbol{X})\boldsymbol{I})_{pq} \end{eqnarray}

5.22 $\text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X})$ の微分(成分計算による別証明)

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}) = (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{X}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

$\text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}) = \displaystyle\sum_{i,j,k} X_{ik} A_{ij} X_{jk}$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}) &=& (\boldsymbol{A} \boldsymbol{X})_{pq} + (\boldsymbol{A}^\top \boldsymbol{X})_{pq} = ((\boldsymbol{A} + \boldsymbol{A}^\top) \boldsymbol{X})_{pq} \end{eqnarray}
補足:$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)の場合、結果は $2\boldsymbol{A}\boldsymbol{X}$ となる。

5.23 $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{A}^\top \boldsymbol{B}^\top$
条件:$\boldsymbol{A}$ は $L \times N$ 定数行列、$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$ は $M \times L$ 定数行列
証明

成分で書くと $\text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}) = \displaystyle\sum_{l,i,j} A_{li} X_{ij} B_{jl}$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}) = \displaystyle\sum_{l} A_{lp} B_{ql} = (\boldsymbol{A}^\top \boldsymbol{B}^\top)_{pq} \end{eqnarray}

5.24 $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B}) = \boldsymbol{B}\boldsymbol{A}$
条件:$\boldsymbol{A}$ は $M \times N$ 定数行列、$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$ は $N \times M$ 定数行列
証明

トレースを成分で書くと $\text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B}) = \displaystyle\sum_{i,j,k} A_{ij} X_{kj} B_{ki}$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B}) = \displaystyle\sum_{i} B_{pi} A_{iq} = (\boldsymbol{B}\boldsymbol{A})_{pq} \end{eqnarray}

5.25 $\text{tr}(\boldsymbol{A} \otimes \boldsymbol{X})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A} \otimes \boldsymbol{X}) = \text{tr}(\boldsymbol{A})\boldsymbol{I}$
条件:$\boldsymbol{A}$ は $M \times M$ 定数行列、$\boldsymbol{X}$ は $N \times N$ 行列、$\otimes$ はKronecker積
証明

Kronecker積のトレースの性質より $\text{tr}(\boldsymbol{A} \otimes \boldsymbol{X}) = \text{tr}(\boldsymbol{A}) \cdot \text{tr}(\boldsymbol{X})$ である。$X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A} \otimes \boldsymbol{X}) = \text{tr}(\boldsymbol{A}) \cdot \delta_{pq} = (\text{tr}(\boldsymbol{A})\boldsymbol{I})_{pq} \end{eqnarray}

5.26 $\text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A}) = -\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{X}^{-\top}$
条件:$\boldsymbol{X}$ は $N \times N$ 正則行列、$\boldsymbol{A}$ は $N \times N$ 定数行列
証明

恒等式 $\boldsymbol{X} \boldsymbol{X}^{-1} = \boldsymbol{I}$ を $X_{pq}$ で偏微分すると $\displaystyle\frac{\partial \boldsymbol{X}^{-1}}{\partial X_{pq}} = -\boldsymbol{X}^{-1} \boldsymbol{E}_{pq} \boldsymbol{X}^{-1}$ が得られる。これを用いて $\text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A})$ を $X_{pq}$ で偏微分すると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A}) &=& -\text{tr}(\boldsymbol{X}^{-1} \boldsymbol{A} \boldsymbol{X}^{-1} \boldsymbol{E}_{pq}) = -(\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{X}^{-\top})_{pq} \end{eqnarray}

5.27 $\text{tr}(\boldsymbol{X}^k)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^k) = k(\boldsymbol{X}^{k-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$k$ は正の整数
証明

行列の累乗の微分に連鎖律(1.26)を適用すると $\displaystyle\frac{\partial \boldsymbol{X}^k}{\partial X_{pq}} = \displaystyle\sum_{r=0}^{k-1} \boldsymbol{X}^r \boldsymbol{E}_{pq} \boldsymbol{X}^{k-r-1}$ となる。トレースの巡回性を用いると

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{X}^k) = k \cdot \text{tr}(\boldsymbol{X}^{k-1} \boldsymbol{E}_{pq}) = k (\boldsymbol{X}^{k-1})_{qp} = k ((\boldsymbol{X}^{k-1})^\top)_{pq} \end{eqnarray}
補足:$k = 2$ の場合、$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2) = 2\boldsymbol{X}^\top$ となり、5.6 の公式と一致する。

5.28 $\text{tr}(\boldsymbol{A}\boldsymbol{X}^k)$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) = \sum_{r=0}^{k-1} (\boldsymbol{X}^r \boldsymbol{A} \boldsymbol{X}^{k-r-1})^\top$
条件:$\boldsymbol{X}$, $\boldsymbol{A}$ は $N \times N$ 行列、$k$ は正の整数
証明

5.27 と同様に行列の累乗の微分を計算する。

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) &=& \text{tr}\left( \boldsymbol{A} \displaystyle\frac{\partial \boldsymbol{X}^k}{\partial X_{pq}} \right) \\ &=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{r=0}^{k-1} \boldsymbol{X}^r \boldsymbol{E}_{pq} \boldsymbol{X}^{k-r-1} \right) \\ &=& \displaystyle\sum_{r=0}^{k-1} \text{tr}(\boldsymbol{A} \boldsymbol{X}^r \boldsymbol{E}_{pq} \boldsymbol{X}^{k-r-1}) \\ &=& \displaystyle\sum_{r=0}^{k-1} \text{tr}(\boldsymbol{X}^{k-r-1} \boldsymbol{A} \boldsymbol{X}^r \boldsymbol{E}_{pq}) \quad (\text{トレースの巡回性}) \end{eqnarray}

$\text{tr}(\boldsymbol{M} \boldsymbol{E}_{pq}) = M_{qp}$ を用いると:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) &=& \displaystyle\sum_{r=0}^{k-1} (\boldsymbol{X}^{k-r-1} \boldsymbol{A} \boldsymbol{X}^r)_{qp} \\ &=& \displaystyle\sum_{r=0}^{k-1} ((\boldsymbol{X}^{k-r-1} \boldsymbol{A} \boldsymbol{X}^r)^\top)_{pq} \\ &=& \displaystyle\sum_{r=0}^{k-1} ((\boldsymbol{X}^r)^\top \boldsymbol{A}^\top (\boldsymbol{X}^{k-r-1})^\top)_{pq} \end{eqnarray}

変数変換 $s = k - r - 1$($r = k - s - 1$)を行うと:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) &=& \displaystyle\sum_{s=0}^{k-1} ((\boldsymbol{X}^{k-s-1})^\top \boldsymbol{A}^\top (\boldsymbol{X}^s)^\top)_{pq} \\ &=& \displaystyle\sum_{s=0}^{k-1} ((\boldsymbol{X}^s \boldsymbol{A} \boldsymbol{X}^{k-s-1})^\top)_{pq} \end{eqnarray}

よって $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) = \displaystyle\sum_{r=0}^{k-1} (\boldsymbol{X}^r \boldsymbol{A} \boldsymbol{X}^{k-r-1})^\top$ である。

補足:$\boldsymbol{A}$ が対称行列($\boldsymbol{A} = \boldsymbol{A}^\top$)なら、結果も簡略化される場合がある。 特に $\boldsymbol{A} = \boldsymbol{I}$ のとき、$\text{tr}(\boldsymbol{X}^k)$ となり 5.27 と一致する。

5.29 $\text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})$ の微分

公式: $$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) = \boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}$$ $$\quad + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X} + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$$
条件:$\boldsymbol{X}$ は $M \times N$ 行列、$\boldsymbol{B}$ は $N \times K$ 行列、$\boldsymbol{C}$ は $M \times M$ 行列
証明

この複合形式の微分は、$\boldsymbol{X}$ が4箇所に現れるため、それぞれの位置で微分した結果の和となる。 $\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{B}$ とおくと、元の式は $\text{tr}(\boldsymbol{Y}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{Y})$ と書ける。 これを $\boldsymbol{X}$ の各出現位置で微分する。

第1項(左端の $\boldsymbol{X}^\top$ での微分):

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) &=& \text{tr}(\boldsymbol{B}^\top \boldsymbol{E}_{pq}^\top \boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) \end{eqnarray}

トレースの巡回性と $\text{tr}(\boldsymbol{E}_{qp}\boldsymbol{M}) = M_{pq}$ を用いると、この項は $(\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top)_{pq}$ を与える。

第2項($\boldsymbol{C}\boldsymbol{X}$ の $\boldsymbol{X}$ での微分):

\begin{eqnarray} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{E}_{pq}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) \end{eqnarray}

トレースの巡回性を用いると、この項は $(\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X})_{pq}$ を与える。

第3項($\boldsymbol{X}\boldsymbol{X}^\top$ の $\boldsymbol{X}^\top$ での微分):

\begin{eqnarray} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{E}_{pq}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) \end{eqnarray}

この項は $(\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})_{pq}$ を与える。

第4項(右端の $\boldsymbol{X}$ での微分):

\begin{eqnarray} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{E}_{pq}\boldsymbol{B}) \end{eqnarray}

この項は $(\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top)_{pq}$ を与える。

4つの項をまとめると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}) &= \boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X} \notag \\ &\quad + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X} + \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top \notag \end{align}
補足:この公式は複雑だが、各項は $\boldsymbol{X}$ の4つの出現位置それぞれで連鎖律を適用した結果である。 $\boldsymbol{C}$ が対称行列($\boldsymbol{C} = \boldsymbol{C}^\top$)の場合は、第1項と第4項、第2項と第3項がそれぞれ類似した形になる。

5.30 $\text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B}) = -\boldsymbol{X}^{-\top}\boldsymbol{A}^\top\boldsymbol{B}^\top\boldsymbol{X}^{-\top}$
条件:$\boldsymbol{X}$ は $N \times N$ 正則行列、$\boldsymbol{A}$, $\boldsymbol{B}$ は適切なサイズの定数行列
証明

8.2 で導出した逆行列の微分公式を使う:

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{X}^{-1}}{\partial X_{pq}} = -\boldsymbol{X}^{-1} \boldsymbol{E}_{pq} \boldsymbol{X}^{-1} \end{eqnarray}

ここで $\boldsymbol{E}_{pq}$ は $(p, q)$ 成分のみが $1$ の行列である。 $\text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})$ を $X_{pq}$ で偏微分すると:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B}) &=& \text{tr}\left( \boldsymbol{A} \displaystyle\frac{\partial \boldsymbol{X}^{-1}}{\partial X_{pq}} \boldsymbol{B} \right) \\ &=& \text{tr}(-\boldsymbol{A} \boldsymbol{X}^{-1} \boldsymbol{E}_{pq} \boldsymbol{X}^{-1} \boldsymbol{B}) \\ &=& -\text{tr}(\boldsymbol{X}^{-1} \boldsymbol{B} \boldsymbol{A} \boldsymbol{X}^{-1} \boldsymbol{E}_{pq}) \quad (\text{トレースの巡回性}) \end{eqnarray}

$\text{tr}(\boldsymbol{M} \boldsymbol{E}_{pq}) = M_{qp}$ であるから:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B}) &=& -(\boldsymbol{X}^{-1} \boldsymbol{B} \boldsymbol{A} \boldsymbol{X}^{-1})_{qp} \\ &=& -((\boldsymbol{X}^{-1} \boldsymbol{B} \boldsymbol{A} \boldsymbol{X}^{-1})^\top)_{pq} \\ &=& -(\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{B}^\top \boldsymbol{X}^{-\top})_{pq} \end{eqnarray}

よって $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B}) = -\boldsymbol{X}^{-\top}\boldsymbol{A}^\top\boldsymbol{B}^\top\boldsymbol{X}^{-\top}$ である。

補足:これは $-(\boldsymbol{X}^{-1}\boldsymbol{B}\boldsymbol{A}\boldsymbol{X}^{-1})^\top$ と同値である。 $\boldsymbol{A} = \boldsymbol{I}$ の場合は 4.4 の公式に帰着する。

5.31 $\text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{A}]$ の微分($\boldsymbol{C}$: 対称)

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{A}] = -\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{A}+\boldsymbol{A}^\top)(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{C}$ は $N \times N$ 対称行列、$\boldsymbol{A}$ は $M \times M$ 行列
証明

$\boldsymbol{W} = \boldsymbol{X}^\top \boldsymbol{C} \boldsymbol{X}$($M \times M$ 行列)とおく。 まず $\boldsymbol{W}$ の $X_{pq}$ による微分を計算する。$W_{ij} = \displaystyle\sum_{k,l} X_{ki} C_{kl} X_{lj}$ より:

\begin{eqnarray} \displaystyle\frac{\partial W_{ij}}{\partial X_{pq}} &=& \displaystyle\sum_l C_{pl} X_{lj} \delta_{iq} + \displaystyle\sum_k X_{ki} C_{kp} \delta_{jq} \\ &=& (\boldsymbol{C}\boldsymbol{X})_{pj} \delta_{iq} + (\boldsymbol{X}^\top\boldsymbol{C})_{ip} \delta_{jq} \end{eqnarray}

逆行列の微分公式 $\displaystyle\frac{\partial \boldsymbol{W}^{-1}}{\partial W_{ij}} = -\boldsymbol{W}^{-1} \boldsymbol{E}_{ij} \boldsymbol{W}^{-1}$ と連鎖律を用いて:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A}) &=& \displaystyle\sum_{i,j} \displaystyle\frac{\partial \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A})}{\partial W_{ij}} \cdot \displaystyle\frac{\partial W_{ij}}{\partial X_{pq}} \end{eqnarray}

$\displaystyle\frac{\partial}{\partial W_{ij}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A}) = -(\boldsymbol{W}^{-1}\boldsymbol{A}\boldsymbol{W}^{-1})_{ji}$ を代入し、 $\boldsymbol{C} = \boldsymbol{C}^\top$ を用いると:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial X_{pq}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{A}) &=& -(\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}\boldsymbol{A}\boldsymbol{W}^{-1})_{pq} - (\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}\boldsymbol{A}^\top\boldsymbol{W}^{-1})_{pq} \end{eqnarray}

よって $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{A}] = -\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{A}+\boldsymbol{A}^\top)(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$ である。

5.32 $\text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]$ の微分($\boldsymbol{B}, \boldsymbol{C}$: 対称)

公式: \begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})] &= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\ &\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \end{align}
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{B}$, $\boldsymbol{C}$ は $N \times N$ 対称行列
証明

$\boldsymbol{W} = \boldsymbol{X}^\top \boldsymbol{C} \boldsymbol{X}$、$\boldsymbol{V} = \boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{X}$ とおく。 積の微分則より:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{V}) &=& \left(\displaystyle\frac{\partial \boldsymbol{W}^{-1}}{\partial \boldsymbol{X}}\right) \boldsymbol{V} + \boldsymbol{W}^{-1} \left(\displaystyle\frac{\partial \boldsymbol{V}}{\partial \boldsymbol{X}}\right) \end{eqnarray}

第1項($\boldsymbol{W}^{-1}$ の微分、$\boldsymbol{V}$ は固定): 5.31 の結果で $\boldsymbol{A} = \boldsymbol{V} = \boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}$(対称)を代入すると:

\begin{eqnarray} -\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}(\boldsymbol{V}+\boldsymbol{V}^\top)\boldsymbol{W}^{-1} &=& -2\boldsymbol{C}\boldsymbol{X}\boldsymbol{W}^{-1}\boldsymbol{V}\boldsymbol{W}^{-1} \\ &=& -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \end{eqnarray}

第2項($\boldsymbol{V}$ の微分、$\boldsymbol{W}^{-1}$ は固定): 5.22 より $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{W}^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}) = 2\boldsymbol{B}\boldsymbol{X}\boldsymbol{W}^{-1}$($\boldsymbol{B}$ が対称のとき)。

よって:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})] &= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\ &\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \end{align}

5.33 $\text{tr}[(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]$ の微分($\boldsymbol{B}, \boldsymbol{C}$: 対称)

公式: \begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})] &= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\ &\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \end{align}
条件:$\boldsymbol{X}$ は $N \times M$ 行列、$\boldsymbol{A}$ は $M \times M$ 定数行列、$\boldsymbol{B}$, $\boldsymbol{C}$ は $N \times N$ 対称行列
証明

$\boldsymbol{W} = \boldsymbol{A} + \boldsymbol{X}^\top \boldsymbol{C} \boldsymbol{X}$、$\boldsymbol{V} = \boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{X}$ とおく。 $\boldsymbol{W}$ の $X_{pq}$ による微分において、定数項 $\boldsymbol{A}$ は消えるので:

\begin{eqnarray} \displaystyle\frac{\partial W_{ij}}{\partial X_{pq}} = (\boldsymbol{C}\boldsymbol{X})_{pj} \delta_{iq} + (\boldsymbol{X}^\top\boldsymbol{C})_{ip} \delta_{jq} \end{eqnarray}

これは 5.32 の場合と同じ形なので、$\boldsymbol{W} = \boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}$ を $\boldsymbol{W} = \boldsymbol{A} + \boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}$ に置き換えるだけで結果が得られる:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})] &= -2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \\ &\quad + 2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1} \notag \end{align}
補足:この公式群は、最小二乗法や一般化最小二乗法(GLS)の導出で重要な役割を果たす。 $(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$ の形は、重み付き最小二乗推定量の分散共分散行列に現れる。

初等関数のトレース微分

行列関数 $f(\boldsymbol{X})$ のトレースの微分について述べる。 行列関数はTaylor級数で定義され、対角化可能な行列 $\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$ に対して $f(\boldsymbol{X}) = \boldsymbol{P} f(\boldsymbol{\Lambda}) \boldsymbol{P}^{-1}$ で与えられる。 ここで $f(\boldsymbol{\Lambda})$ は固有値に $f$ を適用した対角行列。

一般に、行列関数のトレースの微分は、行列が対角化可能で固有値が異なる場合、次の公式で与えられる:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(f(\boldsymbol{X})) = f'(\boldsymbol{X})^\top \end{eqnarray}

ここで $f'(\boldsymbol{X})$ は $f$ の導関数を行列 $\boldsymbol{X}$ に適用したものである。 以下、個別の関数について証明する。

5.34 $\text{tr}(\exp(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\exp(\boldsymbol{X})) = \exp(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

行列指数関数はTaylor級数で定義される:

\begin{eqnarray} \exp(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{X}^k}{k!} = \boldsymbol{I} + \boldsymbol{X} + \displaystyle\frac{\boldsymbol{X}^2}{2!} + \displaystyle\frac{\boldsymbol{X}^3}{3!} + \cdots \end{eqnarray}

トレースを取り、項別に微分する:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\exp(\boldsymbol{X})) &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{k}{k!} (\boldsymbol{X}^{k-1})^\top \\ &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(k-1)!} (\boldsymbol{X}^{k-1})^\top \\ &=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{m!} (\boldsymbol{X}^m)^\top \quad (m = k-1) \\ &=& \exp(\boldsymbol{X})^\top \end{eqnarray}

5.35 $\text{tr}(\log(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\log(\boldsymbol{X})) = \boldsymbol{X}^{-\top}$
条件:$\boldsymbol{X}$ は $N \times N$ 正定値行列
証明

行列対数関数について、$\boldsymbol{X}$ が正定値行列の場合を考える。 トレースの性質 $\text{tr}(\log(\boldsymbol{X})) = \log(|\boldsymbol{X}|)$ を用いる。 これは対角化 $\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$ において $\text{tr}(\log(\boldsymbol{X})) = \displaystyle\sum_i \log(\lambda_i) = \log(\prod_i \lambda_i) = \log(|\boldsymbol{X}|)$ から導かれる。

行列式の微分公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}| = |\boldsymbol{X}| \boldsymbol{X}^{-\top}$ を用いると:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\log(\boldsymbol{X})) &=& \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \log(|\boldsymbol{X}|) \\ &=& \displaystyle\frac{1}{|\boldsymbol{X}|} \cdot |\boldsymbol{X}| \boldsymbol{X}^{-\top} \\ &=& \boldsymbol{X}^{-\top} \end{eqnarray}

5.36 $\text{tr}(\sqrt{\boldsymbol{X}})$ の微分($\boldsymbol{X}$: 正定値)

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sqrt{\boldsymbol{X}}) = \displaystyle\frac{1}{2}(\boldsymbol{X}^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正定値行列
証明

$\boldsymbol{X}$ が正定値行列のとき、一意な正定値平方根 $\boldsymbol{X}^{1/2}$ が存在する。 5.27 の一般化を用いる。$\boldsymbol{X}^n$ の微分公式で $n = 1/2$ とおくと:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^{1/2}) &=& \displaystyle\frac{1}{2} (\boldsymbol{X}^{1/2-1})^\top \\ &=& \displaystyle\frac{1}{2} (\boldsymbol{X}^{-1/2})^\top \end{eqnarray}

5.37 $\text{tr}(\sin(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sin(\boldsymbol{X})) = \cos(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

行列正弦関数はTaylor級数で定義される:

\begin{eqnarray} \sin(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} \boldsymbol{X}^{2k+1} = \boldsymbol{X} - \displaystyle\frac{\boldsymbol{X}^3}{3!} + \displaystyle\frac{\boldsymbol{X}^5}{5!} - \cdots \end{eqnarray}

トレースを取り、項別に 5.27 の公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^n) = n(\boldsymbol{X}^{n-1})^\top$ を適用する:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sin(\boldsymbol{X})) &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} (2k+1)(\boldsymbol{X}^{2k})^\top \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} (\boldsymbol{X}^{2k})^\top \\ &=& \left( \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \boldsymbol{X}^{2k} \right)^\top \\ &=& \cos(\boldsymbol{X})^\top \end{eqnarray}

5.38 $\text{tr}(\cos(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cos(\boldsymbol{X})) = -\sin(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

行列余弦関数はTaylor級数で定義される:

\begin{eqnarray} \cos(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \boldsymbol{X}^{2k} = \boldsymbol{I} - \displaystyle\frac{\boldsymbol{X}^2}{2!} + \displaystyle\frac{\boldsymbol{X}^4}{4!} - \cdots \end{eqnarray}

トレースを取り、項別に微分する。$k=0$ の項 $\boldsymbol{I}$ は定数なので微分は $\boldsymbol{O}$:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cos(\boldsymbol{X})) &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} (2k)(\boldsymbol{X}^{2k-1})^\top \\ &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k-1)!} (\boldsymbol{X}^{2k-1})^\top \\ &=& -\displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{(-1)^m}{(2m+1)!} (\boldsymbol{X}^{2m+1})^\top \quad (m = k-1) \\ &=& -\sin(\boldsymbol{X})^\top \end{eqnarray}

一般公式:行列関数のトレース微分

公式: $$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(f(\boldsymbol{X})) = f'(\boldsymbol{X})^\top$$ より一般に、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ のとき: $$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}f(\boldsymbol{X})) = (\boldsymbol{A}f'(\boldsymbol{X}))^\top$$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$f$ は解析的(Taylor 級数展開を持つ)。$\boldsymbol{A}$ 付き版では $\boldsymbol{A}$ と $\boldsymbol{X}$ が可換であること。
証明

$f$ は解析的であるから、Taylor 級数展開 $f(x) = \displaystyle\sum_{k=0}^{\infty} c_k x^k$ を持つ。 行列関数は $f(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} c_k \boldsymbol{X}^k$ と定義されるから:

\begin{align} \text{tr}(f(\boldsymbol{X})) = \sum_{k=0}^{\infty} c_k \,\text{tr}(\boldsymbol{X}^k) \notag \end{align}

5.34 の手法(べき乗トレースの項別微分)により、$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^k) = k(\boldsymbol{X}^{k-1})^\top$ が成り立つ。 これは $\text{tr}(\boldsymbol{X}^k) = \displaystyle\sum_i \lambda_i^k$ をスカラー的に微分しても、あるいは Taylor 級数の各項を直接微分しても同じ結果を与える。

項別微分を適用する:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(f(\boldsymbol{X})) &= \sum_{k=1}^{\infty} c_k \cdot k (\boldsymbol{X}^{k-1})^\top \notag \\ &= \left( \sum_{k=1}^{\infty} k\, c_k \boldsymbol{X}^{k-1} \right)^\top = f'(\boldsymbol{X})^\top \notag \end{align}

ここで $f'(x) = \displaystyle\sum_{k=1}^{\infty} k\, c_k x^{k-1}$ は $f$ のスカラー導関数であり、行列版 $f'(\boldsymbol{X})$ はこの級数に $\boldsymbol{X}$ を代入したものである。

$\boldsymbol{A}$ 付き版については、$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換のとき、同時対角化が可能である:$\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$, $\boldsymbol{A} = \boldsymbol{P}\boldsymbol{D}\boldsymbol{P}^{-1}$($\boldsymbol{\Lambda} = \text{diag}(\lambda_1, \ldots, \lambda_N)$, $\boldsymbol{D} = \text{diag}(d_1, \ldots, d_N)$)。このとき:

\begin{align} \text{tr}(\boldsymbol{A}f(\boldsymbol{X})) = \sum_{i=1}^{N} d_i f(\lambda_i) \notag \end{align}

各 $\lambda_i$ についてスカラー微分 $f'(\lambda_i)$ を取り、行列形式に再構成すると、上と同じ議論から $(\boldsymbol{A}f'(\boldsymbol{X}))^\top$ が得られる。$\square$

補足:この一般公式により、以下の 5.39〜5.58 の公式はすべて $f$ と $f'$ を代入するだけで得られる。

5.39 $\text{tr}(\tan(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tan(\boldsymbol{X})) = \sec^2(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\cos(\boldsymbol{X})$ が正則
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\tan(x) = \sec^2(x)$ である。 一般公式に $f(x) = \tan(x)$, $f'(x) = \sec^2(x)$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tan(\boldsymbol{X})) = \sec^2(\boldsymbol{X})^\top \qquad \square \notag \end{align}

ここで $\sec^2(\boldsymbol{X}) = \cos(\boldsymbol{X})^{-2}$ は、行列余弦の逆行列の二乗として定義される。

補足:ここで $\sec(\boldsymbol{X}) = \cos(\boldsymbol{X})^{-1}$ である。

5.40 $\text{tr}(\arcsin(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arcsin(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\|\boldsymbol{X}\| < 1$
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\arcsin(x) = \displaystyle\frac{1}{\sqrt{1-x^2}}$ である。 一般公式に $f(x) = \arcsin(x)$, $f'(x) = (1-x^2)^{-1/2}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arcsin(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2}$ は、行列 $\boldsymbol{I}-\boldsymbol{X}^2$ の逆行列平方根として定義される。

5.41 $\text{tr}(\arccos(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arccos(\boldsymbol{X})) = -((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\|\boldsymbol{X}\| < 1$
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\arccos(x) = -\displaystyle\frac{1}{\sqrt{1-x^2}}$ である。 一般公式に $f(x) = \arccos(x)$, $f'(x) = -(1-x^2)^{-1/2}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arccos(\boldsymbol{X})) = -((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag \end{align}

ここで行列版の $f'(\boldsymbol{X})$ は 5.40 と同じ $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2}$ であり、符号のみが異なる。

5.42 $\text{tr}(\arctan(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arctan(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\arctan(x) = \displaystyle\frac{1}{1+x^2}$ である。 一般公式に $f(x) = \arctan(x)$, $f'(x) = (1+x^2)^{-1}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arctan(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{I}+\boldsymbol{X}^2)^{-1}$ は行列 $\boldsymbol{I}+\boldsymbol{X}^2$ の逆行列である。

5.43 $\text{tr}(\sinh(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sinh(\boldsymbol{X})) = \cosh(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

行列双曲線正弦関数はTaylor級数で定義される:

\begin{eqnarray} \sinh(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{X}^{2k+1}}{(2k+1)!} = \boldsymbol{X} + \displaystyle\frac{\boldsymbol{X}^3}{3!} + \displaystyle\frac{\boldsymbol{X}^5}{5!} + \cdots \end{eqnarray}

5.37 と同様に項別微分を行う:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sinh(\boldsymbol{X})) &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(2k+1)}{(2k+1)!} (\boldsymbol{X}^{2k})^\top \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} (\boldsymbol{X}^{2k})^\top \\ &=& \cosh(\boldsymbol{X})^\top \end{eqnarray}

5.44 $\text{tr}(\cosh(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cosh(\boldsymbol{X})) = \sinh(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

行列双曲線余弦関数はTaylor級数で定義される:

\begin{eqnarray} \cosh(\boldsymbol{X}) = \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{X}^{2k}}{(2k)!} = \boldsymbol{I} + \displaystyle\frac{\boldsymbol{X}^2}{2!} + \displaystyle\frac{\boldsymbol{X}^4}{4!} + \cdots \end{eqnarray}

5.38 と同様に項別微分を行う:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cosh(\boldsymbol{X})) &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(2k)}{(2k)!} (\boldsymbol{X}^{2k-1})^\top \\ &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(2k-1)!} (\boldsymbol{X}^{2k-1})^\top \\ &=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{(2m+1)!} (\boldsymbol{X}^{2m+1})^\top \quad (m = k-1) \\ &=& \sinh(\boldsymbol{X})^\top \end{eqnarray}

5.45 $\text{tr}(\tanh(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tanh(\boldsymbol{X})) = \text{sech}^2(\boldsymbol{X})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\cosh(\boldsymbol{X})$ が正則
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\tanh(x) = \text{sech}^2(x)$ である。 一般公式に $f(x) = \tanh(x)$, $f'(x) = \text{sech}^2(x)$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tanh(\boldsymbol{X})) = \text{sech}^2(\boldsymbol{X})^\top \qquad \square \notag \end{align}

ここで $\text{sech}^2(\boldsymbol{X}) = \cosh(\boldsymbol{X})^{-2}$ は、行列双曲線余弦の逆行列の二乗として定義される。

補足:ここで $\text{sech}(\boldsymbol{X}) = \cosh(\boldsymbol{X})^{-1}$ である。

5.46 $\text{tr}(\text{arcsinh}(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arcsinh}(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\text{arcsinh}(x) = \displaystyle\frac{1}{\sqrt{1+x^2}}$ である。 一般公式に $f(x) = \text{arcsinh}(x)$, $f'(x) = (1+x^2)^{-1/2}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arcsinh}(\boldsymbol{X})) = ((\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2}$ は行列 $\boldsymbol{I}+\boldsymbol{X}^2$ の逆行列平方根である。

5.47 $\text{tr}(\text{arccosh}(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arccosh}(\boldsymbol{X})) = ((\boldsymbol{X}^2-\boldsymbol{I})^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、すべての固有値が $1$ より大きい
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\text{arccosh}(x) = \displaystyle\frac{1}{\sqrt{x^2-1}}$($x > 1$)である。 一般公式に $f(x) = \text{arccosh}(x)$, $f'(x) = (x^2-1)^{-1/2}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arccosh}(\boldsymbol{X})) = ((\boldsymbol{X}^2-\boldsymbol{I})^{-1/2})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{X}^2-\boldsymbol{I})^{-1/2}$ は行列 $\boldsymbol{X}^2-\boldsymbol{I}$ の逆行列平方根であり、すべての固有値が $1$ より大きいとき定義される。

5.48 $\text{tr}(\text{arctanh}(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arctanh}(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\|\boldsymbol{X}\| < 1$
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\text{arctanh}(x) = \displaystyle\frac{1}{1-x^2}$($|x| < 1$)である。 一般公式に $f(x) = \text{arctanh}(x)$, $f'(x) = (1-x^2)^{-1}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arctanh}(\boldsymbol{X})) = ((\boldsymbol{I}-\boldsymbol{X}^2)^{-1})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1}$ は行列 $\boldsymbol{I}-\boldsymbol{X}^2$ の逆行列である。

5.49 $\text{tr}(\boldsymbol{A}\sin(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sin(\boldsymbol{X})) = (\boldsymbol{A}\cos(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

5.37 と同様にTaylor級数を用いる:

\begin{eqnarray} \text{tr}(\boldsymbol{A}\sin(\boldsymbol{X})) &=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} \boldsymbol{X}^{2k+1} \right) \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k+1}) \end{eqnarray}

5.28 の公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^n) = n(\boldsymbol{A}\boldsymbol{X}^{n-1})^\top$($\boldsymbol{A}$ と $\boldsymbol{X}$ が可換のとき)を用いると:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sin(\boldsymbol{X})) &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k+1)!} (2k+1)(\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} (\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\ &=& (\boldsymbol{A}\cos(\boldsymbol{X}))^\top \end{eqnarray}

5.50 $\text{tr}(\boldsymbol{A}\exp(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\exp(\boldsymbol{X})) = (\boldsymbol{A}\exp(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

5.37 と同様にTaylor級数を用いる:

\begin{eqnarray} \text{tr}(\boldsymbol{A}\exp(\boldsymbol{X})) &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{k!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k) \end{eqnarray}

$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\exp(\boldsymbol{X})) &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{k}{k!} (\boldsymbol{A}\boldsymbol{X}^{k-1})^\top \\ &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(k-1)!} (\boldsymbol{A}\boldsymbol{X}^{k-1})^\top \\ &=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{m!} (\boldsymbol{A}\boldsymbol{X}^m)^\top \\ &=& (\boldsymbol{A}\exp(\boldsymbol{X}))^\top \end{eqnarray}
補足:この公式は、行列 $\boldsymbol{A}$ と $\boldsymbol{X}$ が可換($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$)の場合に成り立つ。 非可換の場合は、微分がより複雑になり、Fréchet微分の形式を用いる必要がある。

5.51 $\text{tr}(\boldsymbol{A}\cos(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cos(\boldsymbol{X})) = -(\boldsymbol{A}\sin(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

Taylor級数を用いる:

\begin{eqnarray} \text{tr}(\boldsymbol{A}\cos(\boldsymbol{X})) &=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \boldsymbol{X}^{2k} \right) \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k}) \end{eqnarray}

$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cos(\boldsymbol{X})) &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k)!} \cdot 2k \cdot (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\ &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{(-1)^k}{(2k-1)!} (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\ &=& -\displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{(-1)^m}{(2m+1)!} (\boldsymbol{A}\boldsymbol{X}^{2m+1})^\top \\ &=& -(\boldsymbol{A}\sin(\boldsymbol{X}))^\top \end{eqnarray}

5.52 $\text{tr}(\boldsymbol{A}\tan(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tan(\boldsymbol{X})) = (\boldsymbol{A}\sec^2(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)、$\cos(\boldsymbol{X})$ が正則
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\tan(x) = \sec^2(x)$ である。 一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \tan(x)$, $f'(x) = \sec^2(x)$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tan(\boldsymbol{X})) = (\boldsymbol{A}\sec^2(\boldsymbol{X}))^\top \qquad \square \notag \end{align}

ここで $\sec^2(\boldsymbol{X}) = \cos(\boldsymbol{X})^{-2}$ である。

5.53 $\text{tr}(\boldsymbol{A}\arcsin(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arcsin(\boldsymbol{X})) = (\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\|\boldsymbol{X}\| < 1$、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\arcsin(x) = \displaystyle\frac{1}{\sqrt{1-x^2}}$ である。 一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \arcsin(x)$, $f'(x) = (1-x^2)^{-1/2}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arcsin(\boldsymbol{X})) = (\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2}$ は行列 $\boldsymbol{I}-\boldsymbol{X}^2$ の逆行列平方根である。

5.54 $\text{tr}(\boldsymbol{A}\arccos(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arccos(\boldsymbol{X})) = -(\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\|\boldsymbol{X}\| < 1$、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\arccos(x) = -\displaystyle\frac{1}{\sqrt{1-x^2}}$ である。 一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \arccos(x)$, $f'(x) = -(1-x^2)^{-1/2}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arccos(\boldsymbol{X})) = -(\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top \qquad \square \notag \end{align}

ここで行列版の $f'(\boldsymbol{X})$ は 5.53 と符号のみが異なる。

5.55 $\text{tr}(\boldsymbol{A}\arctan(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arctan(\boldsymbol{X})) = (\boldsymbol{A}(\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

スカラーの場合 $\displaystyle\frac{d}{dx}\arctan(x) = \displaystyle\frac{1}{1+x^2}$ である。 一般公式の $\boldsymbol{A}$ 付き版($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$ が必要)に $f(x) = \arctan(x)$, $f'(x) = (1+x^2)^{-1}$ を代入すると:

\begin{align} \frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arctan(\boldsymbol{X})) = (\boldsymbol{A}(\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top \qquad \square \notag \end{align}

ここで $(\boldsymbol{I}+\boldsymbol{X}^2)^{-1}$ は行列 $\boldsymbol{I}+\boldsymbol{X}^2$ の逆行列である。

5.56 $\text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X})) = (\boldsymbol{A}\cosh(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

Taylor級数を用いる:

\begin{eqnarray} \text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X})) &=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k+1)!} \boldsymbol{X}^{2k+1} \right) \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k+1)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k+1}) \end{eqnarray}

$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X})) &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k+1)!} \cdot (2k+1) \cdot (\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} (\boldsymbol{A}\boldsymbol{X}^{2k})^\top \\ &=& (\boldsymbol{A}\cosh(\boldsymbol{X}))^\top \end{eqnarray}

5.57 $\text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X})) = (\boldsymbol{A}\sinh(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)
証明

Taylor級数を用いる:

\begin{eqnarray} \text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X})) &=& \text{tr}\left( \boldsymbol{A} \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} \boldsymbol{X}^{2k} \right) \\ &=& \displaystyle\sum_{k=0}^{\infty} \displaystyle\frac{1}{(2k)!} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{2k}) \end{eqnarray}

$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換の場合、項別微分を行うと:

\begin{eqnarray} \displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X})) &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(2k)!} \cdot 2k \cdot (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\ &=& \displaystyle\sum_{k=1}^{\infty} \displaystyle\frac{1}{(2k-1)!} (\boldsymbol{A}\boldsymbol{X}^{2k-1})^\top \\ &=& \displaystyle\sum_{m=0}^{\infty} \displaystyle\frac{1}{(2m+1)!} (\boldsymbol{A}\boldsymbol{X}^{2m+1})^\top \\ &=& (\boldsymbol{A}\sinh(\boldsymbol{X}))^\top \end{eqnarray}

5.58 $\text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X}))$ の微分

公式:$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X})) = (\boldsymbol{A}\text{sech}^2(\boldsymbol{X}))^\top$
条件:$\boldsymbol{X}$ は $N \times N$ 正方行列、$\boldsymbol{A}$ は定数行列、$\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$(可換)、$\cosh(\boldsymbol{X})$ が正則
証明

行列の双曲線正接は、べき級数で定義される:

$$\tanh(\boldsymbol{X}) = \boldsymbol{X} - \frac{1}{3}\boldsymbol{X}^3 + \frac{2}{15}\boldsymbol{X}^5 - \cdots$$

より正確には $\tanh(\boldsymbol{X}) = \sinh(\boldsymbol{X})\cosh(\boldsymbol{X})^{-1}$ であり、$\cosh(\boldsymbol{X})$ が正則であるとき定義される。

$\boldsymbol{X}$ が対角化可能であるとする。$\boldsymbol{X} = \boldsymbol{P}\boldsymbol{\Lambda}\boldsymbol{P}^{-1}$($\boldsymbol{\Lambda} = \text{diag}(\lambda_1, \ldots, \lambda_N)$)とおくと、行列関数は固有値に作用する:

$$\tanh(\boldsymbol{X}) = \boldsymbol{P}\,\text{diag}(\tanh(\lambda_1), \ldots, \tanh(\lambda_N))\,\boldsymbol{P}^{-1}$$

トレースの性質 $\text{tr}(\boldsymbol{A}\boldsymbol{P}\boldsymbol{D}\boldsymbol{P}^{-1}) = \text{tr}(\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{D})$ より、$\boldsymbol{A}$ と $\boldsymbol{X}$ が可換($\boldsymbol{A}\boldsymbol{X} = \boldsymbol{X}\boldsymbol{A}$)のとき、$\boldsymbol{A}$ は $\boldsymbol{P}$ と同じ固有ベクトルで対角化できる(同時対角化)。 $\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P} = \text{diag}(a_1, \ldots, a_N)$ とおくと:

$$\text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X})) = \sum_{i=1}^{N} a_i \tanh(\lambda_i)$$

$\boldsymbol{X}$ の $(p,q)$ 成分 $X_{pq}$ での微分を考える。$\boldsymbol{A}$ と $\boldsymbol{X}$ が同時対角化されるとき、$\lambda_i$ は $\boldsymbol{X}$ の固有値であり、$\displaystyle\frac{\partial \lambda_i}{\partial X_{pq}}$ はスカラー関数の微分に帰着する。 スカラーの場合 $\displaystyle\frac{d}{d\lambda}\tanh(\lambda) = \text{sech}^2(\lambda)$ であるから、連鎖律より:

$$\frac{\partial}{\partial X_{pq}} \sum_{i} a_i \tanh(\lambda_i) = \sum_{i} a_i\,\text{sech}^2(\lambda_i) \cdot \frac{\partial \lambda_i}{\partial X_{pq}}$$

$\text{sech}^2(\boldsymbol{X}) = \boldsymbol{P}\,\text{diag}(\text{sech}^2(\lambda_1), \ldots, \text{sech}^2(\lambda_N))\,\boldsymbol{P}^{-1}$ であり、同時対角化の構造から、上の和は行列の積 $\boldsymbol{A}\,\text{sech}^2(\boldsymbol{X})$ の成分として再構成できる。 5.34 の一般公式 $\displaystyle\frac{\partial}{\partial \boldsymbol{X}}\text{tr}(\boldsymbol{A}f(\boldsymbol{X})) = (\boldsymbol{A}f'(\boldsymbol{X}))^\top$($\boldsymbol{A}$ と $\boldsymbol{X}$ が可換のとき)を $f = \tanh$、$f' = \text{sech}^2$ に適用すると:

$$\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X})) = (\boldsymbol{A}\,\text{sech}^2(\boldsymbol{X}))^\top \qquad \square$$

参考文献

  • Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
  • Magnus, J. R., & Neudecker, H. (1999). Matrix Differential Calculus with Applications in Statistics and Econometrics (Revised ed.). Wiley.
  • Matrix calculus - Wikipedia