行列微分の公式集

Matrix Calculus Formulas

本文は、機械学習、統計学、最適化理論、制御工学、信号処理、計量経済学などで必要となる多変数関数の微分(ベクトル微分、行列微分)に関する公式をまとめた資料である。

1. 概要

1.1 記法と定義

多変数関数の微分では、結果を行列やベクトルとして表現する際に「分母レイアウト」と「分子レイアウト」の2つの記法がある。 本資料では分母レイアウト(denominator layout)を採用する。 2つの記法の違いや分野別のレイアウト採用傾向については行列微分の記法ガイドを参照。

分母レイアウトでは、微分結果は「偏微分の分母に現れる変数の次元が行、分子に現れる変数の次元が列」に対応する行列として定義される。 この記法は機械学習・統計学・最適化理論・計量経済学などで多用され、勾配ベクトルが列ベクトルとして直接的な形になるなどの利点がある。

分子レイアウトとの関係
分野によっては分子レイアウト(numerator layout)が用いられる。 分子レイアウトの結果は本資料の結果と転置関係にある。 詳細は付録Aを参照。
記号の凡例
  • スカラ: $a, b, c, \ldots$ または $x, y, z, u, v, w$(小文字イタリック)
  • ベクトル: $\boldsymbol{a}, \boldsymbol{b}, \boldsymbol{c}, \ldots$ または $\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z}$(小文字ボールド)
  • 行列: $\boldsymbol{A}, \boldsymbol{B}, \boldsymbol{C}, \ldots$ または $\boldsymbol{X}, \boldsymbol{Y}, \boldsymbol{Z}$(大文字ボールド)
  • 対数関数: $\log$ は自然対数(底 $e$)、底が $a$ の対数は $\log_a$
  • 単一成分行列: $\boldsymbol{J}^{ij}$ は $(i,j)$ 成分のみが 1、他は全て 0 の行列
  • 勾配: $\nabla f$ または $\displaystyle\frac{\partial f}{\partial \boldsymbol{x}}$(スカラ $f$ のベクトル $\boldsymbol{x}$ による微分、列ベクトル)
  • Jacobi行列: $\displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}$(ベクトル $\boldsymbol{y}$ のベクトル $\boldsymbol{x}$ による微分、行列)
  • Hesse行列: $\displaystyle\frac{\partial^2 f}{\partial \boldsymbol{x} \partial \boldsymbol{x}^\top}$ または $\boldsymbol{H}$(スカラ $f$ の2階微分、対称行列)
  • 添字: 0 始まり($x_0, x_1, \ldots, x_{N-1}$ のように $i = 0, \ldots, N-1$)

1.1.1 スカラをベクトルで微分

スカラ $y$ を $N$ 次元ベクトル $\boldsymbol{x}$ で微分した結果は列ベクトルになる。

\begin{eqnarray} \displaystyle\frac{\partial y}{\partial \boldsymbol{x}} &\triangleq& \boldsymbol{\nabla} y = \left( \begin{array}{c} \displaystyle\frac{\partial}{\partial x_0} \\ \displaystyle\frac{\partial}{\partial x_1} \\ \displaystyle\frac{\partial}{\partial x_2} \\ \vdots \\ \displaystyle\frac{\partial}{\partial x_{N-1}} \end{array} \right) y = \left( \begin{array}{c} \displaystyle\frac{\partial y}{\partial x_0} \\ \displaystyle\frac{\partial y}{\partial x_1} \\ \displaystyle\frac{\partial y}{\partial x_2} \\ \vdots \\ \displaystyle\frac{\partial y}{\partial x_{N-1}} \end{array} \right) \end{eqnarray}
勾配ベクトルの形状
分母レイアウトでは、スカラー値関数をベクトルで微分した結果は列ベクトルとして定義される。 これは最適化において、勾配ベクトルをそのまま更新方向として用いるためである。

1.1.2 ベクトルをスカラで微分

分母レイアウトでは、ベクトル $\boldsymbol{y}$(列ベクトル)をスカラ $x$ で微分した結果は行ベクトルになる。 これは「分子の添字が列、分母の添字が行を決める」という規則による。 分子 $\boldsymbol{y}$ の添字 $j$ が列方向に並び、分母 $x$ には添字がないため、結果は $1 \times M$ の行ベクトルになる。

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{y}}{\partial x} &\triangleq& \left( \begin{array}{ccccc} \displaystyle\frac{\partial y_0}{\partial x} & \displaystyle\frac{\partial y_1}{\partial x} & \displaystyle\frac{\partial y_2}{\partial x} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x} \end{array} \right) \end{eqnarray}

ここで $\boldsymbol{y} = (y_0, y_1, \ldots, y_{M-1})^\top$ は $M$ 次元列ベクトルである。 分母レイアウトの規則「分母の次元 × 分子の次元」に従い、$\partial \boldsymbol{y}/\partial x \in \mathbb{R}^{1 \times M}$($x$ の次元 1 × $\boldsymbol{y}$ の次元 $M$)となる。

1.1.3 ベクトルをベクトルで微分

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} &\triangleq& \boldsymbol{\nabla} \boldsymbol{y}^\top \\ &=& \left( \begin{array}{c} \displaystyle\frac{\partial}{\partial x_0} \\ \displaystyle\frac{\partial}{\partial x_1} \\ \displaystyle\frac{\partial}{\partial x_2} \\ \vdots \\ \displaystyle\frac{\partial}{\partial x_{N-1}} \end{array} \right) \left( \begin{array}{ccccc} y_0 &y_1 &y_2 &\cdots &y_{M-1} \end{array} \right) \\ &=& \left( \begin{array}{ccccc} \displaystyle\frac{\partial y_0}{\partial x_0} & \displaystyle\frac{\partial y_1}{\partial x_0} & \displaystyle\frac{\partial y_2}{\partial x_0} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_0}\\ \displaystyle\frac{\partial y_0}{\partial x_1} & \displaystyle\frac{\partial y_1}{\partial x_1} & \displaystyle\frac{\partial y_2}{\partial x_1} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_1}\\ \displaystyle\frac{\partial y_0}{\partial x_2} & \displaystyle\frac{\partial y_1}{\partial x_2} & \displaystyle\frac{\partial y_2}{\partial x_2} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_2}\\ \vdots \\ \displaystyle\frac{\partial y_0}{\partial x_{N-1}} & \displaystyle\frac{\partial y_1}{\partial x_{N-1}} & \displaystyle\frac{\partial y_2}{\partial x_{N-1}} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_{N-1}} \end{array} \right) \label{dvfdvx} \end{eqnarray}

これは $N \times M$ 行列であり、$(i, j)$ 成分は $\displaystyle\frac{\partial y_j}{\partial x_i}$ である。

1.1.4 スカラを行列で微分

スカラ関数 $f(\boldsymbol{X})$ を $m \times n$ 行列 $\boldsymbol{X}$ で微分した結果は、 $(i,j)$ 成分が $\displaystyle\frac{\partial f}{\partial X_{ij}}$ である $m \times n$ 行列になる。

\begin{eqnarray} \displaystyle\frac{\partial f}{\partial \boldsymbol{X}} &\triangleq& \left( \begin{array}{cccc} \displaystyle\frac{\partial f}{\partial X_{00}} & \displaystyle\frac{\partial f}{\partial X_{01}} & \cdots & \displaystyle\frac{\partial f}{\partial X_{0,n-1}} \\ \displaystyle\frac{\partial f}{\partial X_{10}} & \displaystyle\frac{\partial f}{\partial X_{11}} & \cdots & \displaystyle\frac{\partial f}{\partial X_{1,n-1}} \\ \vdots & \vdots & \ddots & \vdots \\ \displaystyle\frac{\partial f}{\partial X_{m-1,0}} & \displaystyle\frac{\partial f}{\partial X_{m-1,1}} & \cdots & \displaystyle\frac{\partial f}{\partial X_{m-1,n-1}} \end{array} \right) \end{eqnarray}

この定義により、勾配行列 $\displaystyle\frac{\partial f}{\partial \boldsymbol{X}}$ は元の行列 $\boldsymbol{X}$ と同じサイズになる。 これは最急降下法などの最適化アルゴリズムで $\boldsymbol{X} \leftarrow \boldsymbol{X} - \alpha \displaystyle\frac{\partial f}{\partial \boldsymbol{X}}$ という更新式を自然に書けるため便利である。

1.2 Jacobi行列と連鎖律

$M$ 次元ベクトル値関数 $\boldsymbol{y}(\boldsymbol{x})$ の $N$ 次元ベクトル $\boldsymbol{x}$ による微分を考える。

\begin{eqnarray} \boldsymbol{y} = \begin{pmatrix} y_0 \\ y_1 \\ \vdots \\ y_{M-1} \end{pmatrix}, \quad \boldsymbol{x} = \begin{pmatrix} x_0 \\ x_1 \\ \vdots \\ x_{N-1} \end{pmatrix} \end{eqnarray}

1.2.1 Jacobi行列の定義

分母レイアウト記法では、Jacobi行列は $N \times M$ 行列となる:

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} = \boldsymbol{J}^\top = \begin{pmatrix} \displaystyle\frac{\partial y_0}{\partial x_0} & \displaystyle\frac{\partial y_1}{\partial x_0} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_0} \\[1em] \displaystyle\frac{\partial y_0}{\partial x_1} & \displaystyle\frac{\partial y_1}{\partial x_1} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_1} \\[1em] \vdots & \vdots & \ddots & \vdots \\[0.5em] \displaystyle\frac{\partial y_0}{\partial x_{N-1}} & \displaystyle\frac{\partial y_1}{\partial x_{N-1}} & \cdots & \displaystyle\frac{\partial y_{M-1}}{\partial x_{N-1}} \end{pmatrix} \end{eqnarray}

すなわち $(i, j)$ 成分は $\displaystyle\frac{\partial y_j}{\partial x_i}$ である。 これは「分母」である $\boldsymbol{x}$ の添字が行を決め、「分子」である $\boldsymbol{y}$ の添字が列を決めることを意味する。

Jacobi行列のサイズについて
分母レイアウトでは、ベクトル値関数 $\boldsymbol{y}: \mathbb{R}^N \to \mathbb{R}^M$ に対するJacobi行列は $$\displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} \in \mathbb{R}^{N \times M}$$ となる(「分母の次元 × 分子の次元」)。分子レイアウトで定義されるJacobi行列 $\in \mathbb{R}^{M \times N}$ とは転置関係にある。

1.2.2 スカラ微分との関係

$\boldsymbol{y}$ が 1 次元(スカラ $y$)の場合、Jacobi行列は $N \times 1$ 列ベクトルになり、勾配ベクトルに一致する:

\begin{eqnarray} \displaystyle\frac{\partial y}{\partial \boldsymbol{x}} = \nabla y = \left( \begin{array}{c} \displaystyle\frac{\partial y}{\partial x_0} \\ \displaystyle\frac{\partial y}{\partial x_1} \\ \vdots \\ \displaystyle\frac{\partial y}{\partial x_{N-1}} \end{array} \right) \end{eqnarray}

1.2.3 連鎖律

合成関数 $\boldsymbol{z}(\boldsymbol{y}(\boldsymbol{x}))$ の微分を考える。 ここで $\boldsymbol{x}$ は $N$ 次元、$\boldsymbol{y}$ は $M$ 次元、$\boldsymbol{z}$ は $L$ 次元とする。

1.2.3.1 ベクトル連鎖律

$\boldsymbol{z}$ の第 $l$ 成分 $z_l$ を $\boldsymbol{x}$ の第 $i$ 成分 $x_i$ で微分する。 通常の多変数連鎖律により:

\begin{eqnarray} \displaystyle\frac{\partial z_l}{\partial x_i} &=& \displaystyle\sum_{m=0}^{M-1} \displaystyle\frac{\partial z_l}{\partial y_m} \displaystyle\frac{\partial y_m}{\partial x_i} \end{eqnarray}

分母レイアウトでは $\displaystyle\left(\displaystyle\frac{\partial \boldsymbol{z}}{\partial \boldsymbol{x}}\right)_{il} = \displaystyle\frac{\partial z_l}{\partial x_i}$ なので:

\begin{eqnarray} \left(\displaystyle\frac{\partial \boldsymbol{z}}{\partial \boldsymbol{x}}\right)_{il} &=& \displaystyle\sum_{m=0}^{M-1} \displaystyle\frac{\partial y_m}{\partial x_i} \displaystyle\frac{\partial z_l}{\partial y_m} \\ &=& \displaystyle\sum_{m=0}^{M-1} \left(\displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}\right)_{im} \left(\displaystyle\frac{\partial \boldsymbol{z}}{\partial \boldsymbol{y}}\right)_{ml} \end{eqnarray}

これは行列の積の定義そのものなので:

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{z}}{\partial \boldsymbol{x}} &=& \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} \displaystyle\frac{\partial \boldsymbol{z}}{\partial \boldsymbol{y}} \end{eqnarray}

サイズは $(N \times M) \cdot (M \times L) = N \times L$ となり、期待通りである。

連鎖律における積の順序
分母レイアウトでは、Jacobi行列の行と列はそれぞれ分母・分子の次元に対応する。 そのため連鎖律における行列積の順序は、次元整合性から一意に定まる。 順序を入れ替えると積が定義されない点に注意すること。
1.2.3.2 スカラを出力とする場合

$z$ がスカラ($L = 1$)の場合、$\displaystyle\frac{\partial z}{\partial \boldsymbol{y}}$ は $M \times 1$ の列ベクトル(勾配)となる:

\begin{eqnarray} \displaystyle\frac{\partial z}{\partial \boldsymbol{x}} &=& \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} \displaystyle\frac{\partial z}{\partial \boldsymbol{y}} \end{eqnarray}

サイズは $(N \times M) \cdot (M \times 1) = N \times 1$ で、$\boldsymbol{x}$ に関する勾配ベクトルが得られる。

1.2.3.3 要素ごとの関数

$f$ がスカラ関数で、$\boldsymbol{u}$ の各要素に $f$ を適用した $\boldsymbol{y} = (f(u_0), f(u_1), \ldots, f(u_{M-1}))^\top$ を考える。 このとき $y_j = f(u_j)$ なので:

\begin{eqnarray} \displaystyle\frac{\partial y_j}{\partial u_k} &=& \begin{cases} f'(u_j), & j = k \\ 0, & j \neq k \end{cases} \end{eqnarray}

したがって:

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{u}} &=& \text{diag}(f'(u_0), f'(u_1), \ldots, f'(u_{M-1})) \end{eqnarray}

連鎖律と組み合わせると:

\begin{eqnarray} \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} &=& \displaystyle\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}} \text{diag}(f'(u_0), f'(u_1), \ldots, f'(u_{M-1})) \end{eqnarray}

2. スカラをベクトルで微分

スカラ関数 $f$ をベクトル $\boldsymbol{x}$ で微分する公式。$a$ はスカラ定数、$\boldsymbol{a}, \boldsymbol{b}$ は定数ベクトル、$\boldsymbol{A}$ は定数行列。 証明は証明集 第2章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial a}{\partial \boldsymbol{x}}$ $\boldsymbol{0}$ $a$ は定数 2.1
$\displaystyle\frac{\partial (\boldsymbol{a}^\top \boldsymbol{x})}{\partial \boldsymbol{x}}$ $\boldsymbol{a}$ 2.2
$\displaystyle\frac{\partial (\boldsymbol{x}^\top \boldsymbol{a})}{\partial \boldsymbol{x}}$ $\boldsymbol{a}$ 2.2
$\displaystyle\frac{\partial (\boldsymbol{x}^\top \boldsymbol{x})}{\partial \boldsymbol{x}}$ $2\boldsymbol{x}$ 2.3
$\displaystyle\frac{\partial (\boldsymbol{b}^\top \boldsymbol{A} \boldsymbol{x})}{\partial \boldsymbol{x}}$ $\boldsymbol{A}^\top \boldsymbol{b}$ バイリニア形式 2.4
$\displaystyle\frac{\partial (\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x})}{\partial \boldsymbol{x}}$ $(\boldsymbol{A} + \boldsymbol{A}^\top) \boldsymbol{x}$ 二次形式 2.5
$\displaystyle\frac{\partial (\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x})}{\partial \boldsymbol{x}}$ $2\boldsymbol{A} \boldsymbol{x}$ $\boldsymbol{A}$ が対称行列 2.5
$\displaystyle\frac{\partial \|\boldsymbol{x} - \boldsymbol{a}\|}{\partial \boldsymbol{x}}$ $\displaystyle\frac{\boldsymbol{x} - \boldsymbol{a}}{\|\boldsymbol{x} - \boldsymbol{a}\|}$ 2-ノルム 2.6
$\displaystyle\frac{\partial \|\boldsymbol{x} - \boldsymbol{a}\|^2}{\partial \boldsymbol{x}}$ $2(\boldsymbol{x} - \boldsymbol{a})$ 2-ノルムの2乗 2.7
$\displaystyle\frac{\partial (uv)}{\partial \boldsymbol{x}}$ $\displaystyle u \displaystyle\frac{\partial v}{\partial \boldsymbol{x}} + v \displaystyle\frac{\partial u}{\partial \boldsymbol{x}}$ 積の法則 2.9
$\displaystyle\frac{\partial (\boldsymbol{u}^\top \boldsymbol{v})}{\partial \boldsymbol{x}}$ $\displaystyle\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}} \boldsymbol{v} + \displaystyle\frac{\partial \boldsymbol{v}}{\partial \boldsymbol{x}} \boldsymbol{u}$ 内積の法則 2.8
$\displaystyle\frac{\partial (f + g)}{\partial \boldsymbol{x}}$ $\displaystyle\frac{\partial f}{\partial \boldsymbol{x}} + \displaystyle\frac{\partial g}{\partial \boldsymbol{x}}$ 和の法則 2.10
$\displaystyle\frac{\partial (cf)}{\partial \boldsymbol{x}}$ $\displaystyle c \displaystyle\frac{\partial f}{\partial \boldsymbol{x}}$ スカラ倍 2.11
$\displaystyle\frac{\partial (u/v)}{\partial \boldsymbol{x}}$ $\displaystyle\frac{1}{v^2}\left( v \displaystyle\frac{\partial u}{\partial \boldsymbol{x}} - u \displaystyle\frac{\partial v}{\partial \boldsymbol{x}} \right)$ 商の法則 2.12
$\displaystyle\frac{\partial (1/u)}{\partial \boldsymbol{x}}$ $\displaystyle -\displaystyle\frac{1}{u^2} \displaystyle\frac{\partial u}{\partial \boldsymbol{x}}$ 逆数 2.13
$\displaystyle\frac{\partial u^n}{\partial \boldsymbol{x}}$ $\displaystyle n u^{n-1} \displaystyle\frac{\partial u}{\partial \boldsymbol{x}}$ べき乗 2.14
$\displaystyle\frac{\partial e^u}{\partial \boldsymbol{x}}$ $\displaystyle e^u \displaystyle\frac{\partial u}{\partial \boldsymbol{x}}$ 指数関数 2.15
$\displaystyle\frac{\partial \log u}{\partial \boldsymbol{x}}$ $\displaystyle \displaystyle\frac{1}{u} \displaystyle\frac{\partial u}{\partial \boldsymbol{x}}$ 対数関数 2.16

2.1 Word2Vec / GloVe(単語埋め込み)

自然言語処理における単語埋め込みの学習で使用される目的関数の勾配。 スカラをベクトルで微分する典型的な応用例。

公式 結果 備考 証明
Skip-gram(負例サンプリング)
$\displaystyle\frac{\partial L}{\partial \boldsymbol{w}_c}$
$(\sigma(\boldsymbol{w}_c^\top \boldsymbol{w}_o) - 1)\boldsymbol{w}_o + \sum_{k} \sigma(\boldsymbol{w}_c^\top \boldsymbol{w}_k)\boldsymbol{w}_k$ $\boldsymbol{w}_c$: 中心語
$\boldsymbol{w}_o$: 文脈語
$\boldsymbol{w}_k$: 負例
2.17
GloVe
$\displaystyle\frac{\partial J}{\partial \boldsymbol{w}_i}$
$\sum_{j} f(X_{ij})(\boldsymbol{w}_i^\top \tilde{\boldsymbol{w}}_j + b_i + \tilde{b}_j - \log X_{ij})\tilde{\boldsymbol{w}}_j$ $X_{ij}$: 共起行列
$f$: 重み関数
2.18

2.2 分子力場のポテンシャル勾配

分子動力学シミュレーションで使用されるポテンシャルエネルギーの勾配。 力 $\boldsymbol{F} = -\nabla U$ は運動方程式の右辺となる。

公式 結果 備考 証明
$\displaystyle\frac{\partial U_{LJ}}{\partial \boldsymbol{r}}$
(Lennard-Jones)
$\displaystyle 24\varepsilon\left(\displaystyle\frac{\sigma^6}{r^7} - 2\displaystyle\frac{\sigma^{12}}{r^{13}}\right)\hat{\boldsymbol{r}}$ $U_{LJ} = 4\varepsilon\left[\left(\displaystyle\frac{\sigma}{r}\right)^{12} - \left(\displaystyle\frac{\sigma}{r}\right)^6\right]$ 2.19
$\displaystyle\frac{\partial U_{\text{bond}}}{\partial \boldsymbol{r}}$
(調和振動子)
$k_b(r - r_0)\hat{\boldsymbol{r}}$ $U_{\text{bond}} = \displaystyle\frac{1}{2}k_b(r-r_0)^2$ 2.20
$\displaystyle\frac{\partial U_{\text{Coulomb}}}{\partial \boldsymbol{r}}$
(Coulomb)
$\displaystyle\frac{q_1 q_2}{4\pi\varepsilon_0 r^2}\hat{\boldsymbol{r}}$ $U_{\text{Coulomb}} = \displaystyle\frac{q_1 q_2}{4\pi\varepsilon_0 r}$ 2.21
$\displaystyle\frac{\partial U_{\text{angle}}}{\partial \theta}$
(結合角)
$k_\theta(\theta - \theta_0)$ $U_{\text{angle}} = \displaystyle\frac{1}{2}k_\theta(\theta-\theta_0)^2$ 2.22

ここで $r = \|\boldsymbol{r}\|$ は原子間距離、$\hat{\boldsymbol{r}} = \boldsymbol{r}/r$ は単位ベクトル、 $\varepsilon$, $\sigma$ はLennard-Jonesパラメータ、$k_b$, $k_\theta$ は力定数である。

3. ベクトルをベクトルで微分

ベクトル関数 $\boldsymbol{y}$ をベクトル $\boldsymbol{x}$ で微分する公式。結果はJacobi行列($N \times M$)となる。 証明は証明集 第3章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{x}}$ $\boldsymbol{I}$ 恒等変換 3.1
$\displaystyle\frac{\partial \boldsymbol{a}}{\partial \boldsymbol{x}}$ $\boldsymbol{O}$ 定数ベクトル 3.3
$\displaystyle\frac{\partial (\boldsymbol{A}\boldsymbol{x})}{\partial \boldsymbol{x}}$ $\boldsymbol{A}^\top$ 線形変換 3.2
$\displaystyle\frac{\partial (\boldsymbol{A}\boldsymbol{x} + \boldsymbol{b})}{\partial \boldsymbol{x}}$ $\boldsymbol{A}^\top$ アフィン変換 3.4
$\displaystyle\frac{\partial (\boldsymbol{x}^\top \boldsymbol{A})}{\partial \boldsymbol{x}}$ $\boldsymbol{A}$ 転置線形変換 3.5
$\displaystyle\frac{\partial (\boldsymbol{u} + \boldsymbol{v})}{\partial \boldsymbol{x}}$ $\displaystyle\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}} + \displaystyle\frac{\partial \boldsymbol{v}}{\partial \boldsymbol{x}}$ 和の法則 3.6
$\displaystyle\frac{\partial (v \boldsymbol{u})}{\partial \boldsymbol{x}}$ $\displaystyle v \displaystyle\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}} + \displaystyle\frac{\partial v}{\partial \boldsymbol{x}} \boldsymbol{u}^\top$ 積の法則(スカラ×ベクトル) 3.7
$\displaystyle\frac{\partial (\boldsymbol{x} \odot \boldsymbol{x})}{\partial \boldsymbol{x}}$ $2\text{diag}(\boldsymbol{x})$ 要素ごとの2乗 3.8
$\displaystyle\frac{\partial (\boldsymbol{x} \odot \boldsymbol{y})}{\partial \boldsymbol{z}}$ $\displaystyle\text{diag}(\boldsymbol{x}) \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{z}} + \text{diag}(\boldsymbol{y}) \displaystyle\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{z}}$ Hadamard積(要素ごとの積)
$\boldsymbol{x} = \boldsymbol{x}(\boldsymbol{z}),\ \boldsymbol{y} = \boldsymbol{y}(\boldsymbol{z})$
3.12
$\displaystyle\frac{d(\boldsymbol{x} \times \boldsymbol{y})}{dt}$ $\displaystyle\frac{d\boldsymbol{x}}{dt} \times \boldsymbol{y} + \boldsymbol{x} \times \displaystyle\frac{d\boldsymbol{y}}{dt}$ 外積の時間微分 3.9
$\displaystyle\frac{d\|\boldsymbol{x}(t)\|}{dt}$ $\displaystyle\frac{\boldsymbol{x}}{\|\boldsymbol{x}\|} \cdot \displaystyle\frac{d\boldsymbol{x}}{dt}$ 2-ノルムの時間微分 3.10
$\displaystyle\frac{\partial}{\partial \boldsymbol{u}} \begin{pmatrix} f(u_0) \\ \vdots \\ f(u_{N-1}) \end{pmatrix}$ $\text{diag}\begin{pmatrix} f'(u_0) \\ \vdots \\ f'(u_{N-1}) \end{pmatrix}$ 要素ごとの関数適用 3.11
$\displaystyle\frac{\partial \text{softmax}(\boldsymbol{x})}{\partial \boldsymbol{x}}$ $\text{diag}(\boldsymbol{p}) - \boldsymbol{p}\boldsymbol{p}^\top$ softmax関数 ($\boldsymbol{p} = \text{softmax}(\boldsymbol{x})$) 3.13

3.1 ホモグラフィ行列の微分

2次元射影変換(ホモグラフィ)$\boldsymbol{H} \in \mathbb{R}^{3 \times 3}$ による点の変換の勾配。 コンピュータビジョンの画像レジストレーションで使用。 ベクトルをベクトルで微分する典型的な応用例。

公式 結果 備考 証明
$\displaystyle\frac{\partial \boldsymbol{p}'}{\partial \boldsymbol{H}}$
($\boldsymbol{p}' = \pi(\boldsymbol{H}\boldsymbol{p})$)
$\displaystyle\frac{1}{w'}\begin{pmatrix} \boldsymbol{p}^\top & \boldsymbol{0}^\top & -x'\boldsymbol{p}^\top \\ \boldsymbol{0}^\top & \boldsymbol{p}^\top & -y'\boldsymbol{p}^\top \end{pmatrix}$ $\pi$: 正規化関数
$w' = \boldsymbol{h}_3^\top \boldsymbol{p}$
3.14

3.2 状態遷移行列(軌道力学)

軌道力学における状態遷移行列(STM: State Transition Matrix)$\boldsymbol{\Phi}(t, t_0)$ の微分。 宇宙機の軌道決定、軌道伝播、軌道最適化で使用。

公式 結果 備考 証明
$\boldsymbol{\Phi}(t, t_0) = \displaystyle\frac{\partial \boldsymbol{X}(t)}{\partial \boldsymbol{X}(t_0)}$ 状態遷移行列の定義 $\boldsymbol{X} = (\boldsymbol{r}, \boldsymbol{v})^\top \in \mathbb{R}^6$
位置・速度の状態ベクトル
$\displaystyle\frac{d\boldsymbol{\Phi}}{dt}$ $\boldsymbol{A}(t)\boldsymbol{\Phi}(t, t_0)$ 変分方程式 3.15
$\boldsymbol{A}(t)$
(ヤコビアン行列)
$\begin{pmatrix} \boldsymbol{O}_{3\times3} & \boldsymbol{I}_{3\times3} \\ \displaystyle\frac{\partial \boldsymbol{a}}{\partial \boldsymbol{r}} & \boldsymbol{O}_{3\times3} \end{pmatrix}$ $\boldsymbol{a}$: 加速度ベクトル 3.16
$\displaystyle\frac{\partial \boldsymbol{a}}{\partial \boldsymbol{r}}$
(二体問題)
$\displaystyle\frac{\mu}{r^3}\left(3\displaystyle\frac{\boldsymbol{r}\boldsymbol{r}^\top}{r^2} - \boldsymbol{I}\right)$ $\mu = GM$, $r = \|\boldsymbol{r}\|$ 3.17
$\boldsymbol{\Phi}(t_0, t_0)$ $\boldsymbol{I}_{6\times6}$ 初期条件

ここで $\boldsymbol{r}$ は位置ベクトル、$\boldsymbol{v}$ は速度ベクトル、$\boldsymbol{a}$ は加速度ベクトル、 $\mu$ は重力パラメータ($G$: 重力定数、$M$: 中心天体の質量)である。 状態遷移行列は軌道摂動の感度解析、ランベルト問題、軌道収束計算に不可欠である。

3.3 天体位置天文学の座標変換ヤコビアン

天体位置天文学(astrometry)における座標変換のヤコビアン。 赤道座標系(ICRS)と銀河座標系間の変換、固有運動・視差の伝播に使用。 Gaia衛星などの高精度位置天文学で重要。

公式 結果 備考 証明
$\boldsymbol{G} = \displaystyle\frac{\partial(l, b)}{\partial(\alpha, \delta)}$ $[\boldsymbol{p}_{\text{Gal}}\ \boldsymbol{q}_{\text{Gal}}]^\top \boldsymbol{A}_G [\boldsymbol{p}_{\text{ICRS}}\ \boldsymbol{q}_{\text{ICRS}}]$ ICRS→銀河座標のヤコビアン 3.18
$\boldsymbol{p}, \boldsymbol{q}$
(接平面基底)
$\boldsymbol{p} = \begin{pmatrix} -\sin\alpha \\ \cos\alpha \\ 0 \end{pmatrix}$, $\boldsymbol{q} = \begin{pmatrix} -\sin\delta\cos\alpha \\ -\sin\delta\sin\alpha \\ \cos\delta \end{pmatrix}$ 赤道座標系での接平面基底 3.19
$\boldsymbol{C}_{\text{Gal}} = \boldsymbol{G}\boldsymbol{C}\boldsymbol{G}^\top$ 誤差共分散の座標変換 $\boldsymbol{C}$: ICRS共分散行列 3.20

ここで $(\alpha, \delta)$ は赤経・赤緯(ICRS赤道座標)、$(l, b)$ は銀経・銀緯(銀河座標)、 $\boldsymbol{A}_G$ は銀河座標系への回転行列である。

3.4 エポック伝播のヤコビアン

天体の位置天文パラメータ $(\alpha^*, \delta, \varpi, \mu_{\alpha^*}, \mu_\delta, \mu_r)$ の エポック $T_0$ から $T$ への伝播に関するヤコビアン。 高精度位置天文学(Gaia, Hipparcos)で使用。

公式 結果 備考 証明
$\boldsymbol{J} = \displaystyle\frac{\partial \boldsymbol{a}(T)}{\partial \boldsymbol{a}(T_0)}$ $6 \times 6$ エポック伝播ヤコビアン $\boldsymbol{a} = (\alpha^*, \delta, \varpi, \mu_{\alpha^*}, \mu_\delta, \mu_r)^\top$ 3.21
$f = \displaystyle\frac{b_0}{b}$
(距離因子)
$\left[1 + 2\mu_{r0}t + (\mu_0^2 + \mu_{r0}^2)t^2\right]^{-1/2}$ $t = T - T_0$
$\mu_0^2 = \mu_{\alpha^*0}^2 + \mu_{\delta0}^2$
3.22
$\varpi(T) = \varpi_0 f$ 視差の伝播 距離変化による視差変化 3.23

ここで $\alpha^* = \alpha \cos\delta$ は赤経(赤緯補正済み)、$\varpi$ は年周視差、 $(\mu_{\alpha^*}, \mu_\delta)$ は固有運動、$\mu_r = v_r \varpi / A_u$ は視線速度に対応する固有運動($A_u$ は天文単位)。 距離因子 $f$ は天体の空間運動による見かけの距離変化を表す。

3.5 測地座標変換のヤコビアン

測地学における ECEF(地心地球固定座標系)と ENU(東北上座標系)間の座標変換。 GNSS測位、航法システム、地球物理観測で使用。

公式 結果 備考 証明
$\boldsymbol{R}_{\text{ENU}}(\varphi, \lambda)$
(ECEF→ENU回転行列)
$\begin{pmatrix} -\sin\lambda & \cos\lambda & 0 \\ -\cos\lambda\sin\varphi & -\sin\lambda\sin\varphi & \cos\varphi \\ \cos\lambda\cos\varphi & \sin\lambda\cos\varphi & \sin\varphi \end{pmatrix}$ $\varphi$: 緯度, $\lambda$: 経度 3.24
$\displaystyle\frac{\partial \boldsymbol{R}_{\text{ENU}}}{\partial \varphi}$ $\begin{pmatrix} 0 & 0 & 0 \\ -\cos\lambda\cos\varphi & -\sin\lambda\cos\varphi & -\sin\varphi \\ -\cos\lambda\sin\varphi & -\sin\lambda\sin\varphi & \cos\varphi \end{pmatrix}$ 緯度に関する微分 3.25
$\displaystyle\frac{\partial \boldsymbol{R}_{\text{ENU}}}{\partial \lambda}$ $\begin{pmatrix} -\cos\lambda & -\sin\lambda & 0 \\ \sin\lambda\sin\varphi & -\cos\lambda\sin\varphi & 0 \\ -\sin\lambda\cos\varphi & \cos\lambda\cos\varphi & 0 \end{pmatrix}$ 経度に関する微分 3.26

ここで $\varphi$ は測地緯度、$\lambda$ は経度。ENU座標系は局所接平面座標系とも呼ばれ、 東(East)、北(North)、上(Up)方向を基底とする。

3.6 地震トモグラフィのヤコビアン

地震波走時トモグラフィにおける感度行列(ヤコビアン)。 地震学、地球内部構造探査で使用。走時 $t$ の速度場 $v(\boldsymbol{x})$ またはスローネス $s(\boldsymbol{x}) = 1/v(\boldsymbol{x})$ に対する偏微分。

公式 結果 備考 証明
$t = \displaystyle\int_{\text{ray}} \displaystyle\frac{dl}{v(\boldsymbol{x})}$ $= \displaystyle\int_{\text{ray}} s(\boldsymbol{x})\,dl$ 走時の線積分表現
$s = 1/v$: スローネス
$\displaystyle\frac{\partial t}{\partial s_j}$
(離散化)
$l_j$(セル $j$ 内の光路長) ヤコビアン行列の要素 3.27
$\displaystyle\frac{\partial t}{\partial v_j}$ $\displaystyle -\displaystyle\frac{l_j}{v_j^2}$ 速度に関する偏微分 3.28
$\boldsymbol{d} = \boldsymbol{G}\boldsymbol{m} + \boldsymbol{e}$ 線形化されたトモグラフィ方程式 $\boldsymbol{d}$: 走時残差
$\boldsymbol{G}$: ヤコビアン
$\boldsymbol{m}$: モデル摂動

ここで $l_j$ はセル $j$ 内を通過する光線の長さ、$v_j$ はセル $j$ の速度、$s_j = 1/v_j$ はスローネスである。 地震トモグラフィでは光線追跡により $\boldsymbol{G}$ を計算し、反復的に逆問題を解く。

3.7 システム生物学のODE感度方程式

常微分方程式 $\dot{\boldsymbol{x}} = \boldsymbol{f}(\boldsymbol{x}, \boldsymbol{\theta})$ で記述される生化学反応ネットワークの パラメータ感度解析。システム生物学、薬物動態学で使用。

公式 結果 備考 証明
感度行列
$\boldsymbol{S}(t) = \displaystyle\frac{\partial \boldsymbol{x}(t)}{\partial \boldsymbol{\theta}}$
$N \times P$ 行列
$S_{ij} = \partial x_i / \partial \theta_j$
$N$: 状態数, $P$: パラメータ数 3.29
感度方程式
$\displaystyle\frac{d\boldsymbol{S}}{dt}$
$\displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}\boldsymbol{S} + \displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{\theta}}$ $\partial \boldsymbol{f}/\partial \boldsymbol{x}$: ヤコビ行列 3.30
システムのヤコビアン
$\boldsymbol{J}(\boldsymbol{x}) = \displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}$
$J_{ij} = \displaystyle\frac{\partial f_i}{\partial x_j}$ 局所線形化、安定性解析 3.31
初期条件
$\boldsymbol{S}(t_0)$
$\boldsymbol{O}_{N \times P}$(零行列)
または $\partial \boldsymbol{x}_0 / \partial \boldsymbol{\theta}$
初期値が $\boldsymbol{\theta}$ に依存する場合

感度方程式は元のODEと連立して解く(forward sensitivity analysis)。 パラメータ数 $P$ が大きい場合は随伴法(adjoint method)が効率的。

3.8 生態学の個体群動態モデル(Lotka-Volterra型)

捕食者-被食者系や競争系の個体群動態モデルにおけるヤコビアン。 生態学、疫学、システム生物学の安定性解析で使用。

公式 結果 備考 証明
Lotka-Volterra方程式
$\dot{x} = \alpha x - \beta xy$
$\dot{y} = \delta xy - \gamma y$
$x$: 被食者, $y$: 捕食者 $\alpha$: 成長率, $\beta$: 捕食率
$\delta$: 転換効率, $\gamma$: 死亡率
ヤコビアン
$\boldsymbol{J}(x, y)$
$\begin{pmatrix} \alpha - \beta y & -\beta x \\ \delta y & \delta x - \gamma \end{pmatrix}$ 平衡点での安定性判定 3.32
共存平衡点
$(x^*, y^*)$
$\left(\displaystyle\frac{\gamma}{\delta}, \displaystyle\frac{\alpha}{\beta}\right)$ 非自明な平衡点 3.33
共存点でのヤコビアン
$\boldsymbol{J}(x^*, y^*)$
$\begin{pmatrix} 0 & -\beta\gamma/\delta \\ \alpha\delta/\beta & 0 \end{pmatrix}$ 固有値: $\pm i\sqrt{\alpha\gamma}$(中心) 3.34
一般化モデル
$\dot{\boldsymbol{n}} = \text{diag}(\boldsymbol{n})(\boldsymbol{r} + \boldsymbol{A}\boldsymbol{n})$
$\boldsymbol{n}$: 個体数ベクトル
$\boldsymbol{r}$: 内的成長率
$\boldsymbol{A}$: 相互作用行列
多種競争・共生系
一般化ヤコビアン
$\boldsymbol{J}(\boldsymbol{n})$
$\text{diag}(\boldsymbol{r} + \boldsymbol{A}\boldsymbol{n}) + \text{diag}(\boldsymbol{n})\boldsymbol{A}$ 多種系の局所安定性 3.35

ヤコビアンの固有値により平衡点の安定性を判定する。 実部が全て負なら漸近安定、正のものがあれば不安定、純虚数なら中心(周期解)。

3.9 SEIR疫学モデルのヤコビアン

感染症の伝播を記述するSEIR(Susceptible-Exposed-Infected-Recovered)モデル。 数理疫学、公衆衛生学で感染症の流行予測と介入効果の評価に使用。

公式 結果 備考 証明
SEIR方程式
$\dot{S} = \mu N - \beta SI/N - \mu S$
$\dot{E} = \beta SI/N - (\mu + \sigma)E$
$\dot{I} = \sigma E - (\mu + \gamma)I$
$\dot{R} = \gamma I - \mu R$
$S$: 感受性, $E$: 潜伏期
$I$: 感染者, $R$: 回復者
$N = S + E + I + R$
$\mu$: 出生/死亡率, $\beta$: 感染率
$\sigma$: 潜伏期逆数, $\gamma$: 回復率
基本再生産数
$R_0$
$\displaystyle\frac{\beta\sigma}{(\mu + \sigma)(\mu + \gamma)}$ 次世代行列法で導出 3.36
無病平衡点でのヤコビアン
$\boldsymbol{J}(S_0, 0, 0, R_0)$
$\begin{pmatrix} -\mu & 0 & -\beta & 0 \\ 0 & -(\mu+\sigma) & \beta & 0 \\ 0 & \sigma & -(\mu+\gamma) & 0 \\ 0 & 0 & \gamma & -\mu \end{pmatrix}$ $R_0 < 1$ で漸近安定 3.37
流行平衡点
$(S^*, E^*, I^*, R^*)$
$S^* = N/R_0$
$I^* = \displaystyle\frac{\mu(R_0 - 1)}{\beta/N}$
$R_0 > 1$ のとき存在 3.38
次世代行列
$\boldsymbol{K} = \boldsymbol{F}\boldsymbol{V}^{-1}$
$\boldsymbol{F} = \begin{pmatrix} 0 & \beta \\ 0 & 0 \end{pmatrix}$, $\boldsymbol{V} = \begin{pmatrix} \mu+\sigma & 0 \\ -\sigma & \mu+\gamma \end{pmatrix}$ $R_0 = \rho(\boldsymbol{K})$(スペクトル半径) 3.39

基本再生産数 $R_0$ は一人の感染者が生涯で生み出す二次感染者数の期待値。 $R_0 < 1$ で感染症は収束、$R_0 > 1$ で流行が発生する。

3.10 FitzHugh-Nagumo心臓電気生理学モデル

心筋細胞の興奮と回復を記述するFitzHugh-Nagumoモデル。 Hodgkin-Huxleyモデルの縮約版で、心臓電気生理学、不整脈研究で使用。

公式 結果 備考 証明
FitzHugh-Nagumo方程式
$\dot{v} = v - v^3/3 - w + I_{\text{ext}}$
$\dot{w} = \varepsilon(v + a - bw)$
$v$: 膜電位(速い変数)
$w$: 回復変数(遅い変数)
$I_{\text{ext}}$: 外部電流
$\varepsilon \ll 1$: 時間スケール分離
$a, b$: モデルパラメータ
ヤコビアン
$\boldsymbol{J}(v, w)$
$\begin{pmatrix} 1 - v^2 & -1 \\ \varepsilon & -\varepsilon b \end{pmatrix}$ 平衡点の安定性解析 3.40
トレース
$\text{tr}(\boldsymbol{J})$
$1 - v^2 - \varepsilon b$ Hopf分岐条件: $\text{tr} = 0$ 3.41
行列式
$\det(\boldsymbol{J})$
$\varepsilon(b - bv^2 + 1)$ 鞍点条件: $\det < 0$ 3.42
臨界多様体
$w = f(v)$
$w = v - v^3/3 + I_{\text{ext}}$ S字型三次曲線
弛緩振動の骨格
3.43

$\varepsilon \ll 1$ のとき、系は弛緩振動(relaxation oscillation)を示し、 活動電位の急速な立ち上がりと緩やかな回復を再現する。

3.11 Bergman最小モデル(血糖-インスリン動態)

グルコース-インスリン調節系の最小モデル。 糖尿病研究、インスリン感受性の定量評価(IVGTT解析)で使用。

公式 結果 備考 証明
Bergman最小モデル
$\dot{G} = -p_1(G - G_b) - XG$
$\dot{X} = -p_2 X + p_3(I - I_b)$
$\dot{I} = -n(I - I_b) + \gamma(G - h)^+ t$
$G$: 血糖値, $I$: インスリン濃度
$X$: リモートインスリン効果
$G_b, I_b$: 基礎値
$p_1$: グルコース有効性
$p_2, p_3$: インスリン動態
$n$: インスリン消失率
ヤコビアン
$\boldsymbol{J}(G, X, I)$
$\begin{pmatrix} -p_1 - X & -G & 0 \\ 0 & -p_2 & p_3 \\ \gamma\mathbf{1}_{G>h} & 0 & -n \end{pmatrix}$ 平衡点近傍の線形化 3.44
インスリン感受性指数
$S_I$
$\displaystyle\frac{p_3}{p_2}$ グルコースクランプと相関 3.45
パラメータ感度
$\displaystyle\frac{\partial G(t)}{\partial p_1}$
感度方程式を連立して解く パラメータ推定の信頼区間 3.46

IVGTTデータからパラメータを推定し、$S_I$ によりインスリン感受性を定量化。 $S_I$ が低いとインスリン抵抗性を示唆し、2型糖尿病リスクの指標となる。

4. 行列微分の基本公式

スカラ関数 $f(\boldsymbol{X})$ を行列 $\boldsymbol{X}$ で微分する基本公式。$\boldsymbol{A}$ は定数行列、$\boldsymbol{a}, \boldsymbol{b}$ は定数ベクトル。 証明は証明集 第4章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} (\boldsymbol{a}^\top \boldsymbol{X} \boldsymbol{b})$ $\boldsymbol{a} \boldsymbol{b}^\top$ 双線形形式 4.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} (\boldsymbol{a}^\top \boldsymbol{X}^\top \boldsymbol{b})$ $\boldsymbol{b} \boldsymbol{a}^\top$ 転置を含む双線形形式 4.2
$\displaystyle\frac{\partial \boldsymbol{X}}{\partial X_{ij}}$ $\boldsymbol{J}^{ij}$ 単位行列の成分微分 4.3
$\displaystyle\frac{\partial (\boldsymbol{X}\boldsymbol{A})_{ij}}{\partial X_{mn}}$ $\delta_{im} A_{nj} = (\boldsymbol{J}^{mn}\boldsymbol{A})_{ij}$ 行列積の成分微分 4.4
$\displaystyle\frac{\partial (\boldsymbol{X}^\top\boldsymbol{A})_{ij}}{\partial X_{mn}}$ $\delta_{in} A_{mj} = (\boldsymbol{J}^{nm}\boldsymbol{A})_{ij}$ 転置行列積の成分微分 4.5

5. トレースの微分

トレース関数 $\text{tr}(\cdot)$ を含むスカラ関数の微分公式。 証明は証明集 第5章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X})$ $\boldsymbol{I}$ トレース 5.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X})$ $\boldsymbol{A}^\top$ トレース 5.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{A})$ $\boldsymbol{A}^\top$ トレース 5.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top)$ $\boldsymbol{A}$ トレース 5.4
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{A})$ $\boldsymbol{A}$ トレース 5.5
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2)$ $2\boldsymbol{X}^\top$ トレース 5.6
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^2\boldsymbol{B})$ $(\boldsymbol{X}\boldsymbol{B} + \boldsymbol{B}\boldsymbol{X})^\top$ 二次トレース 5.7
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{X})$ $\boldsymbol{B}\boldsymbol{X} + \boldsymbol{B}^\top\boldsymbol{X}$ 二次形式トレース 5.8
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}\boldsymbol{X}\boldsymbol{X}^\top)$ $\boldsymbol{B}\boldsymbol{X} + \boldsymbol{B}^\top\boldsymbol{X}$ 二次形式トレース 5.9
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{B})$ $\boldsymbol{B}\boldsymbol{X} + \boldsymbol{B}^\top\boldsymbol{X}$ 二次形式トレース 5.10
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top)$ $\boldsymbol{X}\boldsymbol{B}^\top + \boldsymbol{X}\boldsymbol{B}$ 二次形式トレース 5.11
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{X})$ $\boldsymbol{X}\boldsymbol{B}^\top + \boldsymbol{X}\boldsymbol{B}$ 二次形式トレース 5.12
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{X}\boldsymbol{B})$ $\boldsymbol{X}\boldsymbol{B}^\top + \boldsymbol{X}\boldsymbol{B}$ 二次形式トレース 5.13
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X})$ $\boldsymbol{A}^\top\boldsymbol{X}^\top\boldsymbol{B}^\top + \boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{A}^\top$ 二次形式トレース 5.14
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{X})$ $2\boldsymbol{X}$ Frobeniusノルム 5.15
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}\boldsymbol{X}^\top)$ $2\boldsymbol{X}$ Frobeniusノルム 5.16
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})$ $\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top + \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$ 二次形式トレース 5.17
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}\boldsymbol{C})$ $\boldsymbol{B}\boldsymbol{X}\boldsymbol{C} + \boldsymbol{B}^\top\boldsymbol{X}\boldsymbol{C}^\top$ 二次形式トレース 5.18
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}\boldsymbol{X}^\top\boldsymbol{C})$ $\boldsymbol{A}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}^\top + \boldsymbol{C}\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}$ 二次形式トレース 5.19
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})^\top]$ $2\boldsymbol{A}^\top(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}+\boldsymbol{C})\boldsymbol{B}^\top$ 二次形式トレース 5.20
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X} \otimes \boldsymbol{X})$ $2\text{tr}(\boldsymbol{X})\boldsymbol{I}$ Kronecker積トレース 5.21
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X})$ $(\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{X}$ 二次形式トレース 5.22
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B})$ $\boldsymbol{A}^\top \boldsymbol{B}^\top$ 積のトレース 5.23
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^\top\boldsymbol{B})$ $\boldsymbol{B}\boldsymbol{A}$ 転置を含む積のトレース 5.24
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A} \otimes \boldsymbol{X})$ $\text{tr}(\boldsymbol{A})\boldsymbol{I}$ Kronecker積のトレース 5.25
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^{-1}\boldsymbol{A})$ $-\boldsymbol{X}^{-\top} \boldsymbol{A}^\top \boldsymbol{X}^{-\top}$ 逆行列トレース 5.26
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^k)$ $k(\boldsymbol{X}^{k-1})^\top$ 高次トレース 5.27
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^k)$ $\displaystyle\sum_{r=0}^{k-1} (\boldsymbol{X}^r \boldsymbol{A} \boldsymbol{X}^{k-r-1})^\top$ 高次トレース 5.28
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B})$ $\boldsymbol{C}\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$
$\;+ \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}$
$\;+ \boldsymbol{C}\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X}$
$\;+ \boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{X}^\top\boldsymbol{C}^\top\boldsymbol{X}\boldsymbol{B}\boldsymbol{B}^\top$
高次二次形式 5.29
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})$ $-\boldsymbol{X}^{-\top}\boldsymbol{A}^\top\boldsymbol{B}^\top\boldsymbol{X}^{-\top}$ 逆行列トレース 5.30
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}\boldsymbol{A}]$
($\boldsymbol{C}$: 対称)
$-\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
$\;\times(\boldsymbol{A}+\boldsymbol{A}^\top)(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
二次形式逆行列トレース 5.31
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]$
($\boldsymbol{B}, \boldsymbol{C}$: 対称)
$-2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
$\;\times\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
$\;+2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
二次形式逆行列トレース 5.32
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}[(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}(\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X})]$
($\boldsymbol{B}, \boldsymbol{C}$: 対称)
$-2\boldsymbol{C}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
$\;\times\boldsymbol{X}^\top\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
$\;+2\boldsymbol{B}\boldsymbol{X}(\boldsymbol{A}+\boldsymbol{X}^\top\boldsymbol{C}\boldsymbol{X})^{-1}$
二次形式逆行列トレース 5.33
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\exp(\boldsymbol{X}))$ $\exp(\boldsymbol{X})^\top$ 指数トレース 5.34
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\log(\boldsymbol{X}))$ $\boldsymbol{X}^{-\top}$ 対数トレース 5.35
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{X}^n)$
($n$: 正整数)
$n(\boldsymbol{X}^{n-1})^\top$ べき乗トレース 5.27
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sqrt{\boldsymbol{X}})$
($\boldsymbol{X}$: 正定値)
$\displaystyle\frac{1}{2}(\boldsymbol{X}^{-1/2})^\top$ 平方根トレース 5.36
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sin(\boldsymbol{X}))$ $\cos(\boldsymbol{X})^\top$ 正弦トレース 5.37
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cos(\boldsymbol{X}))$ $-\sin(\boldsymbol{X})^\top$ 余弦トレース 5.38
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tan(\boldsymbol{X}))$ $\sec^2(\boldsymbol{X})^\top$ 正接トレース 5.39
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arcsin(\boldsymbol{X}))$ $((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$ 逆正弦トレース 5.40
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arccos(\boldsymbol{X}))$ $-((\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$ 逆余弦トレース 5.41
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\arctan(\boldsymbol{X}))$ $((\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top$ 逆正接トレース 5.42
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\sinh(\boldsymbol{X}))$ $\cosh(\boldsymbol{X})^\top$ 双曲線正弦トレース 5.43
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\cosh(\boldsymbol{X}))$ $\sinh(\boldsymbol{X})^\top$ 双曲線余弦トレース 5.44
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\tanh(\boldsymbol{X}))$ $\text{sech}^2(\boldsymbol{X})^\top$ 双曲線正接トレース 5.45
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arcsinh}(\boldsymbol{X}))$ $((\boldsymbol{I}+\boldsymbol{X}^2)^{-1/2})^\top$ 逆双曲線正弦トレース 5.46
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arccosh}(\boldsymbol{X}))$ $((\boldsymbol{X}^2-\boldsymbol{I})^{-1/2})^\top$ 逆双曲線余弦トレース 5.47
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\text{arctanh}(\boldsymbol{X}))$ $((\boldsymbol{I}-\boldsymbol{X}^2)^{-1})^\top$ 逆双曲線正接トレース 5.48
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\exp(\boldsymbol{X}))$ $(\boldsymbol{A}\exp(\boldsymbol{X}))^\top$ 行列係数指数トレース 5.50
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sin(\boldsymbol{X}))$ $(\boldsymbol{A}\cos(\boldsymbol{X}))^\top$ 行列係数正弦トレース 5.49
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cos(\boldsymbol{X}))$ $-(\boldsymbol{A}\sin(\boldsymbol{X}))^\top$ 行列係数余弦トレース 5.51
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tan(\boldsymbol{X}))$ $(\boldsymbol{A}\sec^2(\boldsymbol{X}))^\top$ 行列係数正接トレース 5.52
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arcsin(\boldsymbol{X}))$ $(\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$ 行列係数逆正弦トレース 5.53
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arccos(\boldsymbol{X}))$ $-(\boldsymbol{A}(\boldsymbol{I}-\boldsymbol{X}^2)^{-1/2})^\top$ 行列係数逆余弦トレース 5.54
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\arctan(\boldsymbol{X}))$ $(\boldsymbol{A}(\boldsymbol{I}+\boldsymbol{X}^2)^{-1})^\top$ 行列係数逆正接トレース 5.55
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\sinh(\boldsymbol{X}))$ $(\boldsymbol{A}\cosh(\boldsymbol{X}))^\top$ 行列係数双曲線正弦トレース 5.56
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\cosh(\boldsymbol{X}))$ $(\boldsymbol{A}\sinh(\boldsymbol{X}))^\top$ 行列係数双曲線余弦トレース 5.57
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\tanh(\boldsymbol{X}))$ $(\boldsymbol{A}\text{sech}^2(\boldsymbol{X}))^\top$ 行列係数双曲線正接トレース 5.58

6. Hadamard積と活性化関数

要素ごとの積(Hadamard積)および機械学習で頻出の活性化関数の微分公式。 証明は証明集 第6章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial (\boldsymbol{x} \odot \boldsymbol{y})}{\partial \boldsymbol{z}}$ $\text{diag}(\boldsymbol{x}) \displaystyle\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{z}}$
$\;+ \text{diag}(\boldsymbol{y}) \displaystyle\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{z}}$
Hadamard積の微分 6.1
$\displaystyle\frac{\partial \text{softmax}(\boldsymbol{x})}{\partial \boldsymbol{x}}$ $\text{diag}(\boldsymbol{p}) - \boldsymbol{p}\boldsymbol{p}^\top$
($\boldsymbol{p} = \text{softmax}(\boldsymbol{x})$)
softmaxのJacobian 6.2
$\displaystyle\frac{\partial \sigma(\boldsymbol{x})}{\partial \boldsymbol{x}}$
($\sigma(x) = \displaystyle\frac{1}{1+e^{-x}}$)
$\text{diag}(\sigma(\boldsymbol{x}) \odot (1 - \sigma(\boldsymbol{x})))$ シグモイド関数 6.3
$\displaystyle\frac{\partial \tanh(\boldsymbol{x})}{\partial \boldsymbol{x}}$ $\text{diag}(1 - \tanh^2(\boldsymbol{x}))$ tanh関数 6.4
$\displaystyle\frac{\partial \text{ReLU}(\boldsymbol{x})}{\partial \boldsymbol{x}}$
($\text{ReLU}(x) = \max(0, x)$)
$\text{diag}(\mathbf{1}_{x_i > 0})$ ReLU($x = 0$ で劣勾配) 6.5
$\displaystyle\frac{\partial \text{LeakyReLU}(\boldsymbol{x})}{\partial \boldsymbol{x}}$
($\text{LeakyReLU}(x) = \max(\alpha x, x)$)
$\text{diag}(\mathbf{1}_{x_i > 0} + \alpha \cdot \mathbf{1}_{x_i \leq 0})$ Leaky ReLU 6.6
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} (-\boldsymbol{y}^\top \log \boldsymbol{p})$
($\boldsymbol{p} = \text{softmax}(\boldsymbol{x})$)
$\boldsymbol{p} - \boldsymbol{y}$ クロスエントロピー損失
(softmax + CE)
6.7
$\displaystyle\frac{\partial}{\partial x} \text{BCE}(y, \sigma(x))$
(BCE = $-y\log\sigma(x) - (1-y)\log(1-\sigma(x))$)
$\sigma(x) - y$ 二値クロスエントロピー
(sigmoid + BCE)
6.8
$\displaystyle\frac{\partial \text{GELU}(\boldsymbol{x})}{\partial \boldsymbol{x}}$
($\text{GELU}(x) = x \cdot \Phi(x)$)
$\text{diag}(\Phi(\boldsymbol{x}) + \boldsymbol{x} \odot \phi(\boldsymbol{x}))$ GELU
$\Phi$: 標準正規CDF
$\phi$: 標準正規PDF
6.9
$\displaystyle\frac{\partial \text{Swish}(\boldsymbol{x})}{\partial \boldsymbol{x}}$
($\text{Swish}(x) = x \cdot \sigma(x)$)
$\text{diag}(\sigma(\boldsymbol{x}) + \boldsymbol{x} \odot \sigma(\boldsymbol{x}) \odot (1 - \sigma(\boldsymbol{x})))$ Swish (SiLU) 6.10

6.1 Attention機構

Scaled Dot-Product Attention:$\text{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) = \text{softmax}\left(\displaystyle\frac{\boldsymbol{Q}\boldsymbol{K}^\top}{\sqrt{d_k}}\right)\boldsymbol{V}$。 softmaxは行列の各行に適用される。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{V}}$ $\boldsymbol{A}^\top \displaystyle\frac{\partial L}{\partial \boldsymbol{O}}$ Value の勾配
($\boldsymbol{A} = \text{softmax}(\cdot)$)
6.11
$\displaystyle\frac{\partial L}{\partial \boldsymbol{A}}$ $\displaystyle\frac{\partial L}{\partial \boldsymbol{O}} \boldsymbol{V}^\top$ Attention重みの勾配 6.12
$\displaystyle\frac{\partial L}{\partial \boldsymbol{S}}$
($\boldsymbol{S} = \boldsymbol{Q}\boldsymbol{K}^\top / \sqrt{d_k}$)
$\boldsymbol{A} \odot \left( \displaystyle\frac{\partial L}{\partial \boldsymbol{A}} - \text{rowsum}\left(\displaystyle\frac{\partial L}{\partial \boldsymbol{A}} \odot \boldsymbol{A}\right) \boldsymbol{1}^\top \right)$ softmax前の勾配 6.13
$\displaystyle\frac{\partial L}{\partial \boldsymbol{Q}}$ $\displaystyle\frac{1}{\sqrt{d_k}} \displaystyle\frac{\partial L}{\partial \boldsymbol{S}} \boldsymbol{K}$ Query の勾配 6.14
$\displaystyle\frac{\partial L}{\partial \boldsymbol{K}}$ $\displaystyle\frac{1}{\sqrt{d_k}} \left(\displaystyle\frac{\partial L}{\partial \boldsymbol{S}}\right)^\top \boldsymbol{Q}$ Key の勾配 6.15

6.2 InfoNCE損失関数(対照学習)

対照学習(SimCLR, CLIP など)で用いられる損失関数。 クエリ $\boldsymbol{q}$ と正例キー $\boldsymbol{k}^+$、負例キー $\{\boldsymbol{k}^-_j\}_{j=1}^{K}$ を使用。 softmax構造を含む。

公式 結果 備考 証明
InfoNCE損失
$\mathcal{L}_{\text{NCE}}$
$-\log \displaystyle\frac{\exp(\boldsymbol{q}^\top \boldsymbol{k}^+ / \tau)}{\exp(\boldsymbol{q}^\top \boldsymbol{k}^+ / \tau) + \sum_{j=1}^{K} \exp(\boldsymbol{q}^\top \boldsymbol{k}^-_j / \tau)}$ $\tau$ は温度パラメータ 6.16
$\displaystyle\frac{\partial \mathcal{L}_{\text{NCE}}}{\partial \boldsymbol{q}}$ $\displaystyle\frac{1}{\tau}\left(-\boldsymbol{k}^+ + \sum_{i} p_i \boldsymbol{k}_i\right)$ $p_i = \text{softmax}(\boldsymbol{q}^\top \boldsymbol{k}_i / \tau)$ 6.17
$\displaystyle\frac{\partial \mathcal{L}_{\text{NCE}}}{\partial \boldsymbol{k}^+}$ $\displaystyle\frac{1}{\tau}(p_+ - 1)\boldsymbol{q}$ $p_+ = \text{softmax}(\boldsymbol{q}^\top \boldsymbol{k}^+ / \tau)$ 6.18

7. 行列式の微分

行列式 $\det(\boldsymbol{X})$ およびその関連関数の微分公式。 証明は証明集 第7章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}|$ $|\boldsymbol{X}| \boldsymbol{X}^{-\top}$ 行列式 7.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \log|\boldsymbol{X}|$ $\boldsymbol{X}^{-\top}$ 対数行列式 7.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}^n|$ $n|\boldsymbol{X}^n| \boldsymbol{X}^{-\top}$ 行列式のべき乗 7.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}|$
($\boldsymbol{A}, \boldsymbol{B}$: 正方可逆)
$|\boldsymbol{A}\boldsymbol{X}\boldsymbol{B}| \boldsymbol{X}^{-\top}$ 積の行列式 7.6
$\displaystyle\sum_{k} \displaystyle\frac{\partial |\boldsymbol{X}|}{\partial X_{ik}} X_{jk}$ $\delta_{ij} |\boldsymbol{X}|$ 余因子展開の性質 7.4
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}|$
($\boldsymbol{X}$: 正方可逆)
$2|\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}| \boldsymbol{X}^{-\top}$ 二次形式の行列式 7.7.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}|$
($\boldsymbol{X}$: 非正方、$\boldsymbol{A}$: 対称、$\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}$: 可逆)
$2|\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}| \boldsymbol{A}\boldsymbol{X}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X})^{-1}$ 二次形式の行列式 7.7.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}|$
($\boldsymbol{X}$: 非正方、$\boldsymbol{A}$: 一般、$\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}$: 可逆)
$|\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X}|$
$\;\times(\boldsymbol{A}\boldsymbol{X}(\boldsymbol{X}^\top \boldsymbol{A} \boldsymbol{X})^{-1}$
$\;+ \boldsymbol{A}^\top \boldsymbol{X}(\boldsymbol{X}^\top \boldsymbol{A}^\top \boldsymbol{X})^{-1})$
二次形式の行列式 7.7.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \log |\boldsymbol{X}^\top \boldsymbol{X}|$ $2(\boldsymbol{X}^{+})^\top$ グラム行列の対数行列式 7.8.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}^{+}} \log |\boldsymbol{X}^\top \boldsymbol{X}|$ $-2\boldsymbol{X}^\top$ 擬似逆行列による微分 7.8.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \log |\det(\boldsymbol{X})|$ $(\boldsymbol{X}^{-1})^\top = (\boldsymbol{X}^\top)^{-1}$ 対数絶対行列式 7.9

8. 逆行列の微分

逆行列 $\boldsymbol{X}^{-1}$ を含む関数の微分公式。 証明は証明集 第8章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial (\boldsymbol{X}^{-1})_{kl}}{\partial X_{ij}}$ $-(\boldsymbol{X}^{-1})_{ki}(\boldsymbol{X}^{-1})_{jl}$ 逆行列の成分微分 8.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \boldsymbol{a}^\top \boldsymbol{X}^{-1} \boldsymbol{b}$ $-\boldsymbol{X}^{-\top} \boldsymbol{a} \boldsymbol{b}^\top \boldsymbol{X}^{-\top}$ 逆行列を含む二次形式 8.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} |\boldsymbol{X}^{-1}|$ $-|\boldsymbol{X}^{-1}|(\boldsymbol{X}^{-1})^\top$ 逆行列の行列式 8.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}(\boldsymbol{A}\boldsymbol{X}^{-1}\boldsymbol{B})$ $-(\boldsymbol{X}^{-1}\boldsymbol{B}\boldsymbol{A}\boldsymbol{X}^{-1})^\top$ 逆行列を含むトレース 8.4
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \text{tr}((\boldsymbol{X}+\boldsymbol{A})^{-1})$ $-((\boldsymbol{X}+\boldsymbol{A})^{-1}(\boldsymbol{X}+\boldsymbol{A})^{-1})^\top$ 和の逆行列のトレース 8.5
$\displaystyle\frac{\partial J}{\partial \boldsymbol{A}}$
(ただし $\boldsymbol{W} = \boldsymbol{A}^{-1}$)
$-\boldsymbol{A}^{-\top} \displaystyle\frac{\partial J}{\partial \boldsymbol{W}} \boldsymbol{A}^{-\top}$ 逆行列の連鎖律 8.6
$\displaystyle\frac{\partial}{\partial A_{ij}} (\boldsymbol{I} - \boldsymbol{A})^{-1}$
($\boldsymbol{L} = (\boldsymbol{I} - \boldsymbol{A})^{-1}$:Leontief逆行列)
$\boldsymbol{L} \boldsymbol{E}_{ij} \boldsymbol{L}$
($\boldsymbol{E}_{ij}$は$(i,j)$成分のみ1の行列)
Leontief逆行列の微分(産業連関分析) 8.7
$\displaystyle\frac{\partial}{\partial \boldsymbol{A}} \text{tr}((\boldsymbol{I} - \boldsymbol{A})^{-1})$ $((\boldsymbol{I} - \boldsymbol{A})^{-1}(\boldsymbol{I} - \boldsymbol{A})^{-1})^\top$ Leontief逆行列のトレース 8.8

8.2 Moore-Penrose擬似逆行列の微分

Moore-Penrose擬似逆行列 $\boldsymbol{X}^+ \in \mathbb{R}^{n \times m}$($\boldsymbol{X} \in \mathbb{R}^{m \times n}$)の微分。 ロボット工学の冗長マニピュレータ、最小二乗法、信号処理で使用。 $\boldsymbol{X}^+$ は $\boldsymbol{X}\boldsymbol{X}^+\boldsymbol{X} = \boldsymbol{X}$, $\boldsymbol{X}^+\boldsymbol{X}\boldsymbol{X}^+ = \boldsymbol{X}^+$ などを満たす一般化逆行列。

公式 結果 備考 証明
$d\boldsymbol{X}^+$
(フルランク $m \le n$)
$-\boldsymbol{X}^+ (d\boldsymbol{X}) \boldsymbol{X}^+ + \boldsymbol{X}^{+\top}\boldsymbol{X}^\top (d\boldsymbol{X})^\top (\boldsymbol{I} - \boldsymbol{X}\boldsymbol{X}^+)$
$+ (\boldsymbol{I} - \boldsymbol{X}^+\boldsymbol{X})(d\boldsymbol{X})^\top \boldsymbol{X}^{+\top}\boldsymbol{X}^+$
Golub-Pereyraの公式 8.9
$d\boldsymbol{X}^+$
(フルランク $m \ge n$、列フルランク)
$(\boldsymbol{X}^\top\boldsymbol{X})^{-1}(d\boldsymbol{X})^\top(\boldsymbol{I} - \boldsymbol{X}\boldsymbol{X}^+) - \boldsymbol{X}^+(d\boldsymbol{X})\boldsymbol{X}^+$ 左逆行列型 8.10
$d\boldsymbol{X}^+$
(フルランク $m \le n$、行フルランク)
$(\boldsymbol{I} - \boldsymbol{X}^+\boldsymbol{X})(d\boldsymbol{X})^\top(\boldsymbol{X}\boldsymbol{X}^\top)^{-1} - \boldsymbol{X}^+(d\boldsymbol{X})\boldsymbol{X}^+$ 右逆行列型 8.11
$\displaystyle\frac{d\boldsymbol{X}^+}{dt}$
(時間微分)
$-\boldsymbol{X}^+ \dot{\boldsymbol{X}} \boldsymbol{X}^+ + \boldsymbol{X}^{+\top}\boldsymbol{X}^\top \dot{\boldsymbol{X}}^\top (\boldsymbol{I} - \boldsymbol{X}\boldsymbol{X}^+)$
$+ (\boldsymbol{I} - \boldsymbol{X}^+\boldsymbol{X})\dot{\boldsymbol{X}}^\top \boldsymbol{X}^{+\top}\boldsymbol{X}^+$
ロボットJacobianの時間微分に使用 8.12
$\boldsymbol{X}^+$
(行フルランク)
$\boldsymbol{X}^\top(\boldsymbol{X}\boldsymbol{X}^\top)^{-1}$ 右逆行列
$\boldsymbol{X}^+$
(列フルランク)
$(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top$ 左逆行列

ロボット工学では、Jacobian行列 $\boldsymbol{J}(\boldsymbol{q})$ の擬似逆行列 $\boldsymbol{J}^+$ を用いて 逆運動学 $\dot{\boldsymbol{q}} = \boldsymbol{J}^+ \dot{\boldsymbol{x}}$ を解く。 冗長マニピュレータ(関節数 $n$ > 作業空間次元 $m$)では、$\boldsymbol{J}^+$ は最小ノルム解を与える。

9. 固有値・固有ベクトルの微分

固有値 $\lambda_i$ および固有ベクトル $\boldsymbol{v}_i$ の微分公式。 証明は証明集 第9章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \sum_i \lambda_i(\boldsymbol{X})$ $\boldsymbol{I}$ 固有値の和の微分 9.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \prod_i \lambda_i(\boldsymbol{X})$ $\det(\boldsymbol{X}) \boldsymbol{X}^{-\top}$ 固有値の積の微分 9.2
$\partial \lambda_i$
(ただし $\boldsymbol{A}$: 実対称行列)
$\boldsymbol{v}_i^\top \partial\boldsymbol{A} \, \boldsymbol{v}_i$ 固有値の微分 9.3
$\partial \boldsymbol{v}_i$
(ただし $\boldsymbol{A}$: 実対称行列)
$(\lambda_i \boldsymbol{I} - \boldsymbol{A})^+ \partial\boldsymbol{A} \, \boldsymbol{v}_i$ 固有ベクトルの微分 9.4

9.1 特異値分解(SVD)の逆伝播

$\boldsymbol{A} = \boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^\top$ を特異値分解とする。 ここで $\boldsymbol{U} \in \mathbb{R}^{m \times r}$、$\boldsymbol{\Sigma} = \text{diag}(\sigma_1, \ldots, \sigma_r)$、 $\boldsymbol{V} \in \mathbb{R}^{n \times r}$($r = \min(m, n)$)。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{A}}$
(SVD逆伝播)
$\boldsymbol{U}\left(\bar{\boldsymbol{\Sigma}} + \boldsymbol{F} \odot (\boldsymbol{U}^\top \bar{\boldsymbol{U}} - \bar{\boldsymbol{V}}^\top \boldsymbol{V})\boldsymbol{\Sigma} + \boldsymbol{\Sigma}(\boldsymbol{F} \odot (\boldsymbol{V}^\top \bar{\boldsymbol{V}} - \bar{\boldsymbol{U}}^\top \boldsymbol{U}))\right)\boldsymbol{V}^\top$ $\bar{\boldsymbol{U}}, \bar{\boldsymbol{\Sigma}}, \bar{\boldsymbol{V}}$ は上流勾配
$F_{ij} = \displaystyle\frac{1}{\sigma_i^2 - \sigma_j^2}$($i \neq j$)
9.5
$\displaystyle\frac{\partial \sigma_i}{\partial \boldsymbol{A}}$ $\boldsymbol{u}_i \boldsymbol{v}_i^\top$ $i$番目の特異値の勾配 9.6

9.2 質量重み付きHesse行列と基準振動解析

分子の振動解析で使用される質量重み付きHesse行列。計算化学、分子動力学、赤外/ラマン分光法の基礎。 $\boldsymbol{H}$ はポテンシャルエネルギーの二階微分(Hesse行列)、$\boldsymbol{M}$ は質量行列(対角)。

公式 結果 備考 証明
$\boldsymbol{H}_{ij} = \displaystyle\frac{\partial^2 V}{\partial x_i \partial x_j}$ Hesse行列($3N \times 3N$) $N$原子系、$V$はポテンシャル
$\tilde{\boldsymbol{H}} = \boldsymbol{M}^{-1/2}\boldsymbol{H}\boldsymbol{M}^{-1/2}$ 質量重み付きHesse行列 $M_{ii} = m_{\lceil i/3 \rceil}$ 9.7
$\tilde{\boldsymbol{H}}\boldsymbol{q}_i = \lambda_i \boldsymbol{q}_i$ 基準振動モード $\boldsymbol{q}_i$: 基準座標 9.8
$\omega_i = \sqrt{\lambda_i}$ 角振動数 $\nu_i = \omega_i / 2\pi$(振動数) 9.9
$\displaystyle\frac{\partial \omega_i}{\partial H_{kl}}$ $\displaystyle\frac{1}{2\omega_i}(M^{-1/2}\boldsymbol{q}_i)_k(M^{-1/2}\boldsymbol{q}_i)_l$ 振動数の感度 9.10

平衡構造(極小点)では $3N-6$(非線形分子)または $3N-5$(線形分子)個の正の固有値がある。 遷移状態(鞍点)では1つの負の固有値(虚振動数)が存在し、その固有ベクトルが反応座標を示す。

9.3 Hellmann-Feynman定理

エネルギーのパラメータ微分に関する基本定理。量子化学の解析的勾配計算の基礎。

公式 結果 備考 証明
$\displaystyle\frac{\partial E}{\partial \lambda}$
(Hellmann-Feynman)
$\langle\Psi|\displaystyle\frac{\partial \hat{H}}{\partial \lambda}|\Psi\rangle$ $\Psi$: 固有関数 9.11
$\displaystyle\frac{\partial E}{\partial R_A}$
(核座標微分)
$\langle\Psi|\displaystyle\frac{\partial \hat{H}}{\partial R_A}|\Psi\rangle$ $\boldsymbol{F}_A = -\nabla_{R_A} E$(原子間力) 9.12
$\displaystyle\frac{\partial^2 E}{\partial \lambda^2}$
(二階微分)
$\langle\Psi|\displaystyle\frac{\partial^2 \hat{H}}{\partial \lambda^2}|\Psi\rangle + 2\langle\displaystyle\frac{\partial\Psi}{\partial\lambda}|\displaystyle\frac{\partial \hat{H}}{\partial \lambda}|\Psi\rangle$ Hesse行列の計算に使用 9.13

Hartree-Fock法やDFTなど変分法に基づく方法では定理が成立する。 摂動論(Møller-Plesset法など)では波動関数が変分的でないため、追加の補正項が必要。

9.4 一般化固有値問題の感度解析

構造力学における振動解析・座屈解析で現れる一般化固有値問題 $\boldsymbol{K}\boldsymbol{\phi} = \lambda \boldsymbol{M}\boldsymbol{\phi}$ の感度。 $\boldsymbol{K}$ は剛性行列、$\boldsymbol{M}$ は質量行列、$\lambda$ は固有値(固有角振動数の二乗)、$\boldsymbol{\phi}$ は固有ベクトル(モード形状)。

公式 結果 備考 証明
固有値の設計感度
$\displaystyle\frac{\partial \lambda_i}{\partial \eta}$
$\boldsymbol{\phi}_i^\top \left(\displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta} - \lambda_i \displaystyle\frac{\partial \boldsymbol{M}}{\partial \eta}\right) \boldsymbol{\phi}_i$ $\boldsymbol{\phi}_i^\top \boldsymbol{M} \boldsymbol{\phi}_i = 1$ で正規化 9.14
固有角振動数の感度
$\displaystyle\frac{\partial \omega_i}{\partial \eta}$
$\displaystyle\frac{1}{2\omega_i} \boldsymbol{\phi}_i^\top \left(\displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta} - \omega_i^2 \displaystyle\frac{\partial \boldsymbol{M}}{\partial \eta}\right) \boldsymbol{\phi}_i$ $\lambda_i = \omega_i^2$ 9.15
固有ベクトルの感度
$\displaystyle\frac{\partial \boldsymbol{\phi}_i}{\partial \eta}$
$\displaystyle\sum_{j \neq i} \displaystyle\frac{\boldsymbol{\phi}_j^\top \left(\displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta} - \lambda_i \displaystyle\frac{\partial \boldsymbol{M}}{\partial \eta}\right) \boldsymbol{\phi}_i}{\lambda_i - \lambda_j} \boldsymbol{\phi}_j$ Nelson法
$\lambda_i \neq \lambda_j$ が必要
9.16
Rayleigh商
$R(\boldsymbol{\phi}) = \displaystyle\frac{\boldsymbol{\phi}^\top \boldsymbol{K} \boldsymbol{\phi}}{\boldsymbol{\phi}^\top \boldsymbol{M} \boldsymbol{\phi}}$
$\lambda_i \le R(\boldsymbol{\phi}) \le \lambda_n$
(固有ベクトルで最小/最大)
固有値の上下界 9.17

9.5 座屈固有値問題の感度

線形座屈解析における座屈荷重係数の感度。$(\boldsymbol{K} + \lambda_{\text{cr}} \boldsymbol{K}_G)\boldsymbol{\phi} = \boldsymbol{0}$ の形式。 $\boldsymbol{K}_G$ は幾何剛性行列(初期応力行列)。

公式 結果 備考 証明
座屈荷重係数の感度
$\displaystyle\frac{\partial \lambda_{\text{cr}}}{\partial \eta}$
$-\displaystyle\frac{\boldsymbol{\phi}^\top \left(\displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta} + \lambda_{\text{cr}} \displaystyle\frac{\partial \boldsymbol{K}_G}{\partial \eta}\right) \boldsymbol{\phi}}{\boldsymbol{\phi}^\top \boldsymbol{K}_G \boldsymbol{\phi}}$ $\boldsymbol{K}_G$ は荷重に比例 9.18
幾何剛性行列
$\boldsymbol{K}_G$
$\displaystyle\int_\Omega \boldsymbol{G}^\top \tilde{\boldsymbol{S}} \boldsymbol{G}\, d\Omega$ $\boldsymbol{G}$: 形状関数勾配
$\tilde{\boldsymbol{S}}$: 応力行列
9.19
$\displaystyle\frac{\partial \boldsymbol{K}_G}{\partial \eta}$ $\displaystyle\int_\Omega \boldsymbol{G}^\top \displaystyle\frac{\partial \tilde{\boldsymbol{S}}}{\partial \eta} \boldsymbol{G}\, d\Omega$ 応力変化を経由 9.20

座屈解析では、まず線形静解析で応力場を求め、その応力から $\boldsymbol{K}_G$ を計算する。 設計変数 $\eta$ の変化は $\boldsymbol{K}$ と $\boldsymbol{K}_G$(応力経由)の両方に影響する。

9.6 Leslie行列と個体群動態の感度解析

個体群生態学で用いられるLeslie行列モデル $\boldsymbol{n}_{t+1} = \boldsymbol{L}\boldsymbol{n}_t$ における個体群成長率(優位固有値)の感度と弾力性。 農学では害虫管理、野生動物管理、作物個体群モデリングで重要。

公式 結果 備考 証明
Leslie行列
$\boldsymbol{L}$
$\begin{pmatrix} F_0 & F_1 & \cdots & F_{m-1} \\ P_0 & 0 & \cdots & 0 \\ 0 & P_1 & \cdots & 0 \\ \vdots & & \ddots & \vdots \\ 0 & 0 & P_{m-2} & 0 \end{pmatrix}$ $F_i$: 繁殖率
$P_i$: 生存率
9.21
固有値の感度
$\displaystyle\frac{\partial \lambda}{\partial L_{ij}}$
$\displaystyle\frac{v_i w_j}{\boldsymbol{v}^\top \boldsymbol{w}}$ $\boldsymbol{w}$: 右固有ベクトル
$\boldsymbol{v}$: 左固有ベクトル
9.22
弾力性(Elasticity)
$e_{ij}$
$\displaystyle\frac{L_{ij}}{\lambda} \displaystyle\frac{\partial \lambda}{\partial L_{ij}} = \displaystyle\frac{L_{ij} v_i w_j}{\lambda \boldsymbol{v}^\top \boldsymbol{w}}$ 相対的寄与度
$\sum_{ij} e_{ij} = 1$
9.23
繁殖率の感度
$\displaystyle\frac{\partial \lambda}{\partial F_i}$
$\displaystyle\frac{v_0 w_i}{\boldsymbol{v}^\top \boldsymbol{w}}$ 1行目の成分 9.24
生存率の感度
$\displaystyle\frac{\partial \lambda}{\partial P_i}$
$\displaystyle\frac{v_{i+1} w_i}{\boldsymbol{v}^\top \boldsymbol{w}}$ 副対角成分 9.25
世代時間の近似
$T$
$\displaystyle T \approx \displaystyle\frac{\log R_0}{\log \lambda}$ $R_0$: 純再生産率 9.26

弾力性は相対的な感度であり、異なるスケールのパラメータ間で比較可能。 農業害虫管理では、弾力性が高い生活史段階を標的とすることで効率的な個体数制御が可能。

10. 二次形式の微分

ベクトル・行列の二次形式の微分公式。 証明は証明集 第10章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} (\boldsymbol{a}^\top \boldsymbol{X} \boldsymbol{a})$ $\boldsymbol{a} \boldsymbol{a}^\top$ 行列の二次形式 10.1
$\displaystyle\frac{\partial}{\partial X_{ij}} \left(\sum_{k,l} X_{kl}\right)^2$ $2 \displaystyle\sum_{k,l} X_{kl}$ 成分和の二乗 10.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} (\boldsymbol{b}^\top \boldsymbol{X}^\top \boldsymbol{X} \boldsymbol{c})$ $\boldsymbol{X} (\boldsymbol{b} \boldsymbol{c}^\top + \boldsymbol{c} \boldsymbol{b}^\top)$ グラム行列の双線形形式 10.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} (\boldsymbol{B}\boldsymbol{x}+\boldsymbol{b})^\top \boldsymbol{C} (\boldsymbol{D}\boldsymbol{x}+\boldsymbol{d})$ $\boldsymbol{B}^\top \boldsymbol{C} (\boldsymbol{D}\boldsymbol{x}+\boldsymbol{d})$
$\;+ \boldsymbol{D}^\top \boldsymbol{C}^\top (\boldsymbol{B}\boldsymbol{x}+\boldsymbol{b})$
一般二次形式 10.4
$\displaystyle\frac{\partial (\boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{X})}{\partial X_{ij}}$ $\boldsymbol{X}^\top \boldsymbol{B} \boldsymbol{J}^{ij} + \boldsymbol{J}^{ji} \boldsymbol{B} \boldsymbol{X}$ 行列二次形式の成分微分 10.5
$\displaystyle\frac{\partial \boldsymbol{x}^\top \boldsymbol{B} \boldsymbol{x}}{\partial \boldsymbol{x}}$ $(\boldsymbol{B} + \boldsymbol{B}^\top)\boldsymbol{x}$ ベクトル二次形式 10.6
$\displaystyle\frac{\partial \boldsymbol{b}^\top \boldsymbol{X}^\top \boldsymbol{D} \boldsymbol{X} \boldsymbol{c}}{\partial \boldsymbol{X}}$ $\boldsymbol{D}^\top \boldsymbol{X} \boldsymbol{b} \boldsymbol{c}^\top + \boldsymbol{D} \boldsymbol{X} \boldsymbol{c} \boldsymbol{b}^\top$ 一般化双線形Gram形式 10.7
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} (\boldsymbol{X}\boldsymbol{b} + \boldsymbol{c})^\top \boldsymbol{D} (\boldsymbol{X}\boldsymbol{b} + \boldsymbol{c})$ $(\boldsymbol{D} + \boldsymbol{D}^\top)(\boldsymbol{X}\boldsymbol{b} + \boldsymbol{c})\boldsymbol{b}^\top$ アフィン二次形式 10.8
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} (\boldsymbol{x} - \boldsymbol{s})^\top \boldsymbol{W} (\boldsymbol{x} - \boldsymbol{s})$
($\boldsymbol{W}$: 対称)
$2\boldsymbol{W}(\boldsymbol{x} - \boldsymbol{s})$ 対称二次形式($\boldsymbol{x}$微分) 10.9
$\displaystyle\frac{\partial}{\partial \boldsymbol{s}} (\boldsymbol{x} - \boldsymbol{s})^\top \boldsymbol{W} (\boldsymbol{x} - \boldsymbol{s})$
($\boldsymbol{W}$: 対称)
$-2\boldsymbol{W}(\boldsymbol{x} - \boldsymbol{s})$ 対称二次形式($\boldsymbol{s}$微分) 10.10
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} (\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})^\top \boldsymbol{W} (\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})$
($\boldsymbol{W}$: 対称)
$2\boldsymbol{W}(\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})$ アフィン対称($\boldsymbol{x}$微分) 10.11
$\displaystyle\frac{\partial}{\partial \boldsymbol{s}} (\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})^\top \boldsymbol{W} (\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})$
($\boldsymbol{W}$: 対称)
$-2\boldsymbol{A}^\top\boldsymbol{W}(\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})$ アフィン対称($\boldsymbol{s}$微分) 10.12
$\displaystyle\frac{\partial}{\partial \boldsymbol{A}} (\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})^\top \boldsymbol{W} (\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})$
($\boldsymbol{W}$: 対称)
$-2\boldsymbol{W}(\boldsymbol{x} - \boldsymbol{A}\boldsymbol{s})\boldsymbol{s}^\top$ アフィン対称($\boldsymbol{A}$微分) 10.13

10.1 Fisher情報行列

パラメータ $\boldsymbol{\theta}$ を持つ確率分布 $p(\boldsymbol{x}|\boldsymbol{\theta})$ に対し、 Fisher情報行列は $\boldsymbol{F} = \mathbb{E}\left[\nabla_\theta \log p \cdot (\nabla_\theta \log p)^\top\right]$ で定義される。 スコア関数の外積の期待値として二次形式構造を持つ。

公式 結果 備考 証明
Fisher情報行列
$\boldsymbol{F}(\boldsymbol{\theta})$
$\mathbb{E}_p\left[\nabla_\theta \log p(\boldsymbol{x}|\boldsymbol{\theta}) \cdot \nabla_\theta \log p(\boldsymbol{x}|\boldsymbol{\theta})^\top\right]$ スコア関数の共分散 10.14
$\boldsymbol{F}(\boldsymbol{\theta})$
(Hesse表現)
$-\mathbb{E}_p\left[\displaystyle\frac{\partial^2 \log p(\boldsymbol{x}|\boldsymbol{\theta})}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^\top}\right]$ 負のHesse行列の期待値 10.15
自然勾配
$\tilde{\nabla}_\theta L$
$\boldsymbol{F}^{-1} \nabla_\theta L$ パラメータ空間の計量を考慮した勾配 10.16

10.2 ポートフォリオ最適化

資産配分ベクトル $\boldsymbol{w}$ と共分散行列 $\boldsymbol{\Sigma}$ を用いたMarkowitz平均分散モデル。 リスク(分散)$\boldsymbol{w}^\top \boldsymbol{\Sigma} \boldsymbol{w}$ を最小化する問題の勾配計算。

公式 結果 備考 証明
ポートフォリオ分散
$\displaystyle\frac{\partial}{\partial \boldsymbol{w}}(\boldsymbol{w}^\top \boldsymbol{\Sigma} \boldsymbol{w})$
$2\boldsymbol{\Sigma}\boldsymbol{w}$
($\boldsymbol{\Sigma}$は対称)
分散の勾配 10.17
期待収益制約
$\displaystyle\frac{\partial}{\partial \boldsymbol{w}}(\boldsymbol{\mu}^\top \boldsymbol{w})$
$\boldsymbol{\mu}$ 期待収益率ベクトルの微分 10.18
Sharpe比
$\displaystyle\frac{\partial}{\partial \boldsymbol{w}}\displaystyle\frac{\boldsymbol{\mu}^\top \boldsymbol{w} - r_f}{\sqrt{\boldsymbol{w}^\top \boldsymbol{\Sigma} \boldsymbol{w}}}$
$\displaystyle\frac{\boldsymbol{\mu} - r_f\boldsymbol{1}}{\sigma_p} - \displaystyle\frac{(\boldsymbol{\mu}^\top \boldsymbol{w} - r_f)\boldsymbol{\Sigma}\boldsymbol{w}}{\sigma_p^3}$
($\sigma_p = \sqrt{\boldsymbol{w}^\top \boldsymbol{\Sigma} \boldsymbol{w}}$)
リスク調整後収益率 10.19
最小分散ポートフォリオ
$\boldsymbol{w}^* = \arg\min \boldsymbol{w}^\top \boldsymbol{\Sigma} \boldsymbol{w}$
s.t. $\boldsymbol{1}^\top \boldsymbol{w} = 1$
$\boldsymbol{w}^* = \displaystyle\frac{\boldsymbol{\Sigma}^{-1}\boldsymbol{1}}{\boldsymbol{1}^\top \boldsymbol{\Sigma}^{-1}\boldsymbol{1}}$ Lagrange乗数法による解 10.20

10.3 Bordered Hessian(縁付きヘッセ行列)

制約付き最適化問題の2次条件を判定するbordered Hessian。 $\bar{\boldsymbol{H}} = \begin{pmatrix} \boldsymbol{0} & \boldsymbol{G}^\top \\ \boldsymbol{G} & \boldsymbol{H} \end{pmatrix}$ ここで $\boldsymbol{H}$ はLagrangianのHesse行列、$\boldsymbol{G}$ は制約関数のJacobi行列。

公式 結果 備考 証明
Bordered Hessian
$\bar{\boldsymbol{H}}$
$\begin{pmatrix} \boldsymbol{0}_{m \times m} & \nabla \boldsymbol{g}(\boldsymbol{x})^\top \\ \nabla \boldsymbol{g}(\boldsymbol{x}) & \nabla^2 \mathcal{L} \end{pmatrix}$ 制約付き最適化の2次条件 10.21
$\displaystyle\frac{\partial}{\partial x_i} \bar{\boldsymbol{H}}$ $\begin{pmatrix} \boldsymbol{0} & \displaystyle\frac{\partial \nabla \boldsymbol{g}}{\partial x_i}^\top \\ \displaystyle\frac{\partial \nabla \boldsymbol{g}}{\partial x_i} & \displaystyle\frac{\partial \nabla^2 \mathcal{L}}{\partial x_i} \end{pmatrix}$ bordered Hessianの変数微分 10.22
極小条件
($m$個の制約、$n$変数)
$(-1)^m |\bar{\boldsymbol{H}}_k| > 0$
for $k = 2m+1, ..., n+m$
首座小行列式の符号条件 10.23

10.4 神経集団符号化のFisher情報

神経集団(neural population)による刺激符号化の精度を定量化するFisher情報。 計算神経科学、知覚心理学で使用。チューニングカーブの微分を含む二次形式構造を持つ。

公式 結果 備考 証明
単一ニューロンのFisher情報
(Poisson発火)
$I(\theta) = \displaystyle\frac{[f'(\theta)]^2}{f(\theta)}$ $f(\theta)$: チューニングカーブ
$f'(\theta)$: 傾き
10.24
神経集団のFisher情報
(独立発火)
$I_{\text{pop}}(\theta) = \displaystyle\sum_{i=1}^{N} \displaystyle\frac{[f'_i(\theta)]^2}{f_i(\theta)}$ 加法性(独立ニューロンの和) 10.25
相関のある神経集団
Fisher情報行列
$I(\theta) = \boldsymbol{f}'(\theta)^\top \boldsymbol{Q}^{-1} \boldsymbol{f}'(\theta)$ $\boldsymbol{Q}$: ノイズ共分散行列
$\boldsymbol{f}'$: チューニング勾配
10.26
チューニングカーブの勾配
$\boldsymbol{f}'(\theta)$
$\left(\displaystyle\frac{\partial f_1}{\partial \theta}, \displaystyle\frac{\partial f_2}{\partial \theta}, \ldots, \displaystyle\frac{\partial f_N}{\partial \theta}\right)^\top$ 感度ベクトル
Cramér-Rao下界 $\text{Var}(\hat{\theta}) \geq \displaystyle\frac{1}{I(\theta)}$ 推定精度の理論限界 10.27

Fisher情報はチューニングカーブの傾きが最大となる位置で最も高く、符号化精度が最も良い。 ノイズ相関が存在する場合、共分散行列の逆行列を通じて情報量に影響を与える。

10.5 混合モデルとBLUP/REML

植物育種・動物育種で用いられる線形混合モデルの推定。育種価(遺伝的能力)の予測と分散成分の推定。

公式 結果 備考 証明
混合モデル
$\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{Z}\boldsymbol{u} + \boldsymbol{e}$
$\boldsymbol{u} \sim N(\boldsymbol{0}, \boldsymbol{G}\sigma_u^2)$
$\boldsymbol{e} \sim N(\boldsymbol{0}, \boldsymbol{R})$
$\boldsymbol{\beta}$: 固定効果
$\boldsymbol{u}$: ランダム効果
10.28
Henderson方程式
(BLUP)
$\begin{pmatrix} \boldsymbol{X}^\top \boldsymbol{R}^{-1} \boldsymbol{X} & \boldsymbol{X}^\top \boldsymbol{R}^{-1} \boldsymbol{Z} \\ \boldsymbol{Z}^\top \boldsymbol{R}^{-1} \boldsymbol{X} & \boldsymbol{Z}^\top \boldsymbol{R}^{-1} \boldsymbol{Z} + \boldsymbol{G}^{-1}\lambda \end{pmatrix} \begin{pmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{u}} \end{pmatrix} = \begin{pmatrix} \boldsymbol{X}^\top \boldsymbol{R}^{-1} \boldsymbol{y} \\ \boldsymbol{Z}^\top \boldsymbol{R}^{-1} \boldsymbol{y} \end{pmatrix}$ $\lambda = \sigma_e^2/\sigma_u^2$ 10.29
REML対数尤度
$\log L_R$
$-\displaystyle\frac{1}{2}\left[\log|\boldsymbol{V}| + \log|\boldsymbol{X}^\top \boldsymbol{V}^{-1} \boldsymbol{X}| + \boldsymbol{y}^\top \boldsymbol{P} \boldsymbol{y}\right]$ $\boldsymbol{V} = \boldsymbol{Z}\boldsymbol{G}\boldsymbol{Z}^\top + \boldsymbol{R}$ 10.30
射影行列
$\boldsymbol{P}$
$\boldsymbol{V}^{-1} - \boldsymbol{V}^{-1}\boldsymbol{X}(\boldsymbol{X}^\top \boldsymbol{V}^{-1}\boldsymbol{X})^{-1}\boldsymbol{X}^\top \boldsymbol{V}^{-1}$ $\boldsymbol{P}\boldsymbol{X} = \boldsymbol{0}$ 10.31
REML勾配
$\displaystyle\frac{\partial \log L_R}{\partial \theta}$
$-\displaystyle\frac{1}{2}\left[\text{tr}\left(\boldsymbol{P}\displaystyle\frac{\partial \boldsymbol{V}}{\partial \theta}\right) - \boldsymbol{y}^\top \boldsymbol{P}\displaystyle\frac{\partial \boldsymbol{V}}{\partial \theta}\boldsymbol{P}\boldsymbol{y}\right]$ $\theta$: 分散成分 10.32
AI行列
(Average Information)
$\boldsymbol{AI}_{ij} = \displaystyle\frac{1}{2}\boldsymbol{y}^\top \boldsymbol{P}\displaystyle\frac{\partial \boldsymbol{V}}{\partial \theta_i}\boldsymbol{P}\displaystyle\frac{\partial \boldsymbol{V}}{\partial \theta_j}\boldsymbol{P}\boldsymbol{y}$ Fisher情報の近似 10.33
分散成分の更新
(AI-REML)
$\boldsymbol{\theta}^{(k+1)} = \boldsymbol{\theta}^{(k)} + \boldsymbol{AI}^{-1}\nabla \log L_R$ Newton-Raphson法 10.34

BLUPは育種価の最良線形不偏予測を与え、REMLは固定効果を除去した上で分散成分を推定する。 AI-REMLはFisher情報行列の期待値と観測値の平均を用いることで、高速かつ安定な収束を実現する。

10.6 空間統計とクリギング

精密農業・土壌分析で用いられる地球統計学的手法。空間相関を考慮した予測と分散推定。

公式 結果 備考 証明
セミバリオグラム
$\gamma(h)$
$\displaystyle\frac{1}{2}\text{Var}[Z(\boldsymbol{s}) - Z(\boldsymbol{s}+\boldsymbol{h})]$ $h$: ラグ距離 10.35
球形モデル
$\gamma(h; \boldsymbol{\theta})$
$\tau^2 + \sigma^2\left[\displaystyle\frac{3h}{2\phi} - \displaystyle\frac{1}{2}\left(\displaystyle\frac{h}{\phi}\right)^3\right]$($h \leq \phi$) $\tau^2$: ナゲット
$\phi$: レンジ
10.36
クリギング重み
(ラグランジュ法)
$\begin{pmatrix} \boldsymbol{C} & \boldsymbol{1} \\ \boldsymbol{1}^\top & 0 \end{pmatrix} \begin{pmatrix} \boldsymbol{\lambda} \\ \mu \end{pmatrix} = \begin{pmatrix} \boldsymbol{c}_0 \\ 1 \end{pmatrix}$ $\boldsymbol{C}$: 共分散行列
$\mu$: ラグランジュ乗数
10.37
クリギング予測
$\hat{Z}(\boldsymbol{s}_0)$
$\boldsymbol{\lambda}^\top \boldsymbol{z}$ 観測値の線形結合 10.38
クリギング分散
$\sigma_K^2$
$C(0) - \boldsymbol{\lambda}^\top \boldsymbol{c}_0 - \mu$ 予測誤差分散 10.39
対数尤度の勾配
$\displaystyle\frac{\partial \log L}{\partial \theta}$
$-\displaystyle\frac{1}{2}\text{tr}\left(\boldsymbol{\Sigma}^{-1}\displaystyle\frac{\partial \boldsymbol{\Sigma}}{\partial \theta}\right) + \displaystyle\frac{1}{2}\boldsymbol{r}^\top \boldsymbol{\Sigma}^{-1}\displaystyle\frac{\partial \boldsymbol{\Sigma}}{\partial \theta}\boldsymbol{\Sigma}^{-1}\boldsymbol{r}$ $\boldsymbol{r}$: 残差 10.40

クリギングは不偏かつ最小分散の空間予測を与える。バリオグラムパラメータの推定には重み付き最小二乗法または最尤推定法を用いる。

10.7 ゲノム選抜(GBLUP)

植物育種・動物育種でDNAマーカー情報を用いた育種価予測。ゲノム関係行列を用いたBLUP。

公式 結果 備考 証明
ゲノム関係行列
$\boldsymbol{G}$
$\displaystyle\frac{\boldsymbol{W}\boldsymbol{W}^\top}{2\sum_j p_j(1-p_j)}$ $\boldsymbol{W}$: 中心化マーカー行列
$p_j$: アレル頻度
10.41
マーカー効果
(RR-BLUP)
$\hat{\boldsymbol{g}} = \boldsymbol{W}^\top(\boldsymbol{W}\boldsymbol{W}^\top + \lambda\boldsymbol{I})^{-1}\boldsymbol{y}$ $\lambda = \sigma_e^2/\sigma_g^2$ 10.42
GBLUP育種価
$\hat{\boldsymbol{u}}$
$\boldsymbol{G}(\boldsymbol{G} + \lambda\boldsymbol{I})^{-1}\boldsymbol{y}$ $\boldsymbol{W}\hat{\boldsymbol{g}}$ と等価 10.43
交差検証誤差
$\text{CV}(\lambda)$
$\displaystyle\sum_{i=1}^{n} \left(\displaystyle\frac{y_i - \hat{y}_i}{1 - H_{ii}}\right)^2$ $\boldsymbol{H}$: ハット行列 10.44
$\displaystyle\frac{\partial \text{CV}}{\partial \lambda}$ $2\sum_{i=1}^{n} \displaystyle\frac{(y_i - \hat{y}_i)}{(1-H_{ii})^2}\left[\displaystyle\frac{\partial \hat{y}_i}{\partial \lambda}(1-H_{ii}) + (y_i - \hat{y}_i)\displaystyle\frac{\partial H_{ii}}{\partial \lambda}\right]$ $\lambda$最適化に使用 10.45
予測精度
$r_{GS}$
$\text{cor}(\hat{\boldsymbol{u}}, \boldsymbol{u}) \approx \sqrt{\displaystyle\frac{n h^2}{n h^2 + M_e}}$ $h^2$: 遺伝率
$M_e$: 有効マーカー数
10.46

GBLUPはゲノムワイドな遺伝情報を用いて高精度な育種価予測を実現する。 リッジ回帰形式(RR-BLUP)とGBLUP形式は数学的に等価であり、計算効率に応じて使い分ける。

11. 行列べき乗と合成関数の微分

行列のべき乗 $\boldsymbol{X}^n$ を含む関数、および合成関数・Rayleigh商の微分公式。 証明は証明集 第11章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial (\boldsymbol{X}^n)_{kl}}{\partial X_{ij}}$ $\displaystyle\sum_{r=0}^{n-1} (\boldsymbol{X}^r \boldsymbol{J}^{ij} \boldsymbol{X}^{n-1-r})_{kl}$ 行列べき乗の成分微分 11.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \boldsymbol{a}^\top \boldsymbol{X}^n \boldsymbol{b}$ $\displaystyle\sum_{r=0}^{n-1} (\boldsymbol{X}^r)^\top \boldsymbol{a} \boldsymbol{b}^\top (\boldsymbol{X}^{n-1-r})^\top$ べき乗の双線形形式 11.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \boldsymbol{a}^\top (\boldsymbol{X}^n)^\top \boldsymbol{X}^n \boldsymbol{b}$ $\displaystyle\sum_{r=0}^{n-1} \bigl[ \boldsymbol{X}^{n-1-r} \boldsymbol{a} \boldsymbol{b}^\top (\boldsymbol{X}^n)^\top \boldsymbol{X}^r$
$\;+ (\boldsymbol{X}^r)^\top \boldsymbol{X}^n \boldsymbol{a} \boldsymbol{b}^\top (\boldsymbol{X}^{n-1-r})^\top \bigr]$
べき乗のGram形式 11.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} \boldsymbol{s}(\boldsymbol{x})^\top \boldsymbol{A} \boldsymbol{r}(\boldsymbol{x})$ $\displaystyle\left[\displaystyle\frac{\partial \boldsymbol{s}}{\partial \boldsymbol{x}}\right]^\top \boldsymbol{A} \boldsymbol{r} + \left[\displaystyle\frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}}\right]^\top \boldsymbol{A}^\top \boldsymbol{s}$ 合成双線形形式 11.4
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} \displaystyle\frac{(\boldsymbol{A}\boldsymbol{x})^\top (\boldsymbol{A}\boldsymbol{x})}{(\boldsymbol{B}\boldsymbol{x})^\top (\boldsymbol{B}\boldsymbol{x})}$ $\displaystyle 2\displaystyle\frac{\boldsymbol{A}^\top \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^\top \boldsymbol{B}^\top\boldsymbol{B}\boldsymbol{x}}$
$\displaystyle \;- 2\displaystyle\frac{\boldsymbol{x}^\top \boldsymbol{A}^\top \boldsymbol{A} \boldsymbol{x} \cdot \boldsymbol{B}^\top \boldsymbol{B} \boldsymbol{x}}{(\boldsymbol{x}^\top \boldsymbol{B}^\top \boldsymbol{B} \boldsymbol{x})^2}$
Rayleigh商 11.5
$f(\boldsymbol{x}) = \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} + \boldsymbol{b}^\top \boldsymbol{x}$ $\nabla_{\boldsymbol{x}} f = (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{x} + \boldsymbol{b}$ 勾配 11.6
$f(\boldsymbol{x}) = \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} + \boldsymbol{b}^\top \boldsymbol{x}$ $\displaystyle\frac{\partial^2 f}{\partial \boldsymbol{x} \partial \boldsymbol{x}^\top} = \boldsymbol{A} + \boldsymbol{A}^\top$ Hessian 11.6

11.1 行列指数関数の微分

行列指数関数 $e^{\boldsymbol{A}} = \sum_{k=0}^{\infty} \displaystyle\frac{\boldsymbol{A}^k}{k!}$ の微分(Fréchet微分)。 リー群・リー代数、微分方程式、制御理論で重要。

公式 結果 備考 証明
$D_{\boldsymbol{A}} e^{\boldsymbol{A}}[\boldsymbol{E}]$
(方向 $\boldsymbol{E}$ へのFréchet微分)
$\displaystyle\int_0^1 e^{s\boldsymbol{A}} \boldsymbol{E}\, e^{(1-s)\boldsymbol{A}} ds$ 行列指数関数のFréchet微分 11.7
$\displaystyle\frac{\partial}{\partial t} e^{t\boldsymbol{A}}$ $\boldsymbol{A} e^{t\boldsymbol{A}} = e^{t\boldsymbol{A}} \boldsymbol{A}$ スカラパラメータ微分 11.8
$\displaystyle\frac{\partial}{\partial \boldsymbol{A}} \text{tr}(e^{\boldsymbol{A}})$ $(e^{\boldsymbol{A}})^\top$ 行列指数のトレース微分 11.9
$e^{\boldsymbol{A}}$ の条件数 $\kappa(e^{\boldsymbol{A}}) = \|L(\boldsymbol{A}, \cdot)\|$
($L$はFréchet微分作用素)
数値安定性の指標 11.10

11.2 行列平方根の勾配

正定値行列 $\boldsymbol{A}$ の行列平方根 $\boldsymbol{A}^{1/2}$($\boldsymbol{A} = \boldsymbol{A}^{1/2}\boldsymbol{A}^{1/2}$ を満たす)の勾配。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{A}}$
($\boldsymbol{S} = \boldsymbol{A}^{1/2}$)
Sylvester方程式
$\boldsymbol{S}\boldsymbol{X} + \boldsymbol{X}\boldsymbol{S} = \bar{\boldsymbol{S}}$ の解
$\bar{\boldsymbol{S}}$ は上流勾配
$\displaystyle\frac{\partial L}{\partial \boldsymbol{A}} = \boldsymbol{X}$
11.11

11.3 薬物動態学のコンパートメントモデル

線形コンパートメントモデル $\dot{\boldsymbol{x}} = \boldsymbol{K}\boldsymbol{x}$ の行列指数関数による解。 薬物動態学(PK)、生理学、システム生物学で使用。

公式 結果 備考 証明
コンパートメントモデルの解
$\boldsymbol{x}(t)$
$e^{t\boldsymbol{K}}\boldsymbol{x}(0)$ $\boldsymbol{K}$: 速度定数行列 11.12
$\displaystyle\frac{\partial \boldsymbol{x}(t)}{\partial K_{ij}}$ $\displaystyle\int_0^t e^{(t-s)\boldsymbol{K}} \boldsymbol{J}^{ij} e^{s\boldsymbol{K}} ds \cdot \boldsymbol{x}(0)$ 速度定数に対する感度 11.13
固有値分解による表現
($\boldsymbol{K} = \boldsymbol{V}\boldsymbol{\Lambda}\boldsymbol{V}^{-1}$)
$e^{t\boldsymbol{K}} = \boldsymbol{V} e^{t\boldsymbol{\Lambda}} \boldsymbol{V}^{-1}$ $\boldsymbol{\Lambda}$: 対角行列(固有値) 11.14
$\displaystyle\frac{\partial}{\partial t} e^{t\boldsymbol{K}}$ $\boldsymbol{K} e^{t\boldsymbol{K}} = e^{t\boldsymbol{K}} \boldsymbol{K}$ 時間微分 11.8
AUC(曲線下面積)
$\displaystyle\int_0^\infty \boldsymbol{x}(t)\, dt$
$-\boldsymbol{K}^{-1}\boldsymbol{x}(0)$
($\boldsymbol{K}$ が安定の場合)
薬物曝露量の指標 11.15
$\displaystyle\frac{\partial \text{AUC}}{\partial K_{ij}}$ $\boldsymbol{K}^{-1}\boldsymbol{J}^{ij}\boldsymbol{K}^{-1}\boldsymbol{x}(0)$ AUCの速度定数感度 11.16

コンパートメントモデルのパラメータ推定では、行列指数関数の微分を用いて勾配を計算する。 数値的には Padé 近似や scaling-squaring 法が用いられる。

11.4 Lyapunov方程式と安定性解析

線形システム $\dot{\boldsymbol{x}} = \boldsymbol{A}\boldsymbol{x}$ の安定性を判定するLyapunov方程式。 制御工学、システム理論で安定性証明・グラミアン計算に使用。

公式 結果 備考 証明
連続時間Lyapunov方程式
$\boldsymbol{A}^\top\boldsymbol{P} + \boldsymbol{P}\boldsymbol{A} + \boldsymbol{Q} = \boldsymbol{O}$
$\boldsymbol{P}$: Lyapunov行列
$\boldsymbol{Q} \succ 0$: 正定値行列
$\boldsymbol{A}$ がHurwitzなら
唯一解 $\boldsymbol{P} \succ 0$ が存在
11.17
離散時間Lyapunov方程式
$\boldsymbol{A}^\top\boldsymbol{P}\boldsymbol{A} - \boldsymbol{P} + \boldsymbol{Q} = \boldsymbol{O}$
$\boldsymbol{P}$: Lyapunov行列 $\boldsymbol{A}$ がSchur安定なら
唯一解が存在
11.18
Lyapunov関数
$V(\boldsymbol{x}) = \boldsymbol{x}^\top\boldsymbol{P}\boldsymbol{x}$
$\dot{V} = \boldsymbol{x}^\top(\boldsymbol{A}^\top\boldsymbol{P} + \boldsymbol{P}\boldsymbol{A})\boldsymbol{x}$
$= -\boldsymbol{x}^\top\boldsymbol{Q}\boldsymbol{x}$
$\dot{V} < 0$ で漸近安定 11.19
積分解
$\boldsymbol{P}$
$\displaystyle\int_0^\infty e^{\boldsymbol{A}^\top t}\boldsymbol{Q} e^{\boldsymbol{A} t}\, dt$ $\boldsymbol{A}$ がHurwitzのとき 11.20

Lyapunov方程式の解 $\boldsymbol{P}$ が正定値であることと、$\boldsymbol{A}$ の全固有値の実部が負であること(Hurwitz条件)は同値。

11.5 代数的Riccati方程式(ARE)

LQR最適制御・Kalmanフィルタで現れる代数的Riccati方程式。 制御工学、状態推定、最適制御理論の中核的方程式。

公式 結果 備考 証明
連続時間ARE(制御)
$\boldsymbol{A}^\top\boldsymbol{P} + \boldsymbol{P}\boldsymbol{A}$
$- \boldsymbol{P}\boldsymbol{B}\boldsymbol{R}^{-1}\boldsymbol{B}^\top\boldsymbol{P} + \boldsymbol{Q} = \boldsymbol{O}$
$\boldsymbol{P}$: Riccati解
$\boldsymbol{Q}, \boldsymbol{R} \succ 0$
LQRの最適コスト行列 11.21
離散時間ARE
$\boldsymbol{P} = \boldsymbol{Q} + \boldsymbol{A}^\top\boldsymbol{P}\boldsymbol{A}$
$- \boldsymbol{A}^\top\boldsymbol{P}\boldsymbol{B}(\boldsymbol{R} + \boldsymbol{B}^\top\boldsymbol{P}\boldsymbol{B})^{-1}\boldsymbol{B}^\top\boldsymbol{P}\boldsymbol{A}$
$\boldsymbol{P}$: Riccati解 離散時間LQR 11.22
LQR最適ゲイン
$\boldsymbol{K}^*$
$\boldsymbol{R}^{-1}\boldsymbol{B}^\top\boldsymbol{P}$ $\boldsymbol{u}^* = -\boldsymbol{K}^*\boldsymbol{x}$ 11.23
最適コスト関数
$J^*(\boldsymbol{x}_0)$
$\boldsymbol{x}_0^\top\boldsymbol{P}\boldsymbol{x}_0$ 初期状態からの最適コスト 11.24
閉ループ安定性
$\boldsymbol{A} - \boldsymbol{B}\boldsymbol{K}^*$
全固有値がHurwitz $(A, B)$ 可制御で保証

$(A, B)$ が可制御で $(A, Q^{1/2})$ が可観測なら、唯一の正定値解 $\boldsymbol{P}$ が存在する。

11.6 可制御性・可観測性グラミアン

線形システムの可制御性・可観測性を定量化するグラミアン行列。 制御工学、モデル低次元化、バランス実現で使用。

公式 結果 備考 証明
可制御性グラミアン
$\boldsymbol{W}_c$
$\displaystyle\int_0^\infty e^{\boldsymbol{A} t}\boldsymbol{B}\boldsymbol{B}^\top e^{\boldsymbol{A}^\top t}\, dt$ $\boldsymbol{A}$ がHurwitzのとき収束 11.25
可制御性Lyapunov方程式
$\boldsymbol{A}\boldsymbol{W}_c + \boldsymbol{W}_c\boldsymbol{A}^\top + \boldsymbol{B}\boldsymbol{B}^\top = \boldsymbol{O}$
$\boldsymbol{W}_c$: 可制御性グラミアン $\boldsymbol{W}_c \succ 0 \Leftrightarrow$ 可制御 11.26
可観測性グラミアン
$\boldsymbol{W}_o$
$\displaystyle\int_0^\infty e^{\boldsymbol{A}^\top t}\boldsymbol{C}^\top\boldsymbol{C} e^{\boldsymbol{A} t}\, dt$ $\boldsymbol{A}$ がHurwitzのとき収束 11.27
可観測性Lyapunov方程式
$\boldsymbol{A}^\top\boldsymbol{W}_o + \boldsymbol{W}_o\boldsymbol{A} + \boldsymbol{C}^\top\boldsymbol{C} = \boldsymbol{O}$
$\boldsymbol{W}_o$: 可観測性グラミアン $\boldsymbol{W}_o \succ 0 \Leftrightarrow$ 可観測 11.28
バランス実現条件
$\boldsymbol{W}_c = \boldsymbol{W}_o = \boldsymbol{\Sigma}$
$\boldsymbol{\Sigma} = \text{diag}(\sigma_1, \ldots, \sigma_n)$ $\sigma_i$: Hankel特異値 11.29

Hankel特異値はモデル低次元化における状態の重要度を表し、小さい特異値に対応する状態を削除することでモデルを近似できる。

11.7 Kalmanフィルタの行列方程式

線形ガウス状態空間モデルの最適状態推定器であるKalmanフィルタの行列方程式。 制御工学、航法、信号処理で使用。

公式 結果 備考 証明
予測ステップ(状態)
$\hat{\boldsymbol{x}}_{k|k-1}$
$\boldsymbol{A}\hat{\boldsymbol{x}}_{k-1|k-1} + \boldsymbol{B}\boldsymbol{u}_{k-1}$ 状態遷移モデル
予測ステップ(共分散)
$\boldsymbol{P}_{k|k-1}$
$\boldsymbol{A}\boldsymbol{P}_{k-1|k-1}\boldsymbol{A}^\top + \boldsymbol{Q}$ $\boldsymbol{Q}$: プロセスノイズ共分散 11.30
Kalmanゲイン
$\boldsymbol{K}_k$
$\boldsymbol{P}_{k|k-1}\boldsymbol{C}^\top(\boldsymbol{C}\boldsymbol{P}_{k|k-1}\boldsymbol{C}^\top + \boldsymbol{R})^{-1}$ $\boldsymbol{R}$: 観測ノイズ共分散 11.31
更新ステップ(状態)
$\hat{\boldsymbol{x}}_{k|k}$
$\hat{\boldsymbol{x}}_{k|k-1} + \boldsymbol{K}_k(\boldsymbol{y}_k - \boldsymbol{C}\hat{\boldsymbol{x}}_{k|k-1})$ イノベーションで補正
更新ステップ(共分散)
$\boldsymbol{P}_{k|k}$
$(\boldsymbol{I} - \boldsymbol{K}_k\boldsymbol{C})\boldsymbol{P}_{k|k-1}$ Joseph形式でより安定 11.32
Joseph形式
$\boldsymbol{P}_{k|k}$
$(\boldsymbol{I} - \boldsymbol{K}_k\boldsymbol{C})\boldsymbol{P}_{k|k-1}(\boldsymbol{I} - \boldsymbol{K}_k\boldsymbol{C})^\top$
$+ \boldsymbol{K}_k\boldsymbol{R}\boldsymbol{K}_k^\top$
数値的に安定 11.33

定常Kalmanフィルタでは共分散 $\boldsymbol{P}$ が収束し、フィルタリングRiccati方程式の解となる。 LQGはLQR+Kalmanフィルタの組み合わせで、分離定理により独立に設計できる。

11.8 Lagrange動力学の行列微分

ロボットマニピュレータのLagrange動力学における行列微分公式。 $n$ 自由度のロボットの運動方程式は $\boldsymbol{M}(\boldsymbol{q})\ddot{\boldsymbol{q}} + \boldsymbol{C}(\boldsymbol{q}, \dot{\boldsymbol{q}})\dot{\boldsymbol{q}} + \boldsymbol{g}(\boldsymbol{q}) = \boldsymbol{\tau}$ で与えられる。

公式 結果 備考 証明
運動エネルギー
$T(\boldsymbol{q}, \dot{\boldsymbol{q}})$
$\displaystyle\frac{1}{2}\dot{\boldsymbol{q}}^\top \boldsymbol{M}(\boldsymbol{q}) \dot{\boldsymbol{q}}$ $\boldsymbol{M}$: 質量行列(正定値対称)
$\displaystyle\frac{\partial T}{\partial \dot{\boldsymbol{q}}}$ $\boldsymbol{M}(\boldsymbol{q})\dot{\boldsymbol{q}}$ 一般化運動量 11.34
$\displaystyle\frac{d}{dt}\displaystyle\frac{\partial T}{\partial \dot{\boldsymbol{q}}}$ $\boldsymbol{M}(\boldsymbol{q})\ddot{\boldsymbol{q}} + \dot{\boldsymbol{M}}(\boldsymbol{q})\dot{\boldsymbol{q}}$ Euler-Lagrange方程式の左辺 11.35
Christoffel記号
$c_{ijk}$
$\displaystyle\frac{1}{2}\left(\displaystyle\frac{\partial M_{ij}}{\partial q_k} + \displaystyle\frac{\partial M_{ik}}{\partial q_j} - \displaystyle\frac{\partial M_{jk}}{\partial q_i}\right)$ 質量行列の偏微分から計算 11.36
Coriolis行列
$C_{ij}(\boldsymbol{q}, \dot{\boldsymbol{q}})$
$\sum_{k=0}^{n-1} c_{ijk} \dot{q}_k$ Coriolis・遠心力項 11.37
$\dot{\boldsymbol{M}} - 2\boldsymbol{C}$ 歪対称行列 $\boldsymbol{v}^\top(\dot{\boldsymbol{M}} - 2\boldsymbol{C})\boldsymbol{v} = 0$(パッシビティ) 11.38
$\displaystyle\frac{\partial \boldsymbol{g}}{\partial \boldsymbol{q}}$ $\displaystyle\frac{\partial^2 U}{\partial \boldsymbol{q}^2}$(Hesse行列) $U$: ポテンシャルエネルギー 11.39

質量行列 $\boldsymbol{M}(\boldsymbol{q})$ は関節座標 $\boldsymbol{q}$ に依存し、$\dot{\boldsymbol{M}} = \sum_k \displaystyle\frac{\partial \boldsymbol{M}}{\partial q_k} \dot{q}_k$ となる。 $\dot{\boldsymbol{M}} - 2\boldsymbol{C}$ が歪対称(パッシビティ性)であることは、適応制御・ロバスト制御の設計で重要。

11.9 マニピュラビリティと特異値

ロボットマニピュレータの操作性を評価するマニピュラビリティ指標。 Jacobian行列 $\boldsymbol{J}(\boldsymbol{q}) \in \mathbb{R}^{m \times n}$ の特異値に基づく。

公式 結果 備考 証明
Yoshikawa可操作度
$\mu(\boldsymbol{q})$
$\sqrt{\det(\boldsymbol{J}\boldsymbol{J}^\top)}$ 楕円体の体積に比例 11.40
$\displaystyle\frac{\partial \mu}{\partial \boldsymbol{q}}$ $\mu \cdot \text{tr}\left((\boldsymbol{J}\boldsymbol{J}^\top)^{-1} \displaystyle\frac{\partial(\boldsymbol{J}\boldsymbol{J}^\top)}{\partial \boldsymbol{q}}\right)$ 可操作度の勾配 11.41
条件数
$\kappa(\boldsymbol{J})$
$\sigma_{\max} / \sigma_{\min}$ 等方性指標の逆数
マニピュラビリティ楕円体 $\boldsymbol{v}^\top (\boldsymbol{J}\boldsymbol{J}^\top)^{-1} \boldsymbol{v} \le 1$ 手先速度の到達可能領域
$\displaystyle\frac{\partial \det(\boldsymbol{J}\boldsymbol{J}^\top)}{\partial \boldsymbol{q}}$ $2\det(\boldsymbol{J}\boldsymbol{J}^\top) \cdot \text{vec}\left((\boldsymbol{J}\boldsymbol{J}^\top)^{-1}\boldsymbol{J}\right)^\top \displaystyle\frac{\partial \text{vec}(\boldsymbol{J})}{\partial \boldsymbol{q}}$ 特異点回避に使用 11.42

$\mu = 0$ となる点が特異点であり、逆運動学の解が不定または無限大になる。 特異点回避のため、$\mu$ を最大化する冗長自由度の利用や、 減衰最小二乗法(DLS)$\dot{\boldsymbol{q}} = \boldsymbol{J}^\top(\boldsymbol{J}\boldsymbol{J}^\top + \lambda^2\boldsymbol{I})^{-1}\dot{\boldsymbol{x}}$ が用いられる。

11.10 運動学的Hessianテンソル

順運動学の2階微分である運動学的Hessian。 $\boldsymbol{x} = \boldsymbol{f}(\boldsymbol{q})$ のとき、加速度は $\ddot{\boldsymbol{x}} = \boldsymbol{J}\ddot{\boldsymbol{q}} + \dot{\boldsymbol{J}}\dot{\boldsymbol{q}}$ で与えられ、 $\dot{\boldsymbol{J}}\dot{\boldsymbol{q}}$ の計算にHessianテンソルが必要。

公式 結果 備考 証明
Jacobianの時間微分
$\dot{\boldsymbol{J}}$
$\sum_{k=0}^{n-1} \displaystyle\frac{\partial \boldsymbol{J}}{\partial q_k} \dot{q}_k$ 加速度計算に使用 11.43
手先加速度
$\ddot{\boldsymbol{x}}$
$\boldsymbol{J}\ddot{\boldsymbol{q}} + \dot{\boldsymbol{J}}\dot{\boldsymbol{q}}$ 線形項+Coriolis項 11.44
運動学的Hessian
$H_{ijk}$
$\displaystyle\frac{\partial^2 x_i}{\partial q_j \partial q_k} = \displaystyle\frac{\partial J_{ij}}{\partial q_k}$ 3階テンソル($m \times n \times n$) 11.45
$(\dot{\boldsymbol{J}}\dot{\boldsymbol{q}})_i$ $\sum_{j,k} H_{ijk} \dot{q}_j \dot{q}_k$ Hessianを用いた計算 11.46
$H_{ijk}$ の対称性 $H_{ijk} = H_{ikj}$ $j, k$ について対称

運動学的Hessianは特異点回避アルゴリズムや、逆動力学の効率的計算にも使用される。 冗長マニピュレータでは、零空間射影 $(\boldsymbol{I} - \boldsymbol{J}^+\boldsymbol{J})$ の微分にもHessianが現れる。

11.11 電力システム潮流計算

電力系統の潮流計算(Power Flow)ではNewton-Raphson法が使用され、Jacobian行列が重要な役割を果たす。 電圧安定性解析や状態推定にも行列微分が必要。

公式 結果 備考 証明
有効電力
$P_i$
$|V_i|\sum_{k} |V_k|(G_{ik}\cos\theta_{ik} + B_{ik}\sin\theta_{ik})$ $\theta_{ik} = \theta_i - \theta_k$
$G, B$: コンダクタンス、サセプタンス
11.47
無効電力
$Q_i$
$|V_i|\sum_{k} |V_k|(G_{ik}\sin\theta_{ik} - B_{ik}\cos\theta_{ik})$ 送電線の電気的特性 11.48
潮流Jacobian
$\boldsymbol{J}$
$\begin{bmatrix} \displaystyle\frac{\partial \boldsymbol{P}}{\partial \boldsymbol{\theta}} & \displaystyle\frac{\partial \boldsymbol{P}}{\partial |\boldsymbol{V}|} \\ \displaystyle\frac{\partial \boldsymbol{Q}}{\partial \boldsymbol{\theta}} & \displaystyle\frac{\partial \boldsymbol{Q}}{\partial |\boldsymbol{V}|} \end{bmatrix}$ Newton-Raphson反復法 11.49
$\displaystyle\frac{\partial P_i}{\partial \theta_k}$
($i \ne k$)
$|V_i||V_k|(G_{ik}\sin\theta_{ik} - B_{ik}\cos\theta_{ik})$ 非対角成分 11.50
$\displaystyle\frac{\partial P_i}{\partial \theta_i}$ $-Q_i - B_{ii}|V_i|^2$ 対角成分 11.51
$\displaystyle\frac{\partial P_i}{\partial |V_k|}$
($i \ne k$)
$|V_i|(G_{ik}\cos\theta_{ik} + B_{ik}\sin\theta_{ik})$ 非対角成分 11.52
$\displaystyle\frac{\partial P_i}{\partial |V_i|}$ $\displaystyle\frac{P_i}{|V_i|} + G_{ii}|V_i|$ 対角成分 11.53
$\displaystyle\frac{\partial Q_i}{\partial \theta_k}$
($i \ne k$)
$-|V_i||V_k|(G_{ik}\cos\theta_{ik} + B_{ik}\sin\theta_{ik})$ $= -\displaystyle\frac{\partial P_i}{\partial |V_k|} \cdot |V_k|$ 11.54
$\displaystyle\frac{\partial Q_i}{\partial \theta_i}$ $P_i - G_{ii}|V_i|^2$ 対角成分 11.55
$\displaystyle\frac{\partial Q_i}{\partial |V_i|}$ $\displaystyle\frac{Q_i}{|V_i|} - B_{ii}|V_i|$ 対角成分 11.56

ここで $G_{ik} + jB_{ik}$ はアドミタンス行列 $\boldsymbol{Y}$ の $(i,k)$ 要素、 $\theta_{ik} = \theta_i - \theta_k$ はバス間の位相角差である。 Newton-Raphson法では $[\Delta\boldsymbol{\theta}, \Delta|\boldsymbol{V}|]^\top = -\boldsymbol{J}^{-1}[\Delta\boldsymbol{P}, \Delta\boldsymbol{Q}]^\top$ で更新する。

11.12 回路解析

非線形回路のSPICE解析でNewton-Raphson法を使用する際、素子の電圧-電流特性のJacobianが必要。

公式 結果 備考 証明
ダイオード電流
$I_D(V_D)$
$I_s\left(e^{V_D/nV_T} - 1\right)$ $I_s$: 飽和電流、$n$: 理想係数
$V_T = kT/q$: 熱電圧
11.57
$\displaystyle\frac{\partial I_D}{\partial V_D}$ $\displaystyle\frac{I_s}{nV_T}e^{V_D/nV_T} = \displaystyle\frac{I_D + I_s}{nV_T}$ 動的コンダクタンス 11.58
MOSFET飽和領域
$I_{DS}$
$\displaystyle\frac{\mu C_{ox}W}{2L}(V_{GS} - V_{th})^2(1 + \lambda V_{DS})$ 二次特性(長チャネル近似) 11.59
$\displaystyle\frac{\partial I_{DS}}{\partial V_{GS}}$ (gm) $\displaystyle\frac{\mu C_{ox}W}{L}(V_{GS} - V_{th})(1 + \lambda V_{DS})$ 相互コンダクタンス 11.60
$\displaystyle\frac{\partial I_{DS}}{\partial V_{DS}}$ (gds) $\lambda \displaystyle\frac{\mu C_{ox}W}{2L}(V_{GS} - V_{th})^2$ 出力コンダクタンス
$\lambda$: チャネル長変調係数
11.61
MNA Jacobian
$\boldsymbol{J}_{\text{MNA}}$
$\boldsymbol{G} + \boldsymbol{J}_{\text{NL}}(\boldsymbol{v})$ $\boldsymbol{G}$: 線形コンダクタンス
$\boldsymbol{J}_{\text{NL}}$: 非線形素子のJacobian
11.62

MNA(Modified Nodal Analysis)では、非線形素子を含む回路方程式 $\boldsymbol{f}(\boldsymbol{v}) = \boldsymbol{0}$ を $\boldsymbol{v}^{(k+1)} = \boldsymbol{v}^{(k)} - \boldsymbol{J}^{-1}\boldsymbol{f}(\boldsymbol{v}^{(k)})$ で反復的に解く。

11.13 飛行力学の安定微係数

航空機の非線形運動方程式を平衡点周りで線形化して得られる安定微係数(Stability Derivatives)。 縦運動と横・方向運動の解析に使用。

公式 結果 備考 証明
縦運動状態方程式
$\dot{\boldsymbol{x}}_{\text{lon}}$
$\boldsymbol{A}_{\text{lon}}\boldsymbol{x}_{\text{lon}} + \boldsymbol{B}_{\text{lon}}\boldsymbol{u}_{\text{lon}}$ $\boldsymbol{x}_{\text{lon}} = (u, w, q, \theta)^\top$
$\boldsymbol{u}_{\text{lon}} = (\delta_e, \delta_T)^\top$
11.63
揚力係数微分
$C_{L_\alpha}$
$\displaystyle\frac{\partial C_L}{\partial \alpha}$ 迎え角に対する揚力勾配 11.64
ピッチングモーメント微分
$C_{m_\alpha}$
$\displaystyle\frac{\partial C_m}{\partial \alpha}$ 縦静安定($< 0$ で安定) 11.65
ピッチダンピング
$C_{m_q}$
$\displaystyle\frac{\partial C_m}{\partial \hat{q}}$, $\hat{q} = \displaystyle\frac{qc}{2V}$ $c$: 平均空力翼弦
$V$: 速度
11.66
横・方向状態方程式
$\dot{\boldsymbol{x}}_{\text{lat}}$
$\boldsymbol{A}_{\text{lat}}\boldsymbol{x}_{\text{lat}} + \boldsymbol{B}_{\text{lat}}\boldsymbol{u}_{\text{lat}}$ $\boldsymbol{x}_{\text{lat}} = (v, p, r, \phi)^\top$
$\boldsymbol{u}_{\text{lat}} = (\delta_a, \delta_r)^\top$
11.67
横力係数微分
$C_{Y_\beta}$
$\displaystyle\frac{\partial C_Y}{\partial \beta}$ 横滑り角に対する側力勾配 11.68
ヨーイングモーメント微分
$C_{n_\beta}$
$\displaystyle\frac{\partial C_n}{\partial \beta}$ 方向静安定($> 0$ で安定) 11.69
ローリングモーメント微分
$C_{l_\beta}$
$\displaystyle\frac{\partial C_l}{\partial \beta}$ 上反角効果($< 0$ で安定) 11.70

ここで $\alpha$ は迎え角、$\beta$ は横滑り角、$p, q, r$ はロール・ピッチ・ヨー角速度、 $\delta_e, \delta_a, \delta_r$ はエレベータ・エルロン・ラダー舵角、$\delta_T$ は推力設定である。

11.14 大気抵抗の微分

宇宙機の軌道減衰や大気再突入解析で使用される大気抵抗の微分。

公式 結果 備考 証明
大気抵抗加速度
$\boldsymbol{a}_D$
$-\displaystyle\frac{1}{2}\rho C_D \displaystyle\frac{A}{m} v \boldsymbol{v}$ $\rho$: 大気密度
$C_D$: 抵抗係数
$A$: 断面積
11.71
$\displaystyle\frac{\partial \boldsymbol{a}_D}{\partial \boldsymbol{v}}$ $-\displaystyle\frac{1}{2}\rho C_D \displaystyle\frac{A}{m}\left(v\boldsymbol{I} + \displaystyle\frac{\boldsymbol{v}\boldsymbol{v}^\top}{v}\right)$ 速度に対するJacobian 11.72
指数大気モデル
$\rho(h)$
$\rho_0 \exp\left(-\displaystyle\frac{h - h_0}{H}\right)$ $H$: スケールハイト
$h_0$: 基準高度
11.73
$\displaystyle\frac{\partial \rho}{\partial h}$ $-\displaystyle\frac{\rho}{H}$ 高度に対する密度勾配 11.74
$\displaystyle\frac{\partial \boldsymbol{a}_D}{\partial \boldsymbol{r}}$ $\displaystyle\frac{\partial \boldsymbol{a}_D}{\partial \rho}\displaystyle\frac{\partial \rho}{\partial h}\displaystyle\frac{\partial h}{\partial \boldsymbol{r}}$ 位置に対するJacobian
連鎖律で計算
11.75

ここで $v = \|\boldsymbol{v}\|$ は速度の大きさ、$h$ は高度である。 状態遷移行列の計算や軌道決定で大気抵抗のJacobianが必要になる。

11.15 有限要素法の感度解析

構造最適化における剛性行列・変位の設計変数に関する感度。 直接微分法と随伴法(adjoint method)の両方を示す。

公式 結果 備考 証明
剛性行列の感度
$\displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta}$
$\displaystyle\int_\Omega \boldsymbol{B}^\top \displaystyle\frac{\partial \boldsymbol{D}}{\partial \eta} \boldsymbol{B}\, d\Omega$ $\boldsymbol{B}$: ひずみ-変位行列
$\boldsymbol{D}$: 構成則行列
11.76
直接微分法
$\displaystyle\frac{\partial \boldsymbol{u}}{\partial \eta}$
$\boldsymbol{K}^{-1}\left(\displaystyle\frac{\partial \boldsymbol{f}}{\partial \eta} - \displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta}\boldsymbol{u}\right)$ 疑似荷重ベクトル 11.77
コンプライアンス感度
$\displaystyle\frac{\partial C}{\partial \eta}$
$-\boldsymbol{u}^\top \displaystyle\frac{\partial \boldsymbol{K}}{\partial \eta} \boldsymbol{u}$ $C = \boldsymbol{u}^\top\boldsymbol{K}\boldsymbol{u}$
自己随伴性を利用
11.78
SIMP法の密度感度
$\displaystyle\frac{\partial C}{\partial \rho_e}$
$-p \rho_e^{p-1}(E_1 - E_0)\boldsymbol{u}_e^\top \boldsymbol{K}_0^e \boldsymbol{u}_e$ $E(\rho) = E_0 + \rho^p(E_1 - E_0)$
$p$: ペナルティ係数
11.79
随伴法(一般形)
$\displaystyle\frac{df}{d\eta}$
$\displaystyle\frac{\partial f}{\partial \eta} + \boldsymbol{\lambda}^\top \displaystyle\frac{\partial \boldsymbol{R}}{\partial \eta}$ $\boldsymbol{K}^\top\boldsymbol{\lambda} = -\left(\displaystyle\frac{\partial f}{\partial \boldsymbol{u}}\right)^\top$ 11.80

コンプライアンス最小化は自己随伴問題であり、随伴変数 $\boldsymbol{\lambda} = \boldsymbol{u}$ となる。 応力最適化など非自己随伴問題では、別途随伴方程式を解く必要がある。

11.16 接線剛性行列と非線形有限要素法

幾何学的非線形・材料非線形を含む有限要素解析の接線剛性行列。 Newton-Raphson法の収束に必要。

公式 結果 備考 証明
接線剛性行列
$\boldsymbol{K}_T$
$\boldsymbol{K}_M + \boldsymbol{K}_G$ $\boldsymbol{K}_M$: 材料剛性
$\boldsymbol{K}_G$: 幾何剛性
11.81
材料剛性
$\boldsymbol{K}_M$
$\displaystyle\int_\Omega \boldsymbol{B}^\top \boldsymbol{D} \boldsymbol{B}\, d\Omega$ 通常の剛性行列形式
幾何剛性(初期応力剛性)
$\boldsymbol{K}_G$
$\displaystyle\int_\Omega \boldsymbol{G}^\top \tilde{\boldsymbol{S}} \boldsymbol{G}\, d\Omega$ $\tilde{\boldsymbol{S}}$: 応力行列
座屈・大変形で重要
9.19
Consistent Tangent
$\boldsymbol{C}_{ep}^{alg}$
$\displaystyle\frac{\partial \Delta\boldsymbol{\sigma}}{\partial \Delta\boldsymbol{\varepsilon}}$ 弾塑性の一貫接線
二次収束を保証
11.82
J2塑性の接線モジュラス $\boldsymbol{C}_e - \displaystyle\frac{(2G)^2}{3G + H'}\boldsymbol{n}\otimes\boldsymbol{n}$ $G$: せん断弾性係数
$H'$: 硬化係数
11.83

11.17 変形勾配テンソルとひずみテンソル

有限ひずみ理論で使用される変形勾配テンソル $\boldsymbol{F}$ とひずみテンソルの微分。 超弾性材料、大変形解析の基礎。

公式 結果 備考 証明
変形勾配テンソル
$\boldsymbol{F}$
$\displaystyle\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{X}} = \boldsymbol{I} + \displaystyle\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{X}}$ $\boldsymbol{x}$: 現配置
$\boldsymbol{X}$: 基準配置
11.84
Right Cauchy-Green
$\boldsymbol{C} = \boldsymbol{F}^\top\boldsymbol{F}$
$\displaystyle\frac{\partial \boldsymbol{C}}{\partial \boldsymbol{F}} = \boldsymbol{F}^\top \bar{\otimes} \boldsymbol{I} + \boldsymbol{I} \underline{\otimes} \boldsymbol{F}^\top$ 4階テンソル
成分: $\displaystyle\frac{\partial C_{IJ}}{\partial F_{kL}} = \delta_{IL}F_{kJ} + \delta_{JL}F_{kI}$
11.85
Green-Lagrangeひずみ
$\boldsymbol{E} = \displaystyle\frac{1}{2}(\boldsymbol{C} - \boldsymbol{I})$
$\displaystyle\frac{\partial \boldsymbol{E}}{\partial \boldsymbol{F}} = \displaystyle\frac{1}{2}(\boldsymbol{I} \bar{\otimes} \boldsymbol{F} + \boldsymbol{F} \underline{\otimes} \boldsymbol{I})$ $\boldsymbol{E} = \displaystyle\frac{1}{2}(\boldsymbol{F}^\top\boldsymbol{F} - \boldsymbol{I})$ 11.86
Jacobian
$J = \det(\boldsymbol{F})$
$\displaystyle\frac{\partial J}{\partial \boldsymbol{F}} = J \boldsymbol{F}^{-\top}$ 体積変化率
非圧縮性: $J = 1$
11.87
第2 Piola-Kirchhoff応力
$\boldsymbol{S}$
$\boldsymbol{S} = 2\displaystyle\frac{\partial W}{\partial \boldsymbol{C}} = \displaystyle\frac{\partial W}{\partial \boldsymbol{E}}$ $W$: ひずみエネルギー密度 11.88
構成テンソル(接線弾性)
$\mathbb{C}$
$\mathbb{C} = 4\displaystyle\frac{\partial^2 W}{\partial \boldsymbol{C} \partial \boldsymbol{C}} = \displaystyle\frac{\partial^2 W}{\partial \boldsymbol{E} \partial \boldsymbol{E}}$ 4階テンソル
超弾性の物質テンソル
11.89

$\bar{\otimes}$ と $\underline{\otimes}$ はテンソル積の記法で、成分表示では $(\boldsymbol{A} \bar{\otimes} \boldsymbol{B})_{IJKL} = A_{IK}B_{JL}$、 $(\boldsymbol{A} \underline{\otimes} \boldsymbol{B})_{IJKL} = A_{IL}B_{JK}$ である。

11.18 地盤工学の構成則

土質力学・地盤工学で用いられる弾塑性構成則の微分公式。 Mohr-Coulomb降伏条件とCam-Clayモデルは地盤材料の塑性挙動を記述する代表的モデル。

公式 結果 備考 証明
Mohr-Coulomb降伏関数
$f(\boldsymbol{\sigma})$
$\displaystyle\frac{I_1}{3}\sin\phi + \sqrt{J_2}g(\theta) - c\cos\phi$ $g(\theta) = \cos\theta - \displaystyle\frac{\sin\theta\sin\phi}{\sqrt{3}}$
$\theta$: Lode角
11.90
Mohr-Coulomb流れ方向
$\displaystyle\frac{\partial f}{\partial \boldsymbol{\sigma}}$
$\displaystyle\frac{\sin\phi}{3}\boldsymbol{I} + \displaystyle\frac{g(\theta)}{2\sqrt{J_2}}\boldsymbol{s} + \displaystyle\frac{\partial g}{\partial \theta}\displaystyle\frac{\partial \theta}{\partial \boldsymbol{\sigma}}$ $\boldsymbol{s}$: 偏差応力
非関連流れ則では $\phi \to \psi$
11.91
修正Cam-Clay降伏関数
$f(p', q)$
$\displaystyle\frac{q^2}{M^2} + p'(p' - p'_c)$ $p'$: 平均有効応力
$M$: 臨界状態応力比
11.92
Cam-Clay流れ方向
$\displaystyle\frac{\partial f}{\partial \boldsymbol{\sigma}'}$
$\displaystyle\frac{2p' - p'_c}{3}\boldsymbol{I} + \displaystyle\frac{3\boldsymbol{s}}{M^2}$ 関連流れ則
体積・せん断成分の連成
11.93
Cam-Clay硬化則
$\displaystyle\frac{\partial p'_c}{\partial \varepsilon^p_v}$
$\displaystyle\frac{v p'_c}{\lambda - \kappa}$ $\lambda$: 正規圧縮係数
$\kappa$: 膨潤係数
11.94

Mohr-Coulomb条件のLode角 $\theta$ は $\cos(3\theta) = \displaystyle\frac{3\sqrt{3}}{2}\displaystyle\frac{J_3}{J_2^{3/2}}$ で定義される。 角の特異性($\theta = \pm 30°$)の処理には丸め関数が必要。

11.19 土-水連成解析(Biot圧密理論)

飽和土の圧密問題における骨格変形と間隙水流れの連成。 変位-間隙水圧の同時求解に必要な行列微分公式。

公式 結果 備考 証明
連成行列
$\boldsymbol{Q}$
$\displaystyle\int_\Omega \boldsymbol{B}^\top \boldsymbol{m} N_p\, d\Omega$ $\boldsymbol{m} = [1,1,1,0,0,0]^\top$
体積ひずみ-圧力連成
11.95
圧縮性行列
$\boldsymbol{S}$
$\displaystyle\int_\Omega \displaystyle\frac{n}{K_f} N_p N_p^\top\, d\Omega$ $n$: 間隙率
$K_f$: 流体体積弾性率
11.96
透水行列
$\boldsymbol{H}$
$\displaystyle\int_\Omega \nabla N_p^\top \displaystyle\frac{\boldsymbol{k}}{\gamma_w} \nabla N_p\, d\Omega$ $\boldsymbol{k}$: 透水係数テンソル
$\gamma_w$: 水の単位体積重量
11.97
透水係数の間隙比依存性
$\displaystyle\frac{\partial k}{\partial e}$
$\displaystyle\frac{C_k k}{1 + e_0}$ Kozeny-Carman型
$C_k \approx 0.5$
11.98

Biot方程式系は $\begin{bmatrix} \boldsymbol{K} & -\boldsymbol{Q} \\ \boldsymbol{Q}^\top & \boldsymbol{S} + \Delta t\boldsymbol{H} \end{bmatrix} \begin{bmatrix} \Delta\boldsymbol{u} \\ \Delta\boldsymbol{p} \end{bmatrix} = \begin{bmatrix} \boldsymbol{F}^{ext} \\ \boldsymbol{f}^{flow} \end{bmatrix}$ の形式となる。

11.20 開水路流れ(Saint-Venant方程式)

河川・開水路の非定常流れを記述するSaint-Venant方程式の線形化。 洪水追跡・ダム破壊流解析に使用。

公式 結果 備考 証明
Flux Jacobian
$\displaystyle\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{U}}$
$\begin{bmatrix} 0 & 1 \\ c^2 - u^2 & 2u \end{bmatrix}$ $\boldsymbol{U} = [A, Q]^\top$
$u = Q/A$, $c = \sqrt{gA/B}$
11.99
特性速度
$\lambda_{1,2}$
$u \pm c$ Froude数 $Fr = u/c$
常流: $Fr < 1$, 射流: $Fr > 1$
11.100
摩擦勾配の微分
$\displaystyle\frac{\partial S_f}{\partial Q}$
$\displaystyle\frac{2n^2|Q|}{A^2 R^{4/3}}$ Manning式
$S_f = n^2 Q|Q|/(A^2 R^{4/3})$
11.101
摩擦勾配の微分
$\displaystyle\frac{\partial S_f}{\partial A}$
$-S_f\left(\displaystyle\frac{2}{A} + \displaystyle\frac{4}{3R}\displaystyle\frac{\partial R}{\partial A}\right)$ $R = A/P$: 径深
$P$: 潤辺
11.102

11.21 ケーブル・吊り構造の幾何学的非線形

大変形を伴うケーブル要素の接線剛性行列。 吊り橋・斜張橋・テント構造の解析に必要。

公式 結果 備考 証明
ケーブル接線剛性
$\boldsymbol{K}_T$
$\displaystyle\frac{EA}{L_0}\boldsymbol{t}\boldsymbol{t}^\top + \displaystyle\frac{T}{L}(\boldsymbol{I} - \boldsymbol{t}\boldsymbol{t}^\top)$ $\boldsymbol{t}$: 単位接線ベクトル
$T$: 張力, $L_0$: 初期長
11.103
単位接線の微分
$\displaystyle\frac{\partial \boldsymbol{t}}{\partial \boldsymbol{u}}$
$\displaystyle\frac{1}{L}(\boldsymbol{I} - \boldsymbol{t}\boldsymbol{t}^\top)\boldsymbol{B}$ $\boldsymbol{B} = [-\boldsymbol{I}, \boldsymbol{I}]$
$L$: 現在長
11.104
張力の変位微分
$\displaystyle\frac{\partial T}{\partial \boldsymbol{u}}$
$\displaystyle\frac{EA}{L_0}\boldsymbol{t}^\top \boldsymbol{B}$ $T = EA(L - L_0)/L_0$ 11.105

ケーブル要素の剛性は張力 $T$ に依存し、$T > 0$(引張)でないと座屈不安定になる。 たるみケーブルの解析には等価弾性係数 $E_{eq} = E/[1 + (wL)^2 AE/(12T^3)]$ を用いる方法もある。

11.22 座屈後挙動解析(Arc-length法)

限界点・分岐点を通過する平衡経路追跡法。 座屈後挙動やスナップスルー現象の解析に必要。

公式 結果 備考 証明
弧長拘束条件
$g(\boldsymbol{u}, \lambda)$
$\Delta\boldsymbol{u}^\top\Delta\boldsymbol{u} + \psi^2\Delta\lambda^2 \|\boldsymbol{f}_{ref}\|^2 - \Delta l^2$ $\psi$: スケーリング係数
$\Delta l$: 弧長増分
11.106
拘束条件の変位微分
$\displaystyle\frac{\partial g}{\partial \boldsymbol{u}}$
$2\Delta\boldsymbol{u}^\top$ 行ベクトル 11.107
拘束条件の荷重係数微分
$\displaystyle\frac{\partial g}{\partial \lambda}$
$2\psi^2\Delta\lambda \|\boldsymbol{f}_{ref}\|^2$ スカラー 11.108

拡張方程式系は $\begin{bmatrix} \boldsymbol{K}_T & -\boldsymbol{f}_{ref} \\ \displaystyle\frac{\partial g}{\partial \boldsymbol{u}} & \displaystyle\frac{\partial g}{\partial \lambda} \end{bmatrix} \begin{bmatrix} \delta\boldsymbol{u} \\ \delta\lambda \end{bmatrix} = \begin{bmatrix} \boldsymbol{R} \\ r \end{bmatrix}$ の形式となる。 $\psi = 0$ は球面弧長法、$\psi = 1$ は円筒弧長法に対応。

11.23 結晶塑性力学(Crystal Plasticity)

多結晶金属の塑性変形では、個々の結晶粒内のすべり系を考慮する必要がある。 Schmidテンソルとそれに基づく微分公式を示す。

公式 結果 備考 証明
Schmidテンソル
$\boldsymbol{P}^{(\alpha)} = \boldsymbol{s}^{(\alpha)} \otimes \boldsymbol{m}^{(\alpha)}$
$P_{ij}^{(\alpha)} = s_i^{(\alpha)} m_j^{(\alpha)}$ $\boldsymbol{s}$: すべり方向, $\boldsymbol{m}$: すべり面法線 11.109
分解せん断応力
$\tau^{(\alpha)} = \boldsymbol{\sigma} : \boldsymbol{P}^{(\alpha)}$
$\tau^{(\alpha)} = \sigma_{ij} P_{ij}^{(\alpha)}$ すべり系$\alpha$の駆動力 11.110
分解せん断応力の応力微分
$\displaystyle\frac{\partial \tau^{(\alpha)}}{\partial \boldsymbol{\sigma}}$
$\boldsymbol{P}^{(\alpha)}$ Schmidテンソルそのもの 11.111
塑性速度勾配
$\boldsymbol{L}^p = \sum_{\alpha} \dot{\gamma}^{(\alpha)} \boldsymbol{P}^{(\alpha)}$
$L_{ij}^p = \sum_{\alpha} \dot{\gamma}^{(\alpha)} s_i^{(\alpha)} m_j^{(\alpha)}$ 各すべり系の寄与の和 11.112
塑性速度勾配のすべり速度微分
$\displaystyle\frac{\partial \boldsymbol{L}^p}{\partial \dot{\gamma}^{(\alpha)}}$
$\boldsymbol{P}^{(\alpha)}$ 線形関係 11.113

11.24 相場モデル(Phase Field)

相変態や界面移動を記述する相場モデルにおける変分微分とその応用を示す。

公式 結果 備考 証明
Ginzburg-Landau自由エネルギー
$F[\phi] = \int_\Omega \left[ f(\phi) + \displaystyle\frac{\kappa}{2}\|\nabla\phi\|^2 \right] d\boldsymbol{x}$
局所エネルギー+界面エネルギー 11.114
変分微分
$\displaystyle\frac{\delta F}{\delta \phi}$
$\displaystyle\frac{\partial f}{\partial \phi} - \kappa \nabla^2 \phi$ 化学ポテンシャルの一般化 11.115
Allen-Cahn方程式
$\displaystyle\frac{\partial \phi}{\partial t}$
$-L \displaystyle\frac{\delta F}{\delta \phi}$ 非保存型秩序変数の発展 11.116
Cahn-Hilliard方程式
$\displaystyle\frac{\partial c}{\partial t}$
$\nabla \cdot \left[ M \nabla \displaystyle\frac{\delta F}{\delta c} \right]$ 保存型秩序変数(濃度場など) 11.117
double-well局所エネルギーの微分
$\displaystyle\frac{\partial f}{\partial \phi}$, $f = W\phi^2(1-\phi)^2$
$2W\phi(1-\phi)(1-2\phi)$ バリア高さ $W$ 11.118

11.25 粘弾性・粘塑性

時間依存性を持つ材料の構成則における微分公式を示す。

公式 結果 備考 証明
3次元Maxwellモデル(偏差成分)
$\dot{\boldsymbol{\sigma}}^{\text{dev}} + \displaystyle\frac{1}{\tau_M}\boldsymbol{\sigma}^{\text{dev}}$
$2G\dot{\boldsymbol{\varepsilon}}^{\text{dev}}$ 緩和時間 $\tau_M = \eta/G$ 11.119
偏差応力の導出
$\boldsymbol{\sigma}^{\text{dev}} = \boldsymbol{\sigma} - \displaystyle\frac{1}{3}\text{tr}(\boldsymbol{\sigma})\boldsymbol{I}$
$\displaystyle\frac{\partial \boldsymbol{\sigma}^{\text{dev}}}{\partial \boldsymbol{\sigma}} = \mathbb{I}^{\text{dev}}$ 偏差射影テンソル 11.120
Perzyna粘塑性流れ則
$\dot{\boldsymbol{\varepsilon}}^{vp}$
$\displaystyle\frac{1}{\eta}\langle\Phi(f)\rangle \displaystyle\frac{\partial f}{\partial \boldsymbol{\sigma}}$ 過応力型, $\langle \cdot \rangle$: Macaulay括弧 11.121
von Mises降伏関数の応力微分
$\displaystyle\frac{\partial f_{vM}}{\partial \boldsymbol{\sigma}}$, $f_{vM} = \sigma_{eq} - \sigma_Y$
$\displaystyle\frac{3\boldsymbol{\sigma}^{\text{dev}}}{2\sigma_{eq}}$ 流れ方向(連合流れ則) 11.122
相当応力の応力微分
$\displaystyle\frac{\partial \sigma_{eq}}{\partial \boldsymbol{\sigma}}$
$\displaystyle\frac{3\boldsymbol{\sigma}^{\text{dev}}}{2\sigma_{eq}}$ $\sigma_{eq} = \sqrt{\displaystyle\frac{3}{2}\boldsymbol{\sigma}^{\text{dev}}:\boldsymbol{\sigma}^{\text{dev}}}$ 11.123

11.26 複合材料力学(均質化理論)

不均質材料の有効特性を求める均質化理論における微分公式を示す。

公式 結果 備考 証明
Eshelbyひずみ集中テンソル
$\boldsymbol{\varepsilon}_I = \mathbb{A}^{Esh} : \boldsymbol{\varepsilon}^0$
$\mathbb{A}^{Esh} = [\mathbb{I} + \mathbb{S}:\mathbb{C}_M^{-1}:(\mathbb{C}_I - \mathbb{C}_M)]^{-1}$ 希薄分散系の厳密解 11.124
Mori-Tanaka有効弾性テンソル
$\bar{\mathbb{C}}^{MT}$
$\mathbb{C}_M + f_I(\mathbb{C}_I - \mathbb{C}_M):\mathbb{A}^{MT}$ $\mathbb{A}^{MT}$: MT集中テンソル 11.125
有効弾性テンソルの体積分率微分
$\displaystyle\frac{\partial \bar{\mathbb{C}}^{MT}}{\partial f_I}$
(近似式は本文参照) 材料設計・最適化に使用 11.126
Voigt上界(等ひずみ)
$\bar{\mathbb{C}}^{V}$
$\sum_r f_r \mathbb{C}_r$ 剛性の体積平均 11.127
Reuss下界(等応力)
$\bar{\mathbb{S}}^{R}$
$\sum_r f_r \mathbb{S}_r$ コンプライアンスの体積平均 11.128

11.27 連続体損傷力学

材料の微視的損傷を連続体レベルで記述する連続体損傷力学(CDM)の微分公式を示す。

公式 結果 備考 証明
有効応力(スカラー損傷)
$\tilde{\boldsymbol{\sigma}} = \displaystyle\frac{\boldsymbol{\sigma}}{1-D}$
$D \in [0,1]$: 損傷変数 11.129
応力の損傷微分
$\displaystyle\frac{\partial \boldsymbol{\sigma}}{\partial D}$
$-\displaystyle\frac{\boldsymbol{\sigma}}{1-D}$ 損傷増加で応力減少 11.130
損傷エネルギー解放率
$Y = -\displaystyle\frac{\partial \psi}{\partial D}$
$\displaystyle\frac{\sigma_{eq}^2 R_\nu}{2E(1-D)^2}$ $R_\nu$: 応力三軸度関数 11.131
Lemaitre損傷発展則
$\dot{D}$
$\left(\displaystyle\frac{Y}{S}\right)^s \dot{p}$ $S, s$: 材料定数, $\dot{p}$: 相当塑性ひずみ速度 11.132
損傷剛性テンソル
$\bar{\mathbb{C}} = (1-D)\mathbb{C}$
$\displaystyle\frac{\partial \bar{\mathbb{C}}}{\partial D} = -\mathbb{C}$ 等方損傷の場合 11.133

11.28 破壊力学

き裂を含む材料のエネルギー解放率と応力拡大係数に関する微分公式を示す。

公式 結果 備考 証明
J積分(経路独立積分)
$J = \int_\Gamma \left( W n_1 - \boldsymbol{t} \cdot \displaystyle\frac{\partial \boldsymbol{u}}{\partial x_1} \right) ds$
$W$: ひずみエネルギー密度 11.134
Eshelbyエネルギー運動量テンソル
$P_{kj} = W\delta_{kj} - \sigma_{ij}\displaystyle\frac{\partial u_i}{\partial x_k}$
欠陥の駆動力テンソル 11.135
J-K関係(平面ひずみ)
$J$
$\displaystyle\frac{1-\nu^2}{E}(K_I^2 + K_{II}^2) + \displaystyle\frac{K_{III}^2}{2\mu}$ 混合モード 11.136
Jの応力拡大係数微分
$\displaystyle\frac{\partial J}{\partial K_I}$
$\displaystyle\frac{2(1-\nu^2)}{E}K_I$ モードI成分 11.137
Paris-Erdogan則
$\displaystyle\frac{da}{dN}$
$C(\Delta K)^m$ 疲労き裂進展, $C, m$: 材料定数 11.138

11.29 熱力学的構成則(内部変数法)

非弾性挙動を熱力学的に一貫した形で記述する内部変数法の微分公式を示す。

公式 結果 備考 証明
Helmholtz自由エネルギー
$\psi = \psi(\boldsymbol{\varepsilon}, \theta, \{\alpha_k\})$
状態変数の関数 11.139
応力の導出(状態方程式)
$\boldsymbol{\sigma}$
$\rho\displaystyle\frac{\partial \psi}{\partial \boldsymbol{\varepsilon}}$ 熱力学的に導出 11.140
熱力学的力(共役変数)
$A_k$
$-\rho\displaystyle\frac{\partial \psi}{\partial \alpha_k}$ 内部変数$\alpha_k$の駆動力 11.141
エントロピー
$s$
$-\displaystyle\frac{\partial \psi}{\partial \theta}$ 温度$\theta$の共役変数 11.142
弾塑性接線剛性
$\mathbb{C}^{ep}$
$\mathbb{C} - \displaystyle\frac{(\mathbb{C}:\boldsymbol{n})\otimes(\boldsymbol{n}:\mathbb{C})}{\boldsymbol{n}:\mathbb{C}:\boldsymbol{n} + H'}$ $\boldsymbol{n}$: 流れ方向, $H'$: 硬化係数 11.143
散逸ポテンシャルからの流れ則
$\dot{\boldsymbol{\varepsilon}}^p$
$\displaystyle\frac{\partial \phi}{\partial \boldsymbol{\sigma}}$ 標準一般化材料 11.144

11.30 作物成長モデルと非線形最小二乗法

作物モデリングで用いられる成長モデルのパラメータ推定。非線形関数の最小二乗フィッティング。

公式 結果 備考 証明
ロジスティック成長モデル
$W(t)$
$\displaystyle\frac{W_{\max}}{1 + \exp(-k(t - t_m))}$ $W_{\max}$: 最大収量
$k$: 成長率, $t_m$: 変曲点
11.145
$\displaystyle\frac{\partial W}{\partial W_{\max}}$ $\displaystyle\frac{1}{1 + \exp(-k(t - t_m))}$ 最大収量への感度 11.146
$\displaystyle\frac{\partial W}{\partial k}$ $\displaystyle\frac{W_{\max}(t - t_m)\exp(-k(t - t_m))}{[1 + \exp(-k(t - t_m))]^2}$ 成長率への感度 11.147
$\displaystyle\frac{\partial W}{\partial t_m}$ $\displaystyle\frac{-W_{\max} k \exp(-k(t - t_m))}{[1 + \exp(-k(t - t_m))]^2}$ 変曲点への感度 11.148
Mitscherlich型収量応答
$Y(N)$
$Y_{\max}[1 - \exp(-c(N + b))]$ $N$: 施肥量
$c$: 効率係数
11.149
$\displaystyle\frac{\partial Y}{\partial N}$ $Y_{\max} c \exp(-c(N + b))$ 限界収量 11.150
ヤコビアン行列
$\boldsymbol{J}$
$\displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{\theta}^\top} = \begin{pmatrix} \displaystyle\frac{\partial f_1}{\partial \theta_1} & \cdots & \displaystyle\frac{\partial f_1}{\partial \theta_p} \\ \vdots & \ddots & \vdots \\ \displaystyle\frac{\partial f_n}{\partial \theta_1} & \cdots & \displaystyle\frac{\partial f_n}{\partial \theta_p} \end{pmatrix}$ $n$: 観測数, $p$: パラメータ数 11.151
残差二乗和の勾配
$\displaystyle\frac{\partial S}{\partial \boldsymbol{\theta}}$
$-2\boldsymbol{J}^\top \boldsymbol{r}$ $\boldsymbol{r} = \boldsymbol{y} - \boldsymbol{f}(\boldsymbol{\theta})$ 11.152
Gauss-Newtonヘシアン近似
$\boldsymbol{H} \approx$
$2\boldsymbol{J}^\top \boldsymbol{J}$ 二次項を無視した近似 11.153
Gauss-Newton更新
$\Delta\boldsymbol{\theta}$
$(\boldsymbol{J}^\top \boldsymbol{J})^{-1}\boldsymbol{J}^\top \boldsymbol{r}$ $\boldsymbol{\theta}^{(k+1)} = \boldsymbol{\theta}^{(k)} + \Delta\boldsymbol{\theta}$ 11.154
Levenberg-Marquardt更新 $(\boldsymbol{J}^\top \boldsymbol{J} + \mu\boldsymbol{I})^{-1}\boldsymbol{J}^\top \boldsymbol{r}$ $\mu$: 減衰パラメータ 11.155
パラメータ共分散行列 $\hat{\sigma}^2 (\boldsymbol{J}^\top \boldsymbol{J})^{-1}$ $\hat{\sigma}^2 = S/(n-p)$ 11.156

非線形成長モデルのパラメータ推定では、ヤコビアン行列を繰り返し計算してGauss-Newton法またはLevenberg-Marquardt法で最適化を行う。 収束後のヘシアン近似から信頼区間を計算できる。

12. ノルムの微分

ベクトルノルムおよび行列ノルムの微分公式。 証明は証明集 第12章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} \|\boldsymbol{x} - \boldsymbol{a}\|_2$ $\displaystyle\frac{\boldsymbol{x} - \boldsymbol{a}}{\|\boldsymbol{x} - \boldsymbol{a}\|_2}$ 2-ノルムの微分 12.1
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} \displaystyle\frac{\boldsymbol{x} - \boldsymbol{a}}{\|\boldsymbol{x} - \boldsymbol{a}\|_2}$ $\displaystyle\frac{\boldsymbol{I}}{\|\boldsymbol{x} - \boldsymbol{a}\|_2} - \displaystyle\frac{(\boldsymbol{x} - \boldsymbol{a})(\boldsymbol{x} - \boldsymbol{a})^\top}{\|\boldsymbol{x} - \boldsymbol{a}\|_2^3}$ 正規化ベクトルの微分 12.2
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}} \|\boldsymbol{x}\|_2^2$ $2\boldsymbol{x}$ 2-ノルムの2乗の微分 12.3
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \|\boldsymbol{X}\|_F^2$ $2\boldsymbol{X}$ Frobeniusノルムの2乗 12.4
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \|\boldsymbol{X}\|_F$ $\displaystyle\frac{\boldsymbol{X}}{\|\boldsymbol{X}\|_F}$ Frobeniusノルム 12.5
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \|\boldsymbol{X} - \boldsymbol{A}\|_F^2$ $2(\boldsymbol{X} - \boldsymbol{A})$ 差のFrobeniusノルムの2乗 12.6
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \|\boldsymbol{A}\boldsymbol{X} - \boldsymbol{B}\|_F^2$ $2\boldsymbol{A}^\top(\boldsymbol{A}\boldsymbol{X} - \boldsymbol{B})$ 線形回帰の残差(左から乗算) 12.7
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}} \|\boldsymbol{X}\boldsymbol{A} - \boldsymbol{B}\|_F^2$ $2(\boldsymbol{X}\boldsymbol{A} - \boldsymbol{B})\boldsymbol{A}^\top$ 線形回帰の残差(右から乗算) 12.8
$\displaystyle\frac{\partial}{\partial \boldsymbol{w}} \|\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y}\|^2$ $2\boldsymbol{X}^\top(\boldsymbol{X}\boldsymbol{w} - \boldsymbol{y})$ 回帰の重み勾配 12.9
$\displaystyle\frac{\partial}{\partial \boldsymbol{W}} \displaystyle\frac{\lambda}{2}\|\boldsymbol{W}\|_F^2$ $\lambda \boldsymbol{W}$ L2正則化(Weight Decay) 12.10
$\displaystyle\frac{\partial}{\partial \boldsymbol{W}} \lambda\|\boldsymbol{W}\|_1$ $\lambda \cdot \text{sign}(\boldsymbol{W})$ L1正則化(劣勾配)
$W_{ij} = 0$ で $[-1, 1]$
12.11
LASSO勾配
$\displaystyle\frac{\partial}{\partial \boldsymbol{\alpha}}\left(\displaystyle\frac{1}{2}\|\boldsymbol{x} - \boldsymbol{D}\boldsymbol{\alpha}\|^2 + \lambda\|\boldsymbol{\alpha}\|_1\right)$
$\boldsymbol{D}^\top(\boldsymbol{D}\boldsymbol{\alpha} - \boldsymbol{x}) + \lambda \cdot \text{sign}(\boldsymbol{\alpha})$ L1正則化付き回帰
劣勾配
12.12

12.1 医用画像再構成の正則化

CT/MRI画像再構成における逆問題の正則化。 Tikhonov正則化、全変動(TV)正則化の行列微分。医用画像診断で使用。

公式 結果 備考 証明
Tikhonov正則化目的関数
$J(\boldsymbol{x}) = \|\boldsymbol{A}\boldsymbol{x} - \boldsymbol{y}\|^2 + \lambda\|\boldsymbol{L}\boldsymbol{x}\|^2$
$\boldsymbol{A}$: 順問題行列(Radon/Fourier)
$\boldsymbol{y}$: 観測データ
$\boldsymbol{L}$: 正則化行列
$\lambda$: 正則化パラメータ
Tikhonov勾配
$\displaystyle\frac{\partial J}{\partial \boldsymbol{x}}$
$2\boldsymbol{A}^\top(\boldsymbol{A}\boldsymbol{x} - \boldsymbol{y}) + 2\lambda\boldsymbol{L}^\top\boldsymbol{L}\boldsymbol{x}$ 正規方程式の導出 12.13
Tikhonov解
$\boldsymbol{x}^*$
$(\boldsymbol{A}^\top\boldsymbol{A} + \lambda\boldsymbol{L}^\top\boldsymbol{L})^{-1}\boldsymbol{A}^\top\boldsymbol{y}$ 正則化逆行列 12.14
全変動ノルム
$\text{TV}(\boldsymbol{x}) = \|\nabla \boldsymbol{x}\|_1$
$\sum_{i,j}\sqrt{(\partial_i x)^2 + (\partial_j x)^2}$ エッジ保存正則化
等方性TV
TV正則化の劣勾配
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}}\text{TV}(\boldsymbol{x})$
$-\text{div}\left(\displaystyle\frac{\nabla \boldsymbol{x}}{|\nabla \boldsymbol{x}|}\right)$ $|\nabla \boldsymbol{x}| = 0$ で非微分 12.15
CT再構成の順問題
$\boldsymbol{y} = \boldsymbol{R}\boldsymbol{x}$
$\boldsymbol{R}$: 離散Radon変換行列
$\boldsymbol{x}$: 画像(ベクトル化)
$\boldsymbol{y}$: サイノグラム
filtered backprojection
MRI再構成の順問題
$\boldsymbol{y} = \boldsymbol{P}_\Omega\boldsymbol{F}\boldsymbol{x}$
$\boldsymbol{F}$: 離散Fourier変換行列
$\boldsymbol{P}_\Omega$: k空間サンプリング
圧縮センシング
$\boldsymbol{F}^\dagger = \boldsymbol{F}^{-1}$

不良設定逆問題において、正則化により解の安定性を確保。 TVノルムはエッジを保存しつつノイズを除去するため、医用画像に適する。

13. 構造行列の微分

対称行列、対角行列、Toeplitz行列などの構造を持つ行列の微分公式。 証明は証明集 第13章を参照。

公式 結果 備考 証明
$\displaystyle\frac{df}{dA_{ij}}$
(ただし $\boldsymbol{A}$: 構造行列)
$\displaystyle\text{tr}\left[\left(\displaystyle\frac{\partial f}{\partial \boldsymbol{A}}\right)^\top \boldsymbol{S}^{ij}\right]$ 構造行列の微分(一般形) 13.1
$\displaystyle\frac{\partial \boldsymbol{A}}{\partial A_{ij}}$
(ただし $\boldsymbol{A}$: 一般行列)
$\boldsymbol{J}^{ij}$
(単一成分行列)
構造行列(一般) 13.2
$\displaystyle\frac{\partial \boldsymbol{A}}{\partial A_{ij}}$
(ただし $\boldsymbol{A}$: 対称行列)
$\boldsymbol{J}^{ij} + \boldsymbol{J}^{ji} - \delta_{ij}\boldsymbol{J}^{ij}$ 構造行列(対称) 13.3
$\displaystyle\frac{\partial f}{\partial \boldsymbol{A}}$
(対称行列 $\boldsymbol{A}$)
$\displaystyle\frac{\partial f}{\partial \boldsymbol{A}}\bigg|_{\text{sym}} = \displaystyle\frac{\partial f}{\partial \boldsymbol{A}}\bigg|_{\text{gen}}$
$\displaystyle \;+ \left(\displaystyle\frac{\partial f}{\partial \boldsymbol{A}}\bigg|_{\text{gen}}\right)^\top - \text{diag}\left(\displaystyle\frac{\partial f}{\partial \boldsymbol{A}}\bigg|_{\text{gen}}\right)$
対称行列による微分 13.4

ここで $\boldsymbol{S}^{ij} = \displaystyle\frac{\partial \boldsymbol{A}}{\partial A_{ij}}$ は構造行列で、$A_{ij}$ を変化させたときに行列全体がどう変化するかを表す。

13.1 vec演算子と関連行列

行列を列ベクトルに変換する vec 演算子と、それに関連する可換行列・duplication行列。 行列微分を線形変換として扱う際の基礎ツールである。

公式 結果 備考 証明
$\text{vec}(\boldsymbol{A}\boldsymbol{X}\boldsymbol{B})$ $(\boldsymbol{B}^\top \otimes \boldsymbol{A})\,\text{vec}(\boldsymbol{X})$ 行列積のベクトル化 13.7
$\boldsymbol{K}_{mn}\,\text{vec}(\boldsymbol{A})$
($\boldsymbol{A}$: $m \times n$)
$\text{vec}(\boldsymbol{A}^\top)$ 可換行列(commutation matrix) 13.8
$\boldsymbol{K}_{mn}(\boldsymbol{A} \otimes \boldsymbol{B})$ $(\boldsymbol{B} \otimes \boldsymbol{A})\boldsymbol{K}_{pq}$
($\boldsymbol{A}$: $m \times p$, $\boldsymbol{B}$: $n \times q$)
Kronecker積の順序交換 13.9
$\boldsymbol{D}_n\,\text{vech}(\boldsymbol{A})$
($\boldsymbol{A}$: $n \times n$ 対称)
$\text{vec}(\boldsymbol{A})$ duplication matrix 13.10
$\boldsymbol{L}_n\,\text{vec}(\boldsymbol{A})$
($\boldsymbol{A}$: $n \times n$ 対称)
$\text{vech}(\boldsymbol{A})$ elimination matrix 13.11
$\boldsymbol{L}_n \boldsymbol{D}_n$ $\boldsymbol{I}_{n(n+1)/2}$ elimination・duplication の関係 13.12
$\displaystyle\frac{\partial\,\text{vec}(\boldsymbol{X})}{\partial\,\text{vec}(\boldsymbol{X})^\top}$ $\boldsymbol{I}_{mn}$
($\boldsymbol{X}$: $m \times n$)
ベクトル化の微分 13.13

ここで $\text{vec}(\boldsymbol{A})$ は行列 $\boldsymbol{A}$ の列を縦に並べたベクトル、 $\text{vech}(\boldsymbol{A})$ は対称行列の下三角部分(対角含む)をベクトル化したもの、 $\otimes$ はKronecker積を表す。

13.2 Cholesky分解の勾配

正定値行列 $\boldsymbol{A}$ のCholesky分解 $\boldsymbol{A} = \boldsymbol{L}\boldsymbol{L}^\top$($\boldsymbol{L}$ は下三角行列)の勾配。 Gauss過程や共分散行列の処理で重要。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{A}}$
($\boldsymbol{A} = \boldsymbol{L}\boldsymbol{L}^\top$)
$\boldsymbol{L}^{-\top}\text{tril}(\boldsymbol{L}^\top \bar{\boldsymbol{L}})\boldsymbol{L}^{-1}$ $\bar{\boldsymbol{L}}$ は $\boldsymbol{L}$ への上流勾配
$\text{tril}$ は下三角部分
13.14
$\displaystyle\frac{\partial \log|\boldsymbol{A}|}{\partial \boldsymbol{A}}$
(Cholesky経由)
$\boldsymbol{A}^{-\top}$ $\log|\boldsymbol{A}| = 2\sum_i \log L_{ii}$ 13.15

14. 行列連鎖律

行列 $\boldsymbol{U} = f(\boldsymbol{X})$ が行列 $\boldsymbol{X}$ の関数であり、さらにスカラ関数 $g(\boldsymbol{U})$ があるとき、合成関数の微分公式。 証明は証明集 第14章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial g(\boldsymbol{U})}{\partial X_{ij}}$
($\boldsymbol{U} = f(\boldsymbol{X})$)
$\displaystyle\sum_{k,l} \displaystyle\frac{\partial g}{\partial U_{kl}} \displaystyle\frac{\partial U_{kl}}{\partial X_{ij}}$ 行列連鎖律(成分形式) 14.1
$\displaystyle\frac{\partial g(\boldsymbol{U})}{\partial X_{ij}}$
($\boldsymbol{U} = f(\boldsymbol{X})$)
$\displaystyle\text{tr}\left[\left(\displaystyle\frac{\partial g}{\partial \boldsymbol{U}}\right)^\top \displaystyle\frac{\partial \boldsymbol{U}}{\partial X_{ij}}\right]$ 行列連鎖律(トレース形式) 14.2

14.1 全結合層(Linear Layer)

順伝播:$\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{W} + \boldsymbol{1}_N \boldsymbol{b}^\top$ ($\boldsymbol{X} \in \mathbb{R}^{N \times D_{\text{in}}}$, $\boldsymbol{W} \in \mathbb{R}^{D_{\text{in}} \times D_{\text{out}}}$, $\boldsymbol{b} \in \mathbb{R}^{D_{\text{out}}}$)。 損失関数 $L$ に対する各パラメータの勾配。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{W}}$ $\boldsymbol{X}^\top \displaystyle\frac{\partial L}{\partial \boldsymbol{Y}}$ 重みの勾配 14.3
$\displaystyle\frac{\partial L}{\partial \boldsymbol{b}}$ $\displaystyle\sum_{n=0}^{N-1} \left(\displaystyle\frac{\partial L}{\partial \boldsymbol{Y}}\right)_{n,:}^\top$ バイアスの勾配
(バッチ方向に和)
14.4
$\displaystyle\frac{\partial L}{\partial \boldsymbol{X}}$ $\displaystyle\frac{\partial L}{\partial \boldsymbol{Y}} \boldsymbol{W}^\top$ 入力の勾配
(前層への伝播)
14.5

14.2 バッチ正規化(Batch Normalization)

順伝播:$\hat{\boldsymbol{x}} = \displaystyle\frac{\boldsymbol{x} - \mu}{\sqrt{\sigma^2 + \epsilon}}$, $\boldsymbol{y} = \gamma \hat{\boldsymbol{x}} + \beta$ ($\mu, \sigma^2$ はバッチ統計量)。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \gamma}$ $\displaystyle\sum_{n} \displaystyle\frac{\partial L}{\partial y_n} \hat{x}_n$ スケールの勾配 14.6
$\displaystyle\frac{\partial L}{\partial \beta}$ $\displaystyle\sum_{n} \displaystyle\frac{\partial L}{\partial y_n}$ シフトの勾配 14.7
$\displaystyle\frac{\partial L}{\partial x_i}$ $\displaystyle\frac{\gamma}{\sqrt{\sigma^2 + \epsilon}} \left( \displaystyle\frac{\partial L}{\partial y_i} - \displaystyle\frac{1}{N}\sum_j \displaystyle\frac{\partial L}{\partial y_j} - \displaystyle\frac{\hat{x}_i}{N}\sum_j \displaystyle\frac{\partial L}{\partial y_j}\hat{x}_j \right)$ 入力の勾配 14.8

14.3 レイヤー正規化(Layer Normalization)

順伝播:$\hat{\boldsymbol{x}} = \displaystyle\frac{\boldsymbol{x} - \mu}{\sqrt{\sigma^2 + \epsilon}}$($\mu, \sigma^2$ はサンプル内の統計量)。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial x_i}$ $\displaystyle\frac{\gamma}{\sqrt{\sigma^2 + \epsilon}} \left( \displaystyle\frac{\partial L}{\partial y_i} - \displaystyle\frac{1}{D}\sum_j \displaystyle\frac{\partial L}{\partial y_j} - \displaystyle\frac{\hat{x}_i}{D}\sum_j \displaystyle\frac{\partial L}{\partial y_j}\hat{x}_j \right)$ 入力の勾配
($D$: 特徴次元)
14.9

14.4 畳み込み層(Convolution Layer)

2D畳み込み:$\boldsymbol{Y} = \boldsymbol{X} * \boldsymbol{F}$($*$ は畳み込み演算)。

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{F}}$ $\boldsymbol{X} \star \displaystyle\frac{\partial L}{\partial \boldsymbol{Y}}$ フィルタの勾配
($\star$: 相互相関)
14.10
$\displaystyle\frac{\partial L}{\partial \boldsymbol{X}}$ $\displaystyle\frac{\partial L}{\partial \boldsymbol{Y}} *_{\text{full}} \text{rot}_{180}(\boldsymbol{F})$ 入力の勾配
(full畳み込み + 180度回転)
14.11

14.5 プーリング層

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial X_{ij}}$(MaxPool) $\displaystyle\frac{\partial L}{\partial Y_k} \cdot \mathbf{1}_{X_{ij} = \max}$ 最大値位置のみ勾配 14.12
$\displaystyle\frac{\partial L}{\partial X_{ij}}$(AvgPool) $\displaystyle\frac{1}{|\text{pool}|} \displaystyle\frac{\partial L}{\partial Y_k}$ 均等に分配 14.13

14.6 埋め込み層(Embedding Layer)

公式 結果 備考 証明
$\displaystyle\frac{\partial L}{\partial \boldsymbol{E}_{i,:}}$ $\displaystyle\sum_{n: \text{idx}_n = i} \displaystyle\frac{\partial L}{\partial \boldsymbol{o}_n}$ インデックス $i$ の行のみ更新
(スパース勾配)
14.14

14.7 4次元変分法(4D-Var)

気象学・海洋学のデータ同化で使用される4次元変分法(4D-Var)の接線形モデルと随伴モデル。 数値予報、再解析で使用。

公式 結果 備考 証明
$\boldsymbol{x}_{i+1} = \mathcal{M}_i(\boldsymbol{x}_i)$ 非線形予報モデル $\mathcal{M}_i$: 時刻 $t_i \to t_{i+1}$ の時間発展
$\delta\boldsymbol{x}_{i+1} = \boldsymbol{M}_i \delta\boldsymbol{x}_i$ 接線形モデル (TLM) $\boldsymbol{M}_i = \displaystyle\frac{\partial \mathcal{M}_i}{\partial \boldsymbol{x}}$
(ヤコビアン行列)
14.15
$\hat{\boldsymbol{x}}_i = \boldsymbol{M}_i^\top \hat{\boldsymbol{x}}_{i+1}$ 随伴モデル (ADM) 時間逆向きの伝播 14.16
$\displaystyle\frac{\partial J}{\partial \boldsymbol{x}_0}$ $\boldsymbol{B}^{-1}(\boldsymbol{x}_0 - \boldsymbol{x}_b) + \sum_{i} \boldsymbol{M}_{0:i-1}^\top \boldsymbol{H}_i^\top \boldsymbol{R}_i^{-1}(\boldsymbol{H}_i\boldsymbol{x}_i - \boldsymbol{y}_i)$ $\boldsymbol{B}$: 背景誤差共分散
$\boldsymbol{R}_i$: 観測誤差共分散
14.17

ここで $J$ はコスト関数、$\boldsymbol{x}_b$ は背景場、$\boldsymbol{y}_i$ は時刻 $t_i$ の観測、 $\boldsymbol{H}_i$ は観測演算子、$\boldsymbol{M}_{0:i-1} = \boldsymbol{M}_{i-1} \cdots \boldsymbol{M}_1 \boldsymbol{M}_0$ は時刻 0 から $i$ までの接線形モデルの積。 随伴モデルにより効率的に勾配を計算できる。

15. 特殊行列の微分

対称行列、対角行列、Toeplitz行列などに対する具体的な微分公式。 証明は証明集 第15章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial \text{tr}(\boldsymbol{A}\boldsymbol{X})}{\partial \boldsymbol{X}}$
($\boldsymbol{X}$: 対称)
$\boldsymbol{A} + \boldsymbol{A}^\top - (\boldsymbol{A} \circ \boldsymbol{I})$ 対称行列のトレース微分 15.1
$\displaystyle\frac{\partial |\boldsymbol{X}|}{\partial \boldsymbol{X}}$
($\boldsymbol{X}$: 対称)
$|\boldsymbol{X}|(2\boldsymbol{X}^{-1} - (\boldsymbol{X}^{-1} \circ \boldsymbol{I}))$ 対称行列の行列式微分 15.2
$\displaystyle\frac{\partial \log|\boldsymbol{X}|}{\partial \boldsymbol{X}}$
($\boldsymbol{X}$: 対称)
$2\boldsymbol{X}^{-1} - (\boldsymbol{X}^{-1} \circ \boldsymbol{I})$ 対称行列の対数行列式微分 15.3
$\displaystyle\frac{\partial \text{tr}(\boldsymbol{A}\boldsymbol{X})}{\partial \boldsymbol{X}}$
($\boldsymbol{X}$: 対角)
$\boldsymbol{A} \circ \boldsymbol{I}$ 対角行列のトレース微分 15.4
$\displaystyle\frac{\partial \text{tr}(\boldsymbol{A}\boldsymbol{T})}{\partial \boldsymbol{T}}$
($\boldsymbol{T}$: Toeplitz)
$\boldsymbol{\alpha}(\boldsymbol{A})$ Toeplitz行列のトレース微分 15.5
$\displaystyle\frac{\partial c(\boldsymbol{A})}{\partial \boldsymbol{A}}$
($\boldsymbol{A}$: 対称正定値)
$\displaystyle\frac{1}{\lambda_{\min}}\boldsymbol{v}_{\max}\boldsymbol{v}_{\max}^\top - \displaystyle\frac{c(\boldsymbol{A})}{\lambda_{\min}}\boldsymbol{v}_{\min}\boldsymbol{v}_{\min}^\top$ 条件数の微分 15.6

ここで $\boldsymbol{A} \circ \boldsymbol{I}$ はHadamard積で対角成分のみを残す操作、$\boldsymbol{\alpha}(\boldsymbol{A})$ は $\boldsymbol{A}^\top$ の対角線要素和を成分とする行列、$c(\boldsymbol{A}) = \lambda_{\max}/\lambda_{\min}$ は条件数である。

15.1 四元数の微分

四元数 $\boldsymbol{q} = (q_w, q_x, q_y, q_z)$ による3D回転の微分。 コンピュータグラフィックス、ロボット工学で使用。

公式 結果 備考 証明
$\displaystyle\frac{\partial (\boldsymbol{q} \otimes \boldsymbol{v} \otimes \boldsymbol{q}^*)}{\partial \boldsymbol{q}}$ $2\begin{pmatrix} q_w\boldsymbol{v} + \boldsymbol{q}_v \times \boldsymbol{v} \\ q_w\boldsymbol{I}_3 + [\boldsymbol{q}_v]_\times \end{pmatrix}^\top$ $\boldsymbol{q}_v = (q_x, q_y, q_z)$
$[\cdot]_\times$: 歪対称行列
15.7
$\displaystyle\frac{\partial \boldsymbol{R}(\boldsymbol{q})}{\partial \boldsymbol{q}}$
(回転行列への変換)
各成分は $\boldsymbol{q}$ の二次式 $R_{ij} = \delta_{ij}(q_w^2 - \|\boldsymbol{q}_v\|^2) + 2q_iq_j \pm 2q_w q_k$ 15.8

15.2 SO(3)回転行列の微分

回転行列 $\boldsymbol{R} \in \text{SO}(3)$ の微分。剛体力学、ロボット工学、コンピュータビジョンで重要。 $[\boldsymbol{\omega}]_\times$ は角速度ベクトル $\boldsymbol{\omega}$ に対応する歪対称行列(Lie代数 $\mathfrak{so}(3)$ の元)。

公式 結果 備考 証明
$\displaystyle\frac{d\boldsymbol{R}}{dt}$
(物体座標系)
$\boldsymbol{R}[\boldsymbol{\omega}_b]_\times$ $\boldsymbol{\omega}_b$: 物体座標系の角速度 15.9
$\displaystyle\frac{d\boldsymbol{R}}{dt}$
(空間座標系)
$[\boldsymbol{\omega}_s]_\times \boldsymbol{R}$ $\boldsymbol{\omega}_s$: 空間座標系の角速度 15.10
$[\boldsymbol{\omega}]_\times$
(歪対称行列)
$\begin{pmatrix} 0 & -\omega_3 & \omega_2 \\ \omega_3 & 0 & -\omega_1 \\ -\omega_2 & \omega_1 & 0 \end{pmatrix}$ $[\boldsymbol{\omega}]_\times \boldsymbol{v} = \boldsymbol{\omega} \times \boldsymbol{v}$
$\displaystyle\frac{\partial \boldsymbol{R}(\theta, \boldsymbol{n})}{\partial \theta}$
(軸角表現)
$[\boldsymbol{n}]_\times \boldsymbol{R}(\theta, \boldsymbol{n})$ Rodrigues公式の微分 15.11
$\boldsymbol{R}(\theta, \boldsymbol{n})$
(Rodrigues公式)
$\boldsymbol{I} + \sin\theta[\boldsymbol{n}]_\times + (1-\cos\theta)[\boldsymbol{n}]_\times^2$ $\boldsymbol{n}$: 単位回転軸 15.12
$\displaystyle\frac{\partial (\boldsymbol{R}\boldsymbol{v})}{\partial \boldsymbol{\theta}}$
(回転ベクトル表現)
$-\boldsymbol{R}[\boldsymbol{v}]_\times \boldsymbol{J}_r(\boldsymbol{\theta})$ $\boldsymbol{J}_r$: 右Jacobi行列 15.13
$\boldsymbol{J}_r(\boldsymbol{\theta})$
(右Jacobi行列)
$\boldsymbol{I} - \displaystyle\frac{1-\cos\|\boldsymbol{\theta}\|}{\|\boldsymbol{\theta}\|^2}[\boldsymbol{\theta}]_\times + \displaystyle\frac{\|\boldsymbol{\theta}\|-\sin\|\boldsymbol{\theta}\|}{\|\boldsymbol{\theta}\|^3}[\boldsymbol{\theta}]_\times^2$ SO(3)上の微分に使用 15.14

ここで $\boldsymbol{\theta} = \theta \boldsymbol{n}$ は回転ベクトル(回転角 $\theta$ と単位軸 $\boldsymbol{n}$ の積)。 歪対称行列 $[\boldsymbol{\omega}]_\times$ は Lie代数 $\mathfrak{so}(3)$ の元で、$\exp([\boldsymbol{\theta}]_\times) = \boldsymbol{R}(\theta, \boldsymbol{n})$。

15.3 密度行列の微分(量子力学)

量子状態を表す密度行列 $\boldsymbol{\rho}$ の微分。量子情報理論、量子コンピューティングで使用。 $\boldsymbol{\rho}$ は正定値エルミート行列で $\text{Tr}(\boldsymbol{\rho}) = 1$。

公式 結果 備考 証明
$\displaystyle\frac{d\boldsymbol{\rho}}{dt}$
(von Neumann方程式)
$-\displaystyle\frac{i}{\hbar}[\boldsymbol{H}, \boldsymbol{\rho}]$ $[\cdot,\cdot]$: 交換子 15.15
$\displaystyle\frac{\partial S(\boldsymbol{\rho})}{\partial \boldsymbol{\rho}}$
(von Neumannエントロピー)
$-(\log \boldsymbol{\rho} + \boldsymbol{I})$ $S = -\text{Tr}(\boldsymbol{\rho}\log\boldsymbol{\rho})$ 15.16
$\displaystyle\frac{\partial \text{Tr}(\boldsymbol{\rho}^2)}{\partial \boldsymbol{\rho}}$
(純度)
$2\boldsymbol{\rho}^\dagger$ 純粋状態: $\text{Tr}(\boldsymbol{\rho}^2)=1$ 15.17
$\displaystyle\frac{\partial F(\boldsymbol{\rho}, \boldsymbol{\sigma})}{\partial \boldsymbol{\rho}}$
(忠実度)
$\displaystyle\frac{1}{2F}\boldsymbol{\sigma}^{1/2}(\boldsymbol{\sigma}^{1/2}\boldsymbol{\rho}\boldsymbol{\sigma}^{1/2})^{-1/2}\boldsymbol{\sigma}^{1/2}$ $F = \text{Tr}\sqrt{\boldsymbol{\sigma}^{1/2}\boldsymbol{\rho}\boldsymbol{\sigma}^{1/2}}$ 15.18

ここで $[\boldsymbol{A}, \boldsymbol{B}] = \boldsymbol{A}\boldsymbol{B} - \boldsymbol{B}\boldsymbol{A}$ は交換子、$\boldsymbol{H}$ はHamiltonian、 $\hbar$ はDirac定数、$\boldsymbol{\rho}^\dagger$ はエルミート共役である。

15.4 慣性テンソルの変換

剛体の慣性テンソル $\boldsymbol{I}$ の座標変換に関する微分。古典力学、ロボット工学で使用。

公式 結果 備考 証明
$\boldsymbol{I}' = \boldsymbol{R}\boldsymbol{I}_0\boldsymbol{R}^\top$ 慣性テンソルの座標変換 $\boldsymbol{I}_0$: 物体座標系
$\displaystyle\frac{d\boldsymbol{I}'}{dt}$ $[\boldsymbol{\omega}]_\times\boldsymbol{I}' - \boldsymbol{I}'[\boldsymbol{\omega}]_\times$ $= [\boldsymbol{\omega}, \boldsymbol{I}']_-$ 15.19
$\displaystyle\frac{\partial}{\partial \boldsymbol{R}}(\boldsymbol{R}\boldsymbol{I}_0\boldsymbol{R}^\top)$ $d(\boldsymbol{R}\boldsymbol{I}_0\boldsymbol{R}^\top) = d\boldsymbol{R}\cdot\boldsymbol{I}_0\boldsymbol{R}^\top + \boldsymbol{R}\boldsymbol{I}_0\cdot d\boldsymbol{R}^\top$ 微分形式 15.20
$\boldsymbol{L} = \boldsymbol{I}\boldsymbol{\omega}$ 角運動量 $\boldsymbol{L}$ と $\boldsymbol{\omega}$ は一般に非平行
$\displaystyle\frac{d\boldsymbol{L}}{dt} = \boldsymbol{\tau}$ $\boldsymbol{I}\dot{\boldsymbol{\omega}} + \boldsymbol{\omega} \times (\boldsymbol{I}\boldsymbol{\omega})$ Euler方程式 15.21

ここで $[\boldsymbol{A}, \boldsymbol{B}]_- = \boldsymbol{A}\boldsymbol{B} - \boldsymbol{B}\boldsymbol{A}$ は行列の交換子、 $\boldsymbol{\tau}$ はトルク、$\boldsymbol{L}$ は角運動量である。

15.5 クォータニオン動力学

航空宇宙工学における姿勢表現の動力学方程式。 単位クォータニオン $\boldsymbol{q} = (q_w, q_x, q_y, q_z)^\top$、$\|\boldsymbol{q}\| = 1$ を使用。

公式 結果 備考 証明
クォータニオン運動方程式
$\dot{\boldsymbol{q}}$
$\displaystyle\frac{1}{2}\boldsymbol{\Omega}(\boldsymbol{\omega})\boldsymbol{q}$ $\boldsymbol{\omega}$: 角速度ベクトル 15.22
$\boldsymbol{\Omega}(\boldsymbol{\omega})$
(角速度行列)
$\begin{pmatrix} 0 & -\omega_x & -\omega_y & -\omega_z \\ \omega_x & 0 & \omega_z & -\omega_y \\ \omega_y & -\omega_z & 0 & \omega_x \\ \omega_z & \omega_y & -\omega_x & 0 \end{pmatrix}$ $4 \times 4$ 歪対称行列
$\displaystyle\frac{\partial \dot{\boldsymbol{q}}}{\partial \boldsymbol{\omega}}$ $\displaystyle\frac{1}{2}\boldsymbol{\Xi}(\boldsymbol{q})$ $\boldsymbol{\Xi} \in \mathbb{R}^{4 \times 3}$ 15.23
$\boldsymbol{\Xi}(\boldsymbol{q})$ $\begin{pmatrix} -q_x & -q_y & -q_z \\ q_w & -q_z & q_y \\ q_z & q_w & -q_x \\ -q_y & q_x & q_w \end{pmatrix}$ $\boldsymbol{\Xi}^\top\boldsymbol{\Xi} = \boldsymbol{I}_3$ 15.24
クォータニオン誤差
$\boldsymbol{q}_e = \boldsymbol{q}^{-1} \otimes \boldsymbol{q}_d$
$\dot{\boldsymbol{q}}_e = \displaystyle\frac{1}{2}\boldsymbol{\Xi}(\boldsymbol{q}_e)\boldsymbol{\omega}_e$ $\boldsymbol{\omega}_e$: 誤差角速度
姿勢制御に使用
15.25

15.6 オイラー角と角速度変換

オイラー角(ロール $\phi$、ピッチ $\theta$、ヨー $\psi$)と機体角速度 $\boldsymbol{\omega} = (\omega_x, \omega_y, \omega_z)^\top$ の関係。 航空機・宇宙機の姿勢表現で使用(ZYX回転順序)。

公式 結果 備考 証明
オイラー角レート
$\dot{\boldsymbol{\Theta}}$
$\boldsymbol{T}(\boldsymbol{\Theta})\boldsymbol{\omega}$ $\boldsymbol{\Theta} = (\phi, \theta, \psi)^\top$ 15.26
変換行列
$\boldsymbol{T}(\boldsymbol{\Theta})$
$\begin{pmatrix} 1 & \sin\phi\tan\theta & \cos\phi\tan\theta \\ 0 & \cos\phi & -\sin\phi \\ 0 & \sin\phi\sec\theta & \cos\phi\sec\theta \end{pmatrix}$ $\theta = \pm 90°$ で特異 15.27
$\displaystyle\frac{\partial \boldsymbol{T}}{\partial \phi}$ $\begin{pmatrix} 0 & \cos\phi\tan\theta & -\sin\phi\tan\theta \\ 0 & -\sin\phi & -\cos\phi \\ 0 & \cos\phi\sec\theta & -\sin\phi\sec\theta \end{pmatrix}$ ロール角微分 15.28
$\displaystyle\frac{\partial \boldsymbol{T}}{\partial \theta}$ $\begin{pmatrix} 0 & \sin\phi\sec^2\theta & \cos\phi\sec^2\theta \\ 0 & 0 & 0 \\ 0 & \sin\phi\sec\theta\tan\theta & \cos\phi\sec\theta\tan\theta \end{pmatrix}$ ピッチ角微分 15.29
逆変換
$\boldsymbol{\omega}$
$\boldsymbol{T}^{-1}(\boldsymbol{\Theta})\dot{\boldsymbol{\Theta}}$ $\boldsymbol{T}^{-1}$ は $\boldsymbol{T}$ の逆行列 15.30

ジンバルロック($\theta = \pm 90°$)を避けるため、大きな姿勢変化にはクォータニオン表現が推奨される。

15.7 重力傾度トルク

衛星の受動的姿勢安定化に使用される重力傾度トルク。 軌道上の物体に作用する非一様重力場によるトルク。

公式 結果 備考 証明
重力傾度トルク
$\boldsymbol{\tau}_{GG}$
$\displaystyle\frac{3\mu}{r^3}(\hat{\boldsymbol{r}} \times \boldsymbol{I}\hat{\boldsymbol{r}})$ $\hat{\boldsymbol{r}}$: 軌道位置単位ベクトル
$\boldsymbol{I}$: 慣性テンソル
15.31
$\displaystyle\frac{\partial \boldsymbol{\tau}_{GG}}{\partial \hat{\boldsymbol{r}}}$ $\displaystyle\frac{3\mu}{r^3}\left([\boldsymbol{I}\hat{\boldsymbol{r}}]_\times - [\hat{\boldsymbol{r}}]_\times\boldsymbol{I}\right)$ 位置に対する感度 15.32
小角近似時
$\boldsymbol{\tau}_{GG}$
$\displaystyle\frac{3\mu}{r^3}\begin{pmatrix} (I_z - I_y)\theta_y \\ (I_x - I_z)\theta_x \\ 0 \end{pmatrix}$ $\theta_x, \theta_y$: 小角姿勢偏差 15.33
安定条件 $I_z > I_y > I_x$ または $I_z > I_x > I_y$ 最大慣性軸が鉛直
中間軸は不安定
15.34

16. 複素行列の微分

複素共役を含む関数のWirtinger微分と、複素トレースの微分公式。 証明は証明集 第16章を参照。

公式 結果 備考 証明
$\displaystyle\frac{\partial f}{\partial z}$, $\displaystyle\frac{\partial f}{\partial z^*}$ $\displaystyle\frac{1}{2}\left(\displaystyle\frac{\partial f}{\partial \Re z} \mp i\displaystyle\frac{\partial f}{\partial \Im z}\right)$ Wirtinger微分 16.1
$\nabla f(\boldsymbol{z})$
($f$: 実数値)
$\displaystyle 2\displaystyle\frac{\partial f(\boldsymbol{z})}{\partial \boldsymbol{z}^*}$ 複素勾配ベクトル 16.2
$\displaystyle\frac{\partial g}{\partial z}$
(合成関数)
$\displaystyle\frac{\partial g}{\partial f}\displaystyle\frac{\partial f}{\partial z} + \displaystyle\frac{\partial g}{\partial f^*}\displaystyle\frac{\partial f^*}{\partial z}$ 複素微分の連鎖律 16.3
$\displaystyle\frac{\partial \text{Tr}(\boldsymbol{X}^*)}{\partial \Re\boldsymbol{X}}$ $\boldsymbol{I}$ 複素共役トレースの微分 16.4
$\displaystyle\frac{\partial \text{Tr}(\boldsymbol{A}\boldsymbol{X}^H)}{\partial \Re\boldsymbol{X}}$ $\boldsymbol{A}^\top$ Hermiteトレースの微分 16.6
$\displaystyle\frac{\partial \text{Tr}(\boldsymbol{X}\boldsymbol{X}^H)}{\partial \Re\boldsymbol{X}}$ $2\Re\boldsymbol{X}$ Frobeniusノルムの微分 16.8
$\displaystyle\frac{\partial \text{Tr}(\boldsymbol{X}\boldsymbol{X}^H)}{\partial \boldsymbol{X}}$ $\boldsymbol{X}^*$ Wirtinger微分 16.9
$\nabla\|\boldsymbol{X}\|_F^2$ $2\boldsymbol{X}$ Frobeniusノルムの複素勾配 16.10
$\displaystyle\frac{\partial \det(\boldsymbol{X}^H\boldsymbol{A}\boldsymbol{X})}{\partial \boldsymbol{X}^*}$ $\det(\boldsymbol{X}^H\boldsymbol{A}\boldsymbol{X})\boldsymbol{A}\boldsymbol{X}(\boldsymbol{X}^H\boldsymbol{A}\boldsymbol{X})^{-1}$ 複素行列式の微分 16.11
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}}\displaystyle\frac{(\boldsymbol{A}\boldsymbol{x})^H(\boldsymbol{A}\boldsymbol{x})}{(\boldsymbol{B}\boldsymbol{x})^H(\boldsymbol{B}\boldsymbol{x})}$ (複素Rayleigh商) 複素Rayleigh商の微分 16.12
$\displaystyle\frac{\partial (a - \boldsymbol{x}^H \boldsymbol{b})^2}{\partial \boldsymbol{x}}$ $-2\bar{\boldsymbol{b}}(a - \boldsymbol{x}^H \boldsymbol{b})^*$ 複素二次形式の微分 16.13

ここで $\boldsymbol{X}^H = (\boldsymbol{X}^*)^\top$ はHermite転置、$\boldsymbol{X}^*$ は要素ごとの複素共役、$\bar{\boldsymbol{b}}$ は $\boldsymbol{b}$ の複素共役である。

16.2 信号処理・通信工学の複素微分

アレイ信号処理、適応フィルタ、MIMO通信で使用される複素行列微分公式。

16.2.1 Wienerフィルタ

平均二乗誤差(MSE)を最小化する最適線形フィルタ。適応フィルタの基礎理論。

公式 結果 備考 証明
MSEコスト関数
$J(\boldsymbol{w}) = \mathbb{E}[|d - \boldsymbol{w}^H\boldsymbol{x}|^2]$
$\sigma_d^2 - \boldsymbol{w}^H\boldsymbol{r}_{xd} - \boldsymbol{r}_{xd}^H\boldsymbol{w} + \boldsymbol{w}^H\boldsymbol{R}_{xx}\boldsymbol{w}$ $d$: 希望信号
$\boldsymbol{x}$: 入力ベクトル
16.14
$\displaystyle\frac{\partial J}{\partial \boldsymbol{w}^*}$ $-\boldsymbol{r}_{xd} + \boldsymbol{R}_{xx}\boldsymbol{w}$ MSE勾配(Wirtinger) 16.15
Wiener-Hopf方程式
$\boldsymbol{w}_{\text{opt}}$
$\boldsymbol{R}_{xx}^{-1}\boldsymbol{r}_{xd}$ $\boldsymbol{R}_{xx} = \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^H]$
$\boldsymbol{r}_{xd} = \mathbb{E}[\boldsymbol{x}d^*]$
16.16
最小MSE
$J_{\min}$
$\sigma_d^2 - \boldsymbol{r}_{xd}^H\boldsymbol{R}_{xx}^{-1}\boldsymbol{r}_{xd}$ 最適フィルタ適用時 16.17

16.2.2 MVDRビームフォーマ

最小分散無歪応答(Minimum Variance Distortionless Response)ビームフォーマ。 Caponビームフォーマとも呼ばれ、干渉抑圧に広く使用される。

公式 結果 備考 証明
MVDR最適化問題 $\displaystyle\min_{\boldsymbol{w}} \boldsymbol{w}^H\boldsymbol{R}\boldsymbol{w}$
s.t. $\boldsymbol{w}^H\boldsymbol{a}(\theta_0) = 1$
$\boldsymbol{R}$: 共分散行列
$\boldsymbol{a}$: ステアリングベクトル
16.18
MVDR重み係数
$\boldsymbol{w}_{\text{MVDR}}$
$\displaystyle\frac{\boldsymbol{R}^{-1}\boldsymbol{a}(\theta_0)}{\boldsymbol{a}(\theta_0)^H\boldsymbol{R}^{-1}\boldsymbol{a}(\theta_0)}$ Lagrange乗数法で導出 16.19
$\displaystyle\frac{\partial \boldsymbol{w}_{\text{MVDR}}}{\partial \boldsymbol{R}^{-1}}$ $\displaystyle\frac{\boldsymbol{a}\boldsymbol{a}^H}{\boldsymbol{a}^H\boldsymbol{R}^{-1}\boldsymbol{a}} - \displaystyle\frac{(\boldsymbol{R}^{-1}\boldsymbol{a})(\boldsymbol{a}^H\boldsymbol{R}^{-1}\boldsymbol{a}\boldsymbol{a}^H)}{(\boldsymbol{a}^H\boldsymbol{R}^{-1}\boldsymbol{a})^2}$ 逆共分散行列による微分 16.20
MVDR出力パワー $\displaystyle\frac{1}{\boldsymbol{a}(\theta)^H\boldsymbol{R}^{-1}\boldsymbol{a}(\theta)}$ Caponスペクトル 16.21

16.2.3 アレイステアリングベクトル

到来方向推定(DOA: Direction of Arrival)でステアリングベクトルの角度微分が必要になる。

公式 結果 備考 証明
ULAステアリングベクトル
$\boldsymbol{a}(\theta)$
$[1, e^{j\phi}, e^{j2\phi}, \ldots, e^{j(M-1)\phi}]^\top$
$\phi = \displaystyle\frac{2\pi d}{\lambda}\sin\theta$
$M$: 素子数、$d$: 素子間隔
$\lambda$: 波長
16.22
$\displaystyle\frac{\partial \boldsymbol{a}(\theta)}{\partial \theta}$ $j\displaystyle\frac{2\pi d}{\lambda}\cos\theta \cdot \boldsymbol{D}\boldsymbol{a}(\theta)$ $\boldsymbol{D} = \text{diag}(0,1,\ldots,M-1)$ 16.23
$\displaystyle\frac{\partial^2 \boldsymbol{a}(\theta)}{\partial \theta^2}$ $-\left(\displaystyle\frac{2\pi d}{\lambda}\right)^2\left(\cos^2\theta \cdot \boldsymbol{D}^2 + \sin\theta\cos\theta \cdot \boldsymbol{D}\right)\boldsymbol{a}(\theta)$ DOA推定のCramér-Rao限界 16.24
Fisher情報行列
$\boldsymbol{F}(\theta)$
$\displaystyle\frac{2N}{\sigma^2}\Re\left[\left(\displaystyle\frac{\partial \boldsymbol{a}}{\partial \theta}\right)^H\boldsymbol{P}_{\boldsymbol{a}}^\perp\displaystyle\frac{\partial \boldsymbol{a}}{\partial \theta}\right]$ $\boldsymbol{P}_{\boldsymbol{a}}^\perp = \boldsymbol{I} - \boldsymbol{a}\boldsymbol{a}^H/\|\boldsymbol{a}\|^2$
CRB = $\boldsymbol{F}^{-1}$
16.25

16.2.4 MIMO通信容量

多入力多出力(MIMO)チャネルの容量最大化と最適電力配分。

公式 結果 備考 証明
MIMO容量
$C$
$\log\det\left(\boldsymbol{I} + \displaystyle\frac{1}{\sigma^2}\boldsymbol{H}\boldsymbol{Q}\boldsymbol{H}^H\right)$ $\boldsymbol{H}$: チャネル行列
$\boldsymbol{Q}$: 送信共分散行列
16.26
$\displaystyle\frac{\partial C}{\partial \boldsymbol{Q}}$ $\displaystyle\frac{1}{\sigma^2}\boldsymbol{H}^H\left(\boldsymbol{I} + \displaystyle\frac{1}{\sigma^2}\boldsymbol{H}\boldsymbol{Q}\boldsymbol{H}^H\right)^{-1}\boldsymbol{H}$ Water-filling導出の基礎 16.27
Water-filling解
$P_i$
$\left[\mu - \displaystyle\frac{\sigma^2}{\lambda_i}\right]_+$ $\lambda_i$: $\boldsymbol{H}^H\boldsymbol{H}$ の固有値
$[\cdot]_+ = \max(\cdot, 0)$
16.28
$\displaystyle\frac{\partial C}{\partial \boldsymbol{H}}$ $\displaystyle\frac{1}{\sigma^2}\left(\boldsymbol{I} + \displaystyle\frac{1}{\sigma^2}\boldsymbol{H}\boldsymbol{Q}\boldsymbol{H}^H\right)^{-1}\boldsymbol{H}\boldsymbol{Q}$ チャネル推定誤差の影響解析 16.29

16.2.5 LMS/RLSアルゴリズム

適応フィルタの代表的アルゴリズム。LMS(Least Mean Squares)は確率的勾配降下法、 RLS(Recursive Least Squares)は逐次的な最小二乗法。

公式 結果 備考 証明
LMS更新則
$\boldsymbol{w}(n+1)$
$\boldsymbol{w}(n) + \mu e^*(n)\boldsymbol{x}(n)$ $e(n) = d(n) - \boldsymbol{w}^H(n)\boldsymbol{x}(n)$
$\mu$: ステップサイズ
16.30
LMS瞬時勾配 $\displaystyle\frac{\partial |e(n)|^2}{\partial \boldsymbol{w}^*} = -e^*(n)\boldsymbol{x}(n)$ 確率的勾配降下法 16.31
RLS更新則
$\boldsymbol{w}(n)$
$\boldsymbol{w}(n-1) + \boldsymbol{k}(n)e^*(n)$ $\boldsymbol{k}(n)$: Kalmanゲイン 16.32
RLS Kalmanゲイン
$\boldsymbol{k}(n)$
$\displaystyle\frac{\boldsymbol{P}(n-1)\boldsymbol{x}(n)}{\lambda + \boldsymbol{x}^H(n)\boldsymbol{P}(n-1)\boldsymbol{x}(n)}$ $\lambda$: 忘却係数
$\boldsymbol{P}$: 逆相関行列
16.33
RLS逆相関行列更新
$\boldsymbol{P}(n)$
$\displaystyle\frac{1}{\lambda}\left(\boldsymbol{P}(n-1) - \boldsymbol{k}(n)\boldsymbol{x}^H(n)\boldsymbol{P}(n-1)\right)$ Matrix Inversion Lemma 16.34

ここで $\boldsymbol{R}_{xx} = \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^H]$ は入力信号の相関行列、 $\boldsymbol{r}_{xd} = \mathbb{E}[\boldsymbol{x}d^*]$ は相互相関ベクトルである。

16.2.6 MIMO受信機(ZF/MMSE)

MIMO通信における線形受信機の重み行列。ゼロフォーシング(ZF)とMMSE受信機。

公式 結果 備考 証明
ZF受信機
$\boldsymbol{W}_{\text{ZF}}$
$(\boldsymbol{H}^H\boldsymbol{H})^{-1}\boldsymbol{H}^H$ チャネル行列 $\boldsymbol{H}$ の擬似逆行列 16.35
MMSE受信機
$\boldsymbol{W}_{\text{MMSE}}$
$(\boldsymbol{H}^H\boldsymbol{H} + \sigma_n^2\boldsymbol{I})^{-1}\boldsymbol{H}^H$ $\sigma_n^2$: 雑音分散 16.36
MMSE行列の雑音分散微分
$\displaystyle\frac{\partial \boldsymbol{W}_{\text{MMSE}}}{\partial \sigma_n^2}$
$-(\boldsymbol{H}^H\boldsymbol{H} + \sigma_n^2\boldsymbol{I})^{-2}\boldsymbol{H}^H$ 感度解析 16.37
ZFの出力SINR
$\text{SINR}_k^{\text{ZF}}$
$\displaystyle\frac{P_k}{\sigma_n^2 [(\boldsymbol{H}^H\boldsymbol{H})^{-1}]_{kk}}$ 第$k$ストリーム 16.38
ZF-SINRのチャネル微分
$\displaystyle\frac{\partial \text{SINR}_k^{\text{ZF}}}{\partial \boldsymbol{H}}$
(本文参照) チャネル感度 16.39

16.2.7 LCMVビームフォーマ

線形制約付き最小分散(Linearly Constrained Minimum Variance)ビームフォーマ。 複数の制約を同時に満たす一般化されたビームフォーミング。

公式 結果 備考 証明
LCMV最適化問題 $\min_{\boldsymbol{w}} \boldsymbol{w}^H\boldsymbol{R}\boldsymbol{w}$
s.t. $\boldsymbol{C}^H\boldsymbol{w} = \boldsymbol{f}$
$\boldsymbol{C}$: 制約行列
$\boldsymbol{f}$: 制約ベクトル
16.40
LCMV最適重み
$\boldsymbol{w}_{\text{LCMV}}$
$\boldsymbol{R}^{-1}\boldsymbol{C}(\boldsymbol{C}^H\boldsymbol{R}^{-1}\boldsymbol{C})^{-1}\boldsymbol{f}$ Lagrange乗数法による導出 16.41
LCMV出力パワー $\boldsymbol{f}^H(\boldsymbol{C}^H\boldsymbol{R}^{-1}\boldsymbol{C})^{-1}\boldsymbol{f}$ 最小分散出力 16.42
LCMVの制約ベクトル微分
$\displaystyle\frac{\partial \boldsymbol{w}_{\text{LCMV}}}{\partial \boldsymbol{f}}$
$\boldsymbol{R}^{-1}\boldsymbol{C}(\boldsymbol{C}^H\boldsymbol{R}^{-1}\boldsymbol{C})^{-1}$ 制約変化の感度 16.43

MVDRはLCMVの特殊ケースで、$\boldsymbol{C} = \boldsymbol{a}(\theta_0)$(ステアリングベクトル)、$\boldsymbol{f} = 1$ の場合に対応する。

16.2.8 OFDM等化

直交周波数分割多重(OFDM)における周波数領域等化。

公式 結果 備考 証明
ZF等化係数
$W_k^{\text{ZF}}$
$\displaystyle\frac{1}{H_k}$ $H_k$: 第$k$サブキャリアの周波数応答 16.44
MMSE等化係数
$W_k^{\text{MMSE}}$
$\displaystyle\frac{H_k^*}{|H_k|^2 + \sigma_n^2/\sigma_s^2}$ $\sigma_s^2$: 信号電力 16.45
MMSE等化のSNR微分
$\displaystyle\frac{\partial W_k^{\text{MMSE}}}{\partial \text{SNR}}$
$\displaystyle\frac{H_k^*}{(|H_k|^2 + 1/\text{SNR})^2} \cdot \displaystyle\frac{1}{\text{SNR}^2}$ SNR = $\sigma_s^2/\sigma_n^2$ 16.46
OFDM-MIMO ZF等化
$\boldsymbol{W}_k^{\text{ZF}}$
$(\boldsymbol{H}_k^H\boldsymbol{H}_k)^{-1}\boldsymbol{H}_k^H$ サブキャリア$k$のMIMO等化 16.47

16.2.9 干渉チャネルの最適化

複数ユーザが同一周波数帯を共用する干渉チャネルにおける送信/受信設計の最適化。

公式 結果 備考 証明
干渉チャネルの受信SINR
$\text{SINR}_k$
$\displaystyle\frac{|\boldsymbol{h}_{kk}^H\boldsymbol{v}_k|^2 p_k}{\sum_{j \neq k}|\boldsymbol{h}_{kj}^H\boldsymbol{v}_j|^2 p_j + \sigma_n^2}$ $\boldsymbol{v}_k$: プリコーダ 16.48
SINRの電力微分
$\displaystyle\frac{\partial \text{SINR}_k}{\partial p_k}$
$\displaystyle\frac{|\boldsymbol{h}_{kk}^H\boldsymbol{v}_k|^2}{\sum_{j \neq k}|\boldsymbol{h}_{kj}^H\boldsymbol{v}_j|^2 p_j + \sigma_n^2}$ 自己の電力 16.49
SINRの干渉電力微分
$\displaystyle\frac{\partial \text{SINR}_k}{\partial p_j}$ $(j \neq k)$
$-\displaystyle\frac{|\boldsymbol{h}_{kk}^H\boldsymbol{v}_k|^2 p_k \cdot |\boldsymbol{h}_{kj}^H\boldsymbol{v}_j|^2}{(\sum_{l \neq k}|\boldsymbol{h}_{kl}^H\boldsymbol{v}_l|^2 p_l + \sigma_n^2)^2}$ 他者の電力(干渉) 16.50
総和レート
$R_{\text{sum}}$
$\sum_k \log_2(1 + \text{SINR}_k)$ システム全体のレート 16.51
総和レートの電力勾配
$\displaystyle\frac{\partial R_{\text{sum}}}{\partial p_k}$
(本文参照) 電力配分の最適化 16.52

16.2.10 相互情報量の微分

通信システムにおける相互情報量と関連するMMSE行列の関係。

公式 結果 備考 証明
Gauss入力のMIMO相互情報量
$I(\boldsymbol{x}; \boldsymbol{y})$
$\log|\boldsymbol{I} + \text{SNR} \cdot \boldsymbol{H}\boldsymbol{Q}\boldsymbol{H}^H|$ $\boldsymbol{Q}$: 入力共分散 16.53
I-MMSE関係
$\displaystyle\frac{d I}{d \text{SNR}}$
$\text{mmse}(\text{SNR})$ Guo-Shamai-Verdú (2005) 16.54
MMSE行列
$\boldsymbol{E}(\text{SNR})$
$\boldsymbol{Q} - \boldsymbol{Q}\boldsymbol{H}^H(\boldsymbol{I} + \text{SNR}\cdot\boldsymbol{H}\boldsymbol{Q}\boldsymbol{H}^H)^{-1}\boldsymbol{H}\boldsymbol{Q} \cdot \text{SNR}$ 推定誤差共分散 16.55
相互情報量の入力共分散微分
$\displaystyle\frac{\partial I}{\partial \boldsymbol{Q}}$
$\text{SNR} \cdot \boldsymbol{H}^H(\boldsymbol{I} + \text{SNR}\cdot\boldsymbol{H}\boldsymbol{Q}\boldsymbol{H}^H)^{-1}\boldsymbol{H}$ 容量達成の条件 16.56

I-MMSE関係は、相互情報量のSNRに対する微分がMMSEに等しいという基本的な関係で、 情報理論と推定理論を結びつける重要な結果である。

17. 確率モデルの微分

確率分布、統計モデル、ベイズ推論、強化学習などで頻出する確率モデルの微分公式。 対数尤度、KL divergence、方策勾配など確率構造を持つ関数の勾配。

17.1 KL divergenceの勾配

2つの確率分布間のKullback-Leibler divergenceの勾配。VAE、蒸留などで使用。

公式 結果 備考 証明
$D_{\text{KL}}(p \| q)$
(Gauss分布)
$\displaystyle\frac{1}{2}\left(\text{tr}(\boldsymbol{\Sigma}_q^{-1}\boldsymbol{\Sigma}_p) + (\boldsymbol{\mu}_q - \boldsymbol{\mu}_p)^\top\boldsymbol{\Sigma}_q^{-1}(\boldsymbol{\mu}_q - \boldsymbol{\mu}_p) - k + \log\displaystyle\frac{|\boldsymbol{\Sigma}_q|}{|\boldsymbol{\Sigma}_p|}\right)$ $k$: 次元数
VAE損失の一部
17.1
$\displaystyle\frac{\partial D_{\text{KL}}}{\partial \boldsymbol{\mu}_p}$ $-\boldsymbol{\Sigma}_q^{-1}(\boldsymbol{\mu}_q - \boldsymbol{\mu}_p)$ 平均に関する勾配 17.2
$\displaystyle\frac{\partial D_{\text{KL}}}{\partial \boldsymbol{\Sigma}_p}$ $\displaystyle\frac{1}{2}(\boldsymbol{\Sigma}_q^{-1} - \boldsymbol{\Sigma}_p^{-1})$ 共分散に関する勾配 17.3

17.2 Policy Gradient(強化学習)

方策 $\pi_\theta(\boldsymbol{a}|\boldsymbol{s})$ のパラメータ $\boldsymbol{\theta}$ に関する勾配。 期待累積報酬 $J(\boldsymbol{\theta}) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]$ を最大化する。

公式 結果 備考 証明
Policy Gradient定理
$\nabla_\theta J(\boldsymbol{\theta})$
$\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(\boldsymbol{a}|\boldsymbol{s}) \cdot Q^{\pi}(\boldsymbol{s}, \boldsymbol{a})\right]$ REINFORCE の基礎
$Q^\pi$ は行動価値関数
17.4
ベースライン付き
$\nabla_\theta J(\boldsymbol{\theta})$
$\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(\boldsymbol{a}|\boldsymbol{s}) \cdot A^{\pi}(\boldsymbol{s}, \boldsymbol{a})\right]$ $A^\pi = Q^\pi - V^\pi$(アドバンテージ関数)
分散削減
17.5

17.3 Sinkhorn距離と最適輸送

2つの確率分布間の最適輸送問題。Wasserstein距離のエントロピー正則化版がSinkhorn距離。

公式 結果 備考 証明
Sinkhorn距離
$S_\epsilon(\boldsymbol{a}, \boldsymbol{b})$
$\langle \boldsymbol{P}^*, \boldsymbol{C} \rangle - \epsilon H(\boldsymbol{P}^*)$ $\boldsymbol{P}^*$ は最適輸送行列
$H$ はエントロピー
17.6
$\displaystyle\frac{\partial S_\epsilon}{\partial \boldsymbol{a}}$ $\epsilon \log \boldsymbol{u}$ $\boldsymbol{u}$ は Sinkhorn スケーリング係数 17.7
$\displaystyle\frac{\partial S_\epsilon}{\partial \boldsymbol{C}}$ $\boldsymbol{P}^*$ コスト行列に関する勾配 17.8

17.4 Gauss過程の対数周辺尤度

Gauss過程(GP)の超パラメータ最適化で使用される対数周辺尤度の勾配。 $\boldsymbol{K}$ は共分散行列、$\boldsymbol{y}$ は観測値。

公式 結果 備考 証明
対数周辺尤度
$\log p(\boldsymbol{y}|\boldsymbol{X}, \boldsymbol{\theta})$
$-\displaystyle\frac{1}{2}\boldsymbol{y}^\top \boldsymbol{K}^{-1} \boldsymbol{y} - \displaystyle\frac{1}{2}\log|\boldsymbol{K}| - \displaystyle\frac{n}{2}\log(2\pi)$ GP回帰の目的関数 17.9
$\displaystyle\frac{\partial \log p}{\partial \theta_i}$ $\displaystyle\frac{1}{2}\text{tr}\left((\boldsymbol{\alpha}\boldsymbol{\alpha}^\top - \boldsymbol{K}^{-1})\displaystyle\frac{\partial \boldsymbol{K}}{\partial \theta_i}\right)$ $\boldsymbol{\alpha} = \boldsymbol{K}^{-1}\boldsymbol{y}$ 17.10

17.5 確率伝播法(Belief Propagation)

グラフィカルモデルにおけるメッセージパッシングの勾配。

公式 結果 備考 証明
メッセージ更新
$m_{i \to j}(x_j)$
$\sum_{x_i} \psi_{ij}(x_i, x_j) \phi_i(x_i) \prod_{k \neq j} m_{k \to i}(x_i)$ $\psi_{ij}$: ペア因子
$\phi_i$: 単項因子
17.11
$\displaystyle\frac{\partial \log Z}{\partial \psi_{ij}(x_i, x_j)}$ $b_{ij}(x_i, x_j) / \psi_{ij}(x_i, x_j)$ $b_{ij}$: ペア周辺確率
$Z$: 分配関数
17.12

17.6 因子分析(Factor Analysis)

観測変数 $\boldsymbol{x} \in \mathbb{R}^p$ を潜在因子 $\boldsymbol{f} \in \mathbb{R}^k$ で説明:$\boldsymbol{x} = \boldsymbol{\mu} + \boldsymbol{\Lambda}\boldsymbol{f} + \boldsymbol{\epsilon}$。 共分散構造は $\boldsymbol{\Sigma} = \boldsymbol{\Lambda}\boldsymbol{\Phi}\boldsymbol{\Lambda}^\top + \boldsymbol{\Psi}$($\boldsymbol{\Phi}$: 因子間相関、$\boldsymbol{\Psi}$: 独自分散)。

公式 結果 備考 証明
ML目的関数
$F_{\text{ML}}$
$\log|\boldsymbol{\Sigma}| + \text{tr}(\boldsymbol{S}\boldsymbol{\Sigma}^{-1}) - \log|\boldsymbol{S}| - p$ $\boldsymbol{S}$: 標本共分散行列
$p$: 観測変数数
17.13
$\displaystyle\frac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Lambda}}$ $2(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda}\boldsymbol{\Phi}$ 因子負荷量の勾配 17.14
$\displaystyle\frac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Psi}}$ $\text{diag}(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})$ 独自分散の勾配
$\boldsymbol{\Psi}$は対角行列
17.15
$\displaystyle\frac{\partial F_{\text{ML}}}{\partial \boldsymbol{\Phi}}$ $\boldsymbol{\Lambda}^\top(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\boldsymbol{\Lambda}$ 因子間相関の勾配
$\boldsymbol{\Phi}$は対称行列
17.16

17.7 構造方程式モデリング(SEM)

潜在変数を含む連立方程式系。測定モデル:$\boldsymbol{x} = \boldsymbol{\Lambda}_x\boldsymbol{\xi} + \boldsymbol{\delta}$、 構造モデル:$\boldsymbol{\eta} = \boldsymbol{B}\boldsymbol{\eta} + \boldsymbol{\Gamma}\boldsymbol{\xi} + \boldsymbol{\zeta}$。

公式 結果 備考 証明
暗示された共分散
$\boldsymbol{\Sigma}(\boldsymbol{\theta})$
LISREL: $\boldsymbol{\Lambda}(\boldsymbol{I} - \boldsymbol{B})^{-1}(\boldsymbol{\Gamma}\boldsymbol{\Phi}\boldsymbol{\Gamma}^\top + \boldsymbol{\Psi})(\boldsymbol{I} - \boldsymbol{B})^{-\top}\boldsymbol{\Lambda}^\top + \boldsymbol{\Theta}$ $\boldsymbol{\theta}$: 全パラメータ 17.17
$\displaystyle\frac{\partial F_{\text{ML}}}{\partial \boldsymbol{\theta}}$ $\text{tr}\left[(\boldsymbol{\Sigma}^{-1} - \boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1})\displaystyle\frac{\partial \boldsymbol{\Sigma}}{\partial \theta_i}\right]$ 一般的な勾配公式 17.18
$\displaystyle\frac{\partial \boldsymbol{\Sigma}}{\partial \boldsymbol{B}}$ $\boldsymbol{\Lambda}\boldsymbol{A}^{-1}\boldsymbol{\Sigma}_\eta \otimes \boldsymbol{\Lambda}\boldsymbol{A}^{-1}$ $\boldsymbol{A} = \boldsymbol{I} - \boldsymbol{B}$
$\boldsymbol{\Sigma}_\eta$: 潜在変数の共分散
17.19

17.8 項目反応理論(IRT)

2PL(2-Parameter Logistic)モデル:$P(X_{ij} = 1 | \theta_i) = \displaystyle\frac{1}{1 + \exp(-a_j(\theta_i - b_j))}$。 $a_j$: 識別力、$b_j$: 困難度、$\theta_i$: 能力パラメータ。

公式 結果 備考 証明
対数尤度
$\ell(\boldsymbol{a}, \boldsymbol{b})$
$\sum_{i,j} [x_{ij}\log P_{ij} + (1-x_{ij})\log(1-P_{ij})]$ $P_{ij} = P(X_{ij}=1|\theta_i)$ 17.20
$\displaystyle\frac{\partial \ell}{\partial a_j}$ $\sum_i (x_{ij} - P_{ij})(\theta_i - b_j)$ 識別力の勾配 17.21
$\displaystyle\frac{\partial \ell}{\partial b_j}$ $\sum_i (P_{ij} - x_{ij}) a_j$ 困難度の勾配 17.22
$\displaystyle\frac{\partial \ell}{\partial \theta_i}$ $\sum_j (x_{ij} - P_{ij}) a_j$ 能力パラメータの勾配 17.23
2PL項目情報
$I_j(\theta)$
$a_j^2 P_j(\theta)(1 - P_j(\theta))$ Fisher情報量 17.24

17.9 多変量正規分布のMLE

多変量正規分布 $\boldsymbol{x} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ の最尤推定。

公式 結果 備考 証明
対数尤度
$\ell(\boldsymbol{\mu}, \boldsymbol{\Sigma})$
$-\displaystyle\frac{n}{2}\log|\boldsymbol{\Sigma}| - \displaystyle\frac{1}{2}\sum_i (\boldsymbol{x}_i - \boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}_i - \boldsymbol{\mu})$ 定数項を省略 17.25
$\displaystyle\frac{\partial \ell}{\partial \boldsymbol{\mu}}$ $\boldsymbol{\Sigma}^{-1}\sum_i (\boldsymbol{x}_i - \boldsymbol{\mu})$ 平均ベクトルの勾配 17.26
$\displaystyle\frac{\partial \ell}{\partial \boldsymbol{\Sigma}}$ $-\displaystyle\frac{n}{2}\boldsymbol{\Sigma}^{-1} + \displaystyle\frac{1}{2}\boldsymbol{\Sigma}^{-1}\boldsymbol{S}\boldsymbol{\Sigma}^{-1}$ $\boldsymbol{S} = \sum_i (\boldsymbol{x}_i - \boldsymbol{\mu})(\boldsymbol{x}_i - \boldsymbol{\mu})^\top$ 17.27

17.10 Wishart分布の勾配

共分散行列のベイズ推定に使用。$\boldsymbol{W} \sim \mathcal{W}_p(\boldsymbol{V}, n)$($\boldsymbol{V}$: スケール行列、$n$: 自由度)。

公式 結果 備考 証明
対数密度
$\log p(\boldsymbol{W}|\boldsymbol{V}, n)$
$\displaystyle\frac{n-p-1}{2}\log|\boldsymbol{W}| - \displaystyle\frac{1}{2}\text{tr}(\boldsymbol{V}^{-1}\boldsymbol{W}) - \displaystyle\frac{n}{2}\log|\boldsymbol{V}|$ 正規化定数を省略 17.28
$\displaystyle\frac{\partial \log p}{\partial \boldsymbol{W}}$ $\displaystyle\frac{n-p-1}{2}\boldsymbol{W}^{-1} - \displaystyle\frac{1}{2}\boldsymbol{V}^{-1}$ 観測行列の勾配 17.29
$\displaystyle\frac{\partial \log p}{\partial \boldsymbol{V}}$ $\displaystyle\frac{1}{2}\boldsymbol{V}^{-1}\boldsymbol{W}\boldsymbol{V}^{-1} - \displaystyle\frac{n}{2}\boldsymbol{V}^{-1}$ スケール行列の勾配 17.30

17.11 逆Wishart分布の勾配

共分散行列の事前分布として使用。$\boldsymbol{\Sigma} \sim \mathcal{W}^{-1}_p(\boldsymbol{\Psi}, \nu)$。

公式 結果 備考 証明
対数密度
$\log p(\boldsymbol{\Sigma}|\boldsymbol{\Psi}, \nu)$
$-\displaystyle\frac{\nu+p+1}{2}\log|\boldsymbol{\Sigma}| - \displaystyle\frac{1}{2}\text{tr}(\boldsymbol{\Psi}\boldsymbol{\Sigma}^{-1})$ 正規化定数を省略 17.31
$\displaystyle\frac{\partial \log p}{\partial \boldsymbol{\Sigma}}$ $-\displaystyle\frac{\nu+p+1}{2}\boldsymbol{\Sigma}^{-1} + \displaystyle\frac{1}{2}\boldsymbol{\Sigma}^{-1}\boldsymbol{\Psi}\boldsymbol{\Sigma}^{-1}$ 共分散行列の勾配 17.32

17.12 多変量回帰の勾配

多重の従属変数を持つ回帰モデル:$\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{B} + \boldsymbol{E}$($\boldsymbol{Y} \in \mathbb{R}^{n \times q}$、$\boldsymbol{B} \in \mathbb{R}^{p \times q}$)。

公式 結果 備考 証明
対数尤度
$\ell(\boldsymbol{B}, \boldsymbol{\Sigma})$
$-\displaystyle\frac{n}{2}\log|\boldsymbol{\Sigma}| - \displaystyle\frac{1}{2}\text{tr}(\boldsymbol{\Sigma}^{-1}(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{B})^\top(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{B}))$ $\boldsymbol{\Sigma}$: 誤差の共分散 17.33
$\displaystyle\frac{\partial \ell}{\partial \boldsymbol{B}}$ $\boldsymbol{X}^\top(\boldsymbol{Y} - \boldsymbol{X}\boldsymbol{B})\boldsymbol{\Sigma}^{-1}$ 回帰係数の勾配 17.34
$\displaystyle\frac{\partial \ell}{\partial \boldsymbol{\Sigma}}$ $-\displaystyle\frac{n}{2}\boldsymbol{\Sigma}^{-1} + \displaystyle\frac{1}{2}\boldsymbol{\Sigma}^{-1}\boldsymbol{E}^\top\boldsymbol{E}\boldsymbol{\Sigma}^{-1}$ $\boldsymbol{E} = \boldsymbol{Y} - \boldsymbol{X}\boldsymbol{B}$ 17.35

証明

各公式の詳細な証明は行列微分の証明集を参照。

付録A 分子レイアウトとの対応と表記上の注意

A.1 勾配ベクトルの形状

スカラー $f$ をベクトル $\boldsymbol{x} \in \mathbb{R}^n$ で微分した勾配について:

  • 分子レイアウト:$\nabla f = \displaystyle\frac{\partial f}{\partial \boldsymbol{x}} \in \mathbb{R}^{1 \times n}$(行ベクトル)
  • 分母レイアウト(本資料):$\nabla f = \displaystyle\frac{\partial f}{\partial \boldsymbol{x}} \in \mathbb{R}^{n \times 1}$(列ベクトル)

最適化アルゴリズムで「勾配方向に進む」という記述がある場合、本資料の表記ではそのまま $-\nabla f$ を加算すればよいが、分子レイアウトの教科書では転置 $(\nabla f)^T$ が必要になる点に注意。

A.2 Jacobi行列の定義

ベクトル値関数 $\boldsymbol{f}: \mathbb{R}^n \to \mathbb{R}^m$ のJacobi行列について:

  • 分子レイアウト:$\boldsymbol{J} = \displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} \in \mathbb{R}^{m \times n}$($i$行$j$列成分が $\displaystyle\frac{\partial f_i}{\partial x_j}$)
  • 分母レイアウト(本資料):$\boldsymbol{J} = \displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} \in \mathbb{R}^{n \times m}$($i$行$j$列成分が $\displaystyle\frac{\partial f_j}{\partial x_i}$)

つまり、両者は転置の関係にある:$\boldsymbol{J}_{\text{denom}} = \boldsymbol{J}_{\text{numer}}^T$

A.3 連鎖律の形式

合成関数 $\boldsymbol{g}(\boldsymbol{f}(\boldsymbol{x}))$ の微分において:

  • 分子レイアウト:$\displaystyle\frac{\partial \boldsymbol{g}}{\partial \boldsymbol{x}} = \displaystyle\frac{\partial \boldsymbol{g}}{\partial \boldsymbol{f}} \displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}$(左から順に掛ける)
  • 分母レイアウト(本資料):$\displaystyle\frac{\partial \boldsymbol{g}}{\partial \boldsymbol{x}} = \displaystyle\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}} \displaystyle\frac{\partial \boldsymbol{g}}{\partial \boldsymbol{f}}$(右から順に掛ける)

ニューラルネットワークの逆伝播実装では、どちらの表記を採用しているか確認し、行列積の順序を正しく設定すること。

A.4 主要公式の対応表

公式 分母レイアウト(本資料) 分子レイアウト
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}}(\boldsymbol{a}^T \boldsymbol{x})$ $\boldsymbol{a}$ $\boldsymbol{a}^T$
$\displaystyle\frac{\partial}{\partial \boldsymbol{x}}(\boldsymbol{x}^T \boldsymbol{A} \boldsymbol{x})$ $(\boldsymbol{A} + \boldsymbol{A}^T)\boldsymbol{x}$ $\boldsymbol{x}^T(\boldsymbol{A} + \boldsymbol{A}^T)$
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}}(\boldsymbol{a}^T \boldsymbol{X} \boldsymbol{b})$ $\boldsymbol{a}\boldsymbol{b}^T$ $\boldsymbol{b}\boldsymbol{a}^T$
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}}\mathrm{tr}(\boldsymbol{A}\boldsymbol{X})$ $\boldsymbol{A}^T$ $\boldsymbol{A}$
$\displaystyle\frac{\partial}{\partial \boldsymbol{X}}\log|\boldsymbol{X}|$ $(\boldsymbol{X}^{-1})^T = \boldsymbol{X}^{-T}$ $\boldsymbol{X}^{-1}$

他の文献と照合する際は、まず勾配ベクトルが行ベクトルか列ベクトルかを確認し、表記の違いを把握してから公式を適用すること。

応用公式

本公式集の応用として、各分野への適用例をまとめている。詳細な証明は証明集をご覧ください。

機械学習・情報科学

機械学習への応用

ニューラルネットワーク、深層学習、強化学習、自然言語処理(準備中)

金融工学への応用

ポートフォリオ最適化、Sharpe比、Bordered Hessian(準備中)

自然科学・工学

統計学への応用

混合モデル、BLUP/REML、クリギング、因子分析、SEM、IRT

工学への応用

制御理論、ロボット工学、有限要素法、材料力学など8分野

天文学への応用

軌道力学、二体問題、摂動論、光行差、赤方偏移

地球物理学への応用

地震波トモグラフィ、走時偏微分、感度カーネル

生物学への応用

Lotka-Volterra、SIRモデル、Wright-Fisher、系統発生

姿勢・回転への応用

SO(3)、四元数、オイラー角、慣性テンソル

分子動力学への応用

Lennard-Jones、調和振動子、Coulomb、結合角

参考文献・関連記事