最尤推定量とワルド検定・スコア検定・尤度比検定

1. パラメータの尤もらしさに関する統計的仮説検定
2. KL-divergenceとFischer情報量の関係
- 2.1 スコア関数とFischer情報量の定義
- 2.2 KL-divergence
3. 参考書籍

1. パラメータの尤もらしさに関する統計的仮説検定

　何らかのパラメトリックな確率モデル $f(x|\theta)$ と $n$ コのデータサンプル（標本） $X^{n} = { X_1, \dots, X_n }$ に対して定義される対数尤度関数 $\ell(\theta | X^{n}) = \log f(X^{n}|\theta)$ を用いて、「あるパラメータ $\theta$ が最尤推定量 $\theta_{MLE}$ と一致しているかどうか」に真偽を与える統計的仮説検定を考えます。すなわち、仮説：

・帰無仮説 $H_0: \theta = \theta_{MLE}$
・対立仮説 $H_1: \theta \neq \theta_{MLE}$

を設けて、帰無仮説 $H_0: \theta = \theta_{MLE}$ を有意水準 $\alpha$ で棄却する条件を、データ（標本）に基づく統計量とその分布から求めます。

　このポストでは、上記の検定方式として、Wald検定・Score検定・尤度比検定の3つを紹介します。これらは、パラメータ空間 $\Theta$ から $\mathbb{R}^{1}$ への写像である対数尤度関数 $\ell(\theta | X^{n})$ を中心に考えると、自然な導出であることがわかります。（下図参照）

f:id:yumaloop:20190206221533p:plain

1.1 ワルド検定（Wald test）

ワルド検定では、現在のパラメータ $\theta$ と最尤推定量 $\theta_{MLE}$ との差を基に検定を行います。

f:id:yumaloop:20190206221834p:plain

最尤推定量 $\theta_{MLE}$ に対するワルド検定（Wald test）

最尤推定量の漸近正規性（Asymptotic normality）：

$\frac{ \hat{\theta}_{MLE} - \theta }{ \sqrt{ \frac{1}{ I_{n}(\theta) } } } \underset{d}{\to} N \left( 0, 1 \right)$

が成り立つとき、仮説：

・帰無仮説 $H_0: \theta = \theta_{MLE}$
・対立仮説 $H_1: \theta \neq \theta_{MLE}$

における帰無仮説 $H_0$ の有意水準 $\alpha$ の棄却域 $R$ は、

$R = \left\{ x \in \mathcal{X} ~\vert~ \left\vert \frac{ \hat{\theta}_{MLE} - \theta }{ \sqrt{ \frac{1}{ I_{n}(\theta) } } } \right\vert > {Z}_{\frac{\alpha}{2}} \right\}$

で与えられる。

1.2 スコア検定（Score test）

スコア検定では、現在のパラメータ $\theta$ の対数尤度関数における傾き（スコア関数）を基に検定を行います。

f:id:yumaloop:20190206221743p:plain

最尤推定量 $\theta_{MLE}$ に対するスコア検定（Score test）

スコア関数 $S_n (\theta, X)$ とフィッシャー情報量 $I_n(\theta)$ の定義

$\begin{eqnarray} S_n \left( \theta, X \right) & := & \frac{d}{d \theta} \log f_n (X | \theta) \\\ I_n \left( \theta \right) & := & \mathbb{E} \left[ { S_n \left( \theta, X \right) }^{2} \right] \end{eqnarray}$

より、スコア関数 $S_n (\theta, X)$ の平均と分散が

$\begin{eqnarray} \mathbb{E} \left[ S_n \left( \theta, X \right) \right] & = & 0 \\\ \mathbb{V} \left[ S_n \left( \theta, X \right) \right] & = & I_n (\theta) \end{eqnarray}$

であることから、中心極限定理（CLT, Central Limit Theorem）を用いて、

$\frac{ S_n \left( \theta, X \right) }{ \sqrt{ I_{n}(\theta) } } \underset{d}{\to} N \left( 0, 1 \right)$

が成り立つ。よって、仮説：

・帰無仮説 $H_0: \theta = \theta_{MLE}$
・対立仮説 $H_1: \theta \neq \theta_{MLE}$

における帰無仮説 $H_0$ の有意水準 $\alpha$ の棄却域 $R$ は、

$R = \left\{ x \in \mathcal{X} ~|~ \left| \frac{ S_n \left( \theta, X \right) }{ \sqrt{ I_{n}(\theta) } } \right| > {Z}_{\frac{\alpha}{2}} \right\}$

で与えられる。

1.3 尤度比検定（Likelihood ratio test）

尤度比検定では、現在のパラメータ $\theta$ の対数尤度と最尤推定量 $\theta_{MLE}$ との対数尤度の差を基に検定を行います。

f:id:yumaloop:20190206221807p:plain

最尤推定量 $\theta_{MLE}$ に対する尤度比検定（Likelihood ratio test）

尤度比検定統計量 $\lambda(X)$ を

$\lambda(X) := \frac{ f_n (X | \theta)}{ f_n (X | \theta_{MLE}) }$

と定義すると、仮説：

・帰無仮説 $H_0: \theta = \theta_{MLE}$
・対立仮説 $H_1: \theta \neq \theta_{MLE}$

において、帰無仮説 $H_0: \theta = \theta_{MLE}$ の下で、

$-2 \log \lambda(X) \underset{d}{\to} {\chi_1}^{2}$

が成り立つことから、帰無仮説 $H_0$ の有意水準 $\alpha$ の棄却域 $R$ は、

$R = \left\{ x \in \mathcal{X} ~|~ -2 \log \lambda(X) \gt {\chi_{1, ~ \alpha}}^{2} \right\}$

で与えられる。

2. KL-divergenceとFischer情報量の関係

2.1 スコア関数とFischer情報量の定義

　スコア関数 $S_{n}\bigl( \theta, X^{n} \bigr)$ を以下のように定義します．

$S_{n}\bigl( \theta, X^{n} \bigr) := \frac{d}{d \theta} \log f(X^{n}|\theta)$

対数関数の微分に注意すると，スコア関数 $S_{n}$ の期待値は0になります．

$\begin{align} \mathbb{E}_{X^{n}} [ S_{n} \left( \theta, X^{n} \right) ] &= \int_{- \infty}^{\infty} \frac{d}{d \theta} f(X^{n}|\theta) dx = \frac{d}{d \theta} 1 = 0 \\ \mathbb{V}_{X^{n}} [ S_{n} \left( \theta, X^{n} \right) ] &= \mathbb{E}_{X^{n}} [ {S_{n} \left( \theta, X^{n} \right)}^{2} ] \end{align}$

さらに，スコア関数の分散は，Fischer情報量 $I_{n}\bigl( \theta \bigr)$ といい，以下のように計算されます．

$\begin{eqnarray} I_{n}\left( \theta \right) & := & \mathbb{E}_{X^{n}~\sim~f(\cdot | \theta)} \left[ {S_{n}\left( \theta, X^{n} \right)}^{2} \right ] \\ & = & \mathbb{E}_{X^{n}~\sim~f(\cdot | \theta)} \left[ { \left( \frac{d}{d \theta} \log f(X^{n}|\theta) \right) }^{2} \right] \\ & = & \int_{- \infty}^{\infty} f(X^{n}|\theta) { \left( \frac{d}{d \theta} \log f(X^{n}|\theta) \right) }^{2} dx \end{eqnarray}$

パラメータ $\theta$ がn次元の場合，スコア関数は $\nabla$ を用いて定義されるn次元ベクトル，Fischer情報量 $I_{n}\bigl( \theta \bigr)$ は $n \times n$ 行列となります．

2.2 KL-divergence

ここで、パラメータ $\theta$ の尤度 $f(X^{n}|\theta)$ と、パラメータ $\theta$ の値を微小量 $+h$ だけ変化させたときの尤度 $f(X^{n}|\theta + h)$ との乖離度として、KL-divergenceを考えます。

$\begin{eqnarray} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) & = & \mathbb{E}_{X^{n}~\sim~f(\cdot | \theta)} \left[ \log \frac{f(X^{n}|\theta)}{f(X^{n}|\theta + h)} \right] \\\ & = & \int_{- \infty}^{\infty} f(X^{n}|\theta) \log \frac{f(X^{n}|\theta)}{f(X^{n}|\theta + h)} dx \end{eqnarray}$

さらに、 $D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr)$ を $h$ の関数とみて、 $h=0$ のまわりでテイラー展開（マクローリン展開）をすると、

$\begin{eqnarray} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) & = & D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + 0) \bigr) \\\ & ~~~~~ + & \frac{1}{1!} \frac{d}{dh} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) {\large \mid}_{h=0} \cdot h^{1} \\\ & ~~~~~ + & \frac{1}{2!} \frac{d^{2}}{dh^{2}} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) {\large \mid}_{h=0} \cdot h^{2} \\\ & ~~~~~ + & O \left( h^{3} \right) \\\ \\\ & = & \mathbb{E}_{X^{n}} \left[ \log \frac{f(X^{n}|\theta)}{f(X^{n}|\theta)} \right] \\\ & ~~~~~ + & \frac{1}{1!} \mathbb{E}_{X^{n}} \left[ \frac{d}{d \theta} \log f(X^{n}|\theta) \right] \cdot h^{1} \\\ & ~~~~~ + & \frac{1}{2!} \mathbb{E}_{X^{n}} \left[ { \left( \frac{d}{d \theta} \log f(X^{n}|\theta) \right) }^{2} \right] \cdot h^{2} \\\ & ~~~~~ + & O \left( h^{3} \right) \\\ \\\ & = & 0 \\\ & ~~~~~ + & \mathbb{E}_{X^{n}} \left[ S_n \left( \theta, X^{n} \right) \right] \cdot h^{1} \\\ & ~~~~~ + & \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} \\\ & ~~~~~ + & O \left( h^{3} \right) \\\ \\\ & = & \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} + O \left( h^{3} \right) \end{eqnarray}$

となります。よって、パラメータ $\theta$ の微小変化に対する KL-divergence：

$D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr)$

の局所二次近似は、

$\begin{align} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) &= \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} + O \left( h^{3} \right) \\\ & \simeq \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} \end{align}$

となります。すなわち、パラメータ $\theta$ のFischer情報量は、パラメータ $\theta$ の微小変化に対する KL-divergenceと密接に関連した量であることがわかります。以上の結果は、次の定理にまとめられます。

$\begin{align} \lim_{h \to 0} \frac{1}{h^{2}} D_{KL} \bigl( f(X^{n}|\theta) \mid\mid f(X^{n}|\theta+h) \bigr) &= \frac{1}{2} I(\theta) \end{align}$

$\theta$ の対数尤度関数 $\ell(\theta | X^{n}) = \log f(X^{n}|\theta)$ に基づいて導かれる検定および統計量をまとめると下図のようになります。

f:id:yumaloop:20190206235442p:plain

　最尤推定は、さまざまな確率モデルに対する最適化（学習）の基本であり、尤度関数（損失関数）の挙動を正確に把握することがとても重要です。Deep learningなど、高次元のパラメータ空間をもつ確率モデルの場合でも、二次の偏導関数（ヘッセ行列）によって、尤度関数の凸性・曲率が全て記述*1され、これはパラメータに対するFischer情報量行列と密に関連します。すなわち、Fischer情報量行列が正則行列でない*2場合、尤度関数はパラメータに対して非凸で複雑な関数となり、最尤推定量を探索することはより難しくなります。

Fischer情報量行列の定義やhessianとの関連については，以下のブログ記事が参考になります．

wiseodd.github.io