閃 き

閃き- blog

きらびやかに、美しく、痛烈に.

最尤推定量とワルド検定・スコア検定・尤度比検定

1. パラメータの尤もらしさに関する統計的仮説検定

 何らかのパラメトリックな確率モデル  f(x|\theta) nコのデータサンプル(標本)  X^{n} = { X_1, \dots, X_n } に対して定義される対数尤度関数  \ell(\theta | X^{n}) = \log f(X^{n}|\theta) を用いて、「あるパラメータ  \theta最尤推定 \theta_{MLE} と一致しているかどうか」に真偽を与える統計的仮説検定を考えます。すなわち、仮説:

帰無仮説  H_0: \theta = \theta_{MLE}
・対立仮説  H_1: \theta \neq \theta_{MLE}


を設けて、帰無仮説  H_0: \theta = \theta_{MLE}有意水準  \alpha で棄却する条件を、データ(標本)に基づく統計量とその分布から求めます。

 このポストでは、上記の検定方式として、Wald検定Score検定尤度比検定の3つを紹介します。これらは、パラメータ空間  \Theta から  \mathbb{R}^{1} への写像である対数尤度関数  \ell(\theta | X^{n}) を中心に考えると、自然な導出であることがわかります。(下図参照)

f:id:yumaloop:20190206221533p:plain


1.1 ワルド検定(Wald test)

ワルド検定では、現在のパラメータ  \theta最尤推定 \theta_{MLE} とのを基に検定を行います。

f:id:yumaloop:20190206221834p:plain

最尤推定 \theta_{MLE} に対するワルド検定(Wald test)

最尤推定量の漸近正規性(Asymptotic normality):



  \frac{ \hat{\theta}_{MLE} - \theta }{ \sqrt{ \frac{1}{ I_{n}(\theta) } } } \underset{d}{\to} N \left( 0, 1 \right)


が成り立つとき、仮説:

帰無仮説  H_0: \theta = \theta_{MLE}
・対立仮説  H_1: \theta \neq \theta_{MLE}


における帰無仮説  H_0有意水準  \alpha の棄却域  R は、



  R = \left\{ x \in \mathcal{X} ~\vert~ \left\vert \frac{ \hat{\theta}_{MLE} - \theta }{ \sqrt{ \frac{1}{ I_{n}(\theta) } } } \right\vert > {Z}_{\frac{\alpha}{2}} \right\}


で与えられる。


1.2 スコア検定(Score test)

スコア検定では、現在のパラメータ  \theta の対数尤度関数における傾き(スコア関数)を基に検定を行います。

f:id:yumaloop:20190206221743p:plain

最尤推定 \theta_{MLE} に対するスコア検定(Score test)

スコア関数  S_n (\theta, X) とフィッシャー情報量  I_n(\theta) の定義



\begin{eqnarray}
  S_n \left( \theta, X \right) & := & \frac{d}{d \theta} \log f_n (X | \theta) \\\
  I_n \left( \theta \right) & := & \mathbb{E} \left[ { S_n \left( \theta, X \right) }^{2} \right]
\end{eqnarray}


より、スコア関数  S_n (\theta, X) の平均と分散が



\begin{eqnarray}
  \mathbb{E} \left[ S_n \left( \theta, X \right) \right] & = & 0 \\\
  \mathbb{V} \left[ S_n \left( \theta, X \right) \right] & = & I_n (\theta)
\end{eqnarray}


であることから、中心極限定理(CLT, Central Limit Theorem)を用いて、



  \frac{ S_n \left( \theta, X \right) }{ \sqrt{ I_{n}(\theta) } } \underset{d}{\to} N \left( 0, 1 \right)


が成り立つ。よって、仮説:

帰無仮説  H_0: \theta = \theta_{MLE}
・対立仮説  H_1: \theta \neq \theta_{MLE}


における帰無仮説  H_0有意水準  \alpha の棄却域  R は、



  R = \left\{ x \in \mathcal{X} ~|~ \left| \frac{ S_n \left( \theta, X \right) }{ \sqrt{ I_{n}(\theta) } } \right| > {Z}_{\frac{\alpha}{2}} \right\}


で与えられる。


1.3 尤度比検定(Likelihood ratio test)

尤度比検定では、現在のパラメータ  \theta の対数尤度と最尤推定 \theta_{MLE} との対数尤度のを基に検定を行います。

f:id:yumaloop:20190206221807p:plain

最尤推定 \theta_{MLE} に対する尤度比検定(Likelihood ratio test)

尤度比検定統計量  \lambda(X)



  \lambda(X) := \frac{ f_n (X | \theta)}{ f_n (X | \theta_{MLE}) }


と定義すると、仮説:

帰無仮説  H_0: \theta = \theta_{MLE}
・対立仮説  H_1: \theta \neq \theta_{MLE}


において、帰無仮説  H_0: \theta = \theta_{MLE} の下で、



  -2 \log \lambda(X) \underset{d}{\to} {\chi_1}^{2}


が成り立つことから、帰無仮説  H_0有意水準  \alpha の棄却域  R は、



  R = \left\{ x \in \mathcal{X} ~|~ -2 \log \lambda(X) \gt {\chi_{1, ~ \alpha}}^{2} \right\}


で与えられる。



2. KL-divergenceとFischer情報量の関係

2.1 スコア関数とFischer情報量の定義

 スコア関数  S_{n}\bigl( \theta, X^{n} \bigr) を以下のように定義します.



  S_{n}\bigl( \theta, X^{n} \bigr)  :=  \frac{d}{d \theta} \log f(X^{n}|\theta)


対数関数の微分に注意すると,スコア関数  S_{n} の期待値は0になります.



\begin{align}
  \mathbb{E}_{X^{n}} [ S_{n} \left( \theta, X^{n} \right) ] &= \int_{- \infty}^{\infty} \frac{d}{d \theta} f(X^{n}|\theta) dx = \frac{d}{d \theta} 1 = 0 \\
  \mathbb{V}_{X^{n}} [ S_{n} \left( \theta, X^{n} \right) ] &= \mathbb{E}_{X^{n}} [ {S_{n} \left( \theta, X^{n} \right)}^{2} ]
\end{align}


さらに,スコア関数の分散は,Fischer情報量  I_{n}\bigl( \theta \bigr) といい,以下のように計算されます.



\begin{eqnarray}
I_{n}\left( \theta \right) 
& := & \mathbb{E}_{X^{n}~\sim~f(\cdot | \theta)} \left[ {S_{n}\left( \theta, X^{n} \right)}^{2} \right ] \\
& = & \mathbb{E}_{X^{n}~\sim~f(\cdot | \theta)} \left[ { \left( \frac{d}{d \theta} \log f(X^{n}|\theta) \right) }^{2} \right] \\
& = & \int_{- \infty}^{\infty} f(X^{n}|\theta) { \left( \frac{d}{d \theta} \log f(X^{n}|\theta) \right) }^{2} dx 
\end{eqnarray}


パラメータ  \theta がn次元の場合,スコア関数は  \nabla を用いて定義されるn次元ベクトル,Fischer情報量  I_{n}\bigl( \theta \bigr) n \times n 行列となります.


2.2 KL-divergence

ここで、パラメータ  \theta の尤度  f(X^{n}|\theta) と、パラメータ  \theta の値を微小量  +h だけ変化させたときの尤度  f(X^{n}|\theta + h) との乖離度として、KL-divergenceを考えます。



\begin{eqnarray}
  D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) & = & \mathbb{E}_{X^{n}~\sim~f(\cdot | \theta)} \left[ \log \frac{f(X^{n}|\theta)}{f(X^{n}|\theta + h)} \right] \\\
  & = & \int_{- \infty}^{\infty} f(X^{n}|\theta) \log \frac{f(X^{n}|\theta)}{f(X^{n}|\theta + h)} dx
\end{eqnarray}


さらに、  D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) h の関数とみて、 h=0 のまわりでテイラー展開マクローリン展開)をすると、


\begin{eqnarray}
  D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) 
  & = & D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + 0) \bigr) \\\
  & ~~~~~ + & \frac{1}{1!} \frac{d}{dh} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) {\large \mid}_{h=0} \cdot h^{1} \\\ 
  & ~~~~~ + & \frac{1}{2!} \frac{d^{2}}{dh^{2}} D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) {\large \mid}_{h=0} \cdot h^{2} \\\ 
  & ~~~~~ + & O \left( h^{3} \right) \\\ \\\
  & = & \mathbb{E}_{X^{n}} \left[ \log \frac{f(X^{n}|\theta)}{f(X^{n}|\theta)} \right] \\\
  & ~~~~~ + & \frac{1}{1!} \mathbb{E}_{X^{n}} \left[ \frac{d}{d \theta} \log f(X^{n}|\theta) \right] \cdot h^{1} \\\
  & ~~~~~ + & \frac{1}{2!} \mathbb{E}_{X^{n}} \left[ { \left( \frac{d}{d \theta} \log f(X^{n}|\theta) \right) }^{2} \right] \cdot h^{2} \\\
  & ~~~~~ + & O \left( h^{3} \right) \\\ \\\
  & = & 0 \\\
  & ~~~~~ + & \mathbb{E}_{X^{n}} \left[ S_n \left( \theta, X^{n} \right) \right] \cdot h^{1} \\\
  & ~~~~~ + & \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} \\\
  & ~~~~~ + & O \left( h^{3} \right) \\\ \\\
  & = & \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} + O \left( h^{3} \right)
\end{eqnarray}


となります。よって、パラメータ  \theta の微小変化に対する KL-divergence:


D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr)

の局所二次近似は、


\begin{align}
  D_{KL} \bigl( f( X^{n} | \theta) ~||~ f( X^{n} | \theta + h) \bigr) 
  &= \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2} + O \left( h^{3} \right) \\\
  & \simeq \frac{1}{2} I_n \bigl( \theta \bigr) \cdot h^{2}
\end{align}


となります。すなわち、パラメータ  \theta のFischer情報量は、パラメータ  \theta の微小変化に対する KL-divergenceと密接に関連した量であることがわかります。以上の結果は、次の定理にまとめられます。


\begin{align}
\lim_{h \to 0} \frac{1}{h^{2}} D_{KL} \bigl( f(X^{n}|\theta) \mid\mid f(X^{n}|\theta+h) \bigr) 
&= \frac{1}{2} I(\theta) 
\end{align}



 \theta の対数尤度関数  \ell(\theta | X^{n}) = \log f(X^{n}|\theta) に基づいて導かれる検定および統計量をまとめると下図のようになります。

f:id:yumaloop:20190206235442p:plain

 最尤推定は、さまざまな確率モデルに対する最適化(学習)の基本であり、尤度関数(損失関数)の挙動を正確に把握することがとても重要です。Deep learningなど、高次元のパラメータ空間をもつ確率モデルの場合でも、二次の偏導関数(ヘッセ行列)によって、尤度関数の凸性・曲率が全て記述*1され、これはパラメータに対するFischer情報量行列と密に関連します。すなわち、Fischer情報量行列が正則行列でない*2場合、尤度関数はパラメータに対して非凸で複雑な関数となり、最尤推定量を探索することはより難しくなります。


Fischer情報量行列の定義やhessianとの関連については,以下のブログ記事が参考になります.

wiseodd.github.io

3. 参考書籍

新装改訂版 現代数理統計学

新装改訂版 現代数理統計学

Statistics

Statistics

*1:線形空間では基底ベクトルに対する微分さえわかれば、あらゆる方向に対する勾配がその線形結合として表現可能です。

*2:すべての固有値が正である行列のことを、正則行列といいます。これに対し,正則行列ではない行列を特異行列ということがあります。