最尤推定・MAP推定・ベイズ推定を比較する
1. 推定のモチベーション
確率変数 の真の分布 に対して、
$$ \begin{cases} 確率モデル : p(X|w) \\ 事前分布 : \varphi(w) \end{cases} $$
を仮定したとき、
$$ データサンプル : X^{n} := \left\{ X_1, \dots ,X_n \right\} $$
を用いて、 を推定したい。
2. 最尤推定(ML)
2.1 パラメータ の対数尤度
ベイズの定理: $$ \begin{eqnarray} p(w | X^{n}) = \frac{ p(X^{n}|w) \varphi(w) }{ \int_{W} p(X^{n}|w) \varphi(w) dw} \end{eqnarray} $$
において、以下で定義される対数尤度 は、手元にあるサンプルデータ に対する 、確率モデル の尤もらしさを示します。対数尤度 の示す値は、サンプルデータ がもつ"ばらつき"が加味されておらず、手元にあるデータの値に大きく依存するということに注意してください。
$$ \begin{eqnarray} \ell(w | \cdot) & := & \log p(\cdot | w) \\ \\ \ell(w | X^{n}) & := & \log p(X^{n} | w) \\ & = & \log \prod_{i=1}^{n} p(X_i | w) \end{eqnarray} $$
2.2 パラメータの推定(最尤推定量)
最尤推定では、対数尤度 が最大となるようなパラメータ を選び、これを確率モデル におけるパラメータ の推定量とします。推定量 を最尤推定量と呼びます。
$$ \begin{eqnarray} \hat{w}_{ML} := \underset{w \in W}{\rm argmax} ~ \ell(w|X^{n}) \end{eqnarray} $$
以上から、最尤推定では、確率変数 の真の分布 は、サンプルデータ から求めた最尤推定量 と確率モデル によって次式のように推定されます。
$$ \begin{eqnarray} q(X) \approx p( X | \hat{w}_{ML} ) \end{eqnarray} $$
3. 事後確率最大化推定(MAP)
3.1 パラメータ の事後確率
ベイズの定理:
$$ \begin{eqnarray} p(w | X^{n}) = \frac{ p(X^{n}|w) \varphi(w) }{ \int_{W} p(X^{n}|w) \varphi(w) dw} \end{eqnarray} $$
において、以下で定義される事後確率 は、手元にあるサンプルデータ に対する 、確率モデル ・事前分布 の尤もらしさを示します。事後確率 の示す値は、サンプルデータ がもつ"ばらつき"が加味されておらず、その値に大きく依存するということに注意してください。
$$ \begin{eqnarray} p(w | \cdot) & := & \frac{1}{Z} \log p(\cdot | w)\varphi(w) \\ \\ p(w | X^{n}) & := & \frac{1}{Z_n} \log p(X^{n} | w)\varphi(w) \\ & = & \frac{1}{Z_n} \log \prod_{i=1}^{n} p(X_i | w)\varphi(w) \end{eqnarray} $$
3.2 パラメータの推定(MAP推定量)
MAP推定では、事後確率が最大となるようなパラメータ を選び、これを確率モデル におけるパラメータ の推定量とします。推定量 をMAP推定量と呼びます。
$$ \begin{eqnarray} \hat{w}_{MAP} := \underset{w \in W}{\rm argmax} ~ p(w|X^{n}) \end{eqnarray} $$
以上から、MAP推定では、確率変数 の真の分布 は、サンプルデータ から求めたMAP推定量 と確率モデル によって次式のように推定されます。
$$
\begin{eqnarray}
q(X) \approx p( X | \hat{w}_{MAP} )
\end{eqnarray}
$$
4. ベイズ推定(Bayse)
4.1 パラメータ の平均対数尤度
ベイズの定理: $$ \begin{eqnarray} p(w | X^{n}) = \frac{ p(X^{n}|w) \varphi(w) }{ \int_{W} p(X^{n}|w) \varphi(w) dw} \end{eqnarray} $$
において、以下で定義される平均対数尤度 は、 に対して期待値をとった( のばらつきによる偶然誤差を排除した)上での、確率モデル の尤もらしさを示します。
$$ \begin{eqnarray} K(w) & := & \mathbb{E}_{X} \left[ \log p(X | w) \right] \tag{期待対数尤度} \\ \\ K_n(w) & := & \frac{1}{n} \sum_{i=1}^{n} \log p(X_i | w) \tag{経験対数尤度} \end{eqnarray} $$
パラメータの推定量を求めるため、平均対数尤度を符号反転したものを、損失関数 として定義します。
$$ \begin{eqnarray} L(w) & := & - K(w) = \mathbb{E}_{X} \left[ - \log p(X | w) \right] \tag{期待損失関数} \\ \\ L_n(w) & := & - K_{n}(w) = \frac{1}{n} \sum_{i=1}^{n} \left\{ - \log p(X_i | w) \tag{経験損失関数} \right\} \end{eqnarray} $$
4.2 確率分布 の推定(予測分布)
ベイズ推定では、損失関数が最小となるようなパラメータ を選び、これを確率モデル と事前分布 によって求められる事後分布 の平均値の推定量とみなします。ここで、最尤推定やMAP推定では、「確率モデル に対して与えるパラメータ はある1つの値に決まる」と仮定していますが、ベイズ推定では「パラメータ は事前分布 によって確率的に変動する値(=確率変数)である」と仮定していることに注意します。推定量 をベイズ推定量*1と呼びます。
$$ \begin{eqnarray} \hat{w}_{0} := \underset{w \in W}{\rm argmax} ~ L_{n}(w) \end{eqnarray} $$
推定量 は「事後分布において がとり得ると期待される(尤もらしい)値」と考えられます。しかし、ベイズ推定において、確率変数 の真の分布 を、 によって推定することはしません。その代わり、推定量 を平均にもつ事後分布 から求められる予測分布 を用いて真の分布 を推定します。
$$ \begin{eqnarray} q(X) \approx p^{*}(X) & := & \int_{W} p(X|w)p(w|X^{n}) dw \end{eqnarray} $$
上図は、確率モデル・事前分布・事後分布がすべて正規分布に従う場合の各分布を表す。Prior(事前分布)の「ばらつき」に対して、Likelihood(尤度, 最尤推定で用いる)と Posterior(事後分布, MAP推定で用いる)は、より小さい「ばらつき」をもつ。
5. 参考図書
StanとRでベイズ統計モデリング (Wonderful R)
- 作者: 松浦健太郎,石田基広
- 出版社/メーカー: 共立出版
- 発売日: 2016/10/25
- メディア: 単行本
- この商品を含むブログ (10件) を見る
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03/01
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (8件) を見る
*1:他の言い方もあるようです。