最尤推定・MAP推定・ベイズ推定を比較する

1. 推定のモチベーション
2. 最尤推定（ML）
- 2.1 パラメータの対数尤度
- 2.2 パラメータの推定（最尤推定量）
3. 事後確率最大化推定（MAP）
- 3.1 パラメータの事後確率
- 3.2 パラメータの推定（MAP推定量）
4. ベイズ推定（Bayse）
- 4.1 パラメータの平均対数尤度
- 4.2 確率分布の推定（予測分布）
5. 参考図書

1. 推定のモチベーション

　確率変数 $X$ の真の分布 $q(X)$ に対して、

$$ \begin{cases} 確率モデル　：　p(X|w) \\ 事前分布　　：　\varphi(w) \end{cases} $$

を仮定したとき、

$$ データサンプル　　：　X^{n} := \left\{ X_1, \dots ,X_n \right\} $$

を用いて、 $q(X)$ を推定したい。

2. 最尤推定（ML）

2.1 パラメータ $w$ の対数尤度 $\ell(w|\cdot)$

ベイズの定理： $$ \begin{eqnarray} p(w | X^{n}) = \frac{ p(X^{n}|w) \varphi(w) }{ \int_{W} p(X^{n}|w) \varphi(w) dw} \end{eqnarray} $$

において、以下で定義される対数尤度 $\ell(w|\cdot)$ は、手元にあるサンプルデータ $X^{n}$ に対する、確率モデル $p(x|w)$ の尤もらしさを示します。対数尤度 $\ell(w|\cdot)$ の示す値は、サンプルデータ $X^{n}$ がもつ"ばらつき"が加味されておらず、手元にあるデータの値に大きく依存するということに注意してください。

$$ \begin{eqnarray} \ell(w | \cdot) & := & \log p(\cdot | w) \\ \\ \ell(w | X^{n}) & := & \log p(X^{n} | w) \\ & = & \log \prod_{i=1}^{n} p(X_i | w) \end{eqnarray} $$

2.2 パラメータの推定（最尤推定量）

　最尤推定では、対数尤度 $\ell$ が最大となるようなパラメータ $\hat{w}_{ML}$ を選び、これを確率モデル $p(X|w)$ におけるパラメータ $w$ の推定量とします。推定量 $\hat{w}_{ML}$ を最尤推定量と呼びます。

$$ \begin{eqnarray} \hat{w}_{ML} := \underset{w \in W}{\rm argmax} ~ \ell(w|X^{n}) \end{eqnarray} $$

以上から、最尤推定では、確率変数 $X$ の真の分布 $q(x)$ は、サンプルデータ $X^{n}$ から求めた最尤推定量 $\hat{w}_{ML}$ と確率モデル $p(X|w)$ によって次式のように推定されます。

$$ \begin{eqnarray} q(X) \approx p( X | \hat{w}_{ML} ) \end{eqnarray} $$

3. 事後確率最大化推定（MAP）

3.1 パラメータ $w$ の事後確率 $p(w|\cdot)$

ベイズの定理：

$$ \begin{eqnarray} p(w | X^{n}) = \frac{ p(X^{n}|w) \varphi(w) }{ \int_{W} p(X^{n}|w) \varphi(w) dw} \end{eqnarray} $$

において、以下で定義される事後確率 $p(w|\cdot)$ は、手元にあるサンプルデータ $X^{n}$ に対する、確率モデル $p(X|w)$ ・事前分布 $\varphi(w)$ の尤もらしさを示します。事後確率 $p(w|\cdot)$ の示す値は、サンプルデータ $X^{n}$ がもつ"ばらつき"が加味されておらず、その値に大きく依存するということに注意してください。

$$ \begin{eqnarray} p(w | \cdot) & := & \frac{1}{Z} \log p(\cdot | w)\varphi(w) \\ \\ p(w | X^{n}) & := & \frac{1}{Z_n} \log p(X^{n} | w)\varphi(w) \\ & = & \frac{1}{Z_n} \log \prod_{i=1}^{n} p(X_i | w)\varphi(w) \end{eqnarray} $$

ただし、 $Z,~Z_n$ は、それぞれベイズの定理における右辺の分子に対して $w$ で積分した値（正規化定数）を表す。

3.2 パラメータの推定（MAP推定量）

　MAP推定では、事後確率が最大となるようなパラメータ $\hat{w}_{MAP}$ を選び、これを確率モデル $p(X|w)$ におけるパラメータ $w$ の推定量とします。推定量 $\hat{w}_{MAP}$ をMAP推定量と呼びます。

$$ \begin{eqnarray} \hat{w}_{MAP} := \underset{w \in W}{\rm argmax} ~ p(w|X^{n}) \end{eqnarray} $$

　以上から、MAP推定では、確率変数 $X$ の真の分布 $q(x)$ は、サンプルデータ $X^{n}$ から求めたMAP推定量 $\hat{w}_{ML}$ と確率モデル $p(X|w)$ によって次式のように推定されます。
$$ \begin{eqnarray} q(X) \approx p( X | \hat{w}_{MAP} ) \end{eqnarray} $$

4. ベイズ推定（Bayse）

4.1 パラメータ $w$ の平均対数尤度 $K$

ベイズの定理： $$ \begin{eqnarray} p(w | X^{n}) = \frac{ p(X^{n}|w) \varphi(w) }{ \int_{W} p(X^{n}|w) \varphi(w) dw} \end{eqnarray} $$

において、以下で定義される平均対数尤度 $K$ は、 $X$ に対して期待値をとった（ $X$ のばらつきによる偶然誤差を排除した）上での、確率モデル $p(X|w)$ の尤もらしさを示します。

$$ \begin{eqnarray} K(w) & := & \mathbb{E}_{X} \left[ \log p(X | w) \right] \tag{期待対数尤度} \\ \\ K_n(w) & := & \frac{1}{n} \sum_{i=1}^{n} \log p(X_i | w) \tag{経験対数尤度} \end{eqnarray} $$

パラメータの推定量を求めるため、平均対数尤度を符号反転したものを、損失関数 $L$ として定義します。

$$ \begin{eqnarray} L(w) & := & - K(w) = \mathbb{E}_{X} \left[ - \log p(X | w) \right] \tag{期待損失関数} \\ \\ L_n(w) & := & - K_{n}(w) = \frac{1}{n} \sum_{i=1}^{n} \left\{ - \log p(X_i | w) \tag{経験損失関数} \right\} \end{eqnarray} $$

4.2 確率分布 $q(x)$ の推定（予測分布）

　ベイズ推定では、損失関数が最小となるようなパラメータ $\hat{w}_{0}$ を選び、これを確率モデル $p(X|w)$ と事前分布 $\varphi(w)$ によって求められる事後分布 $p(w|X^{n})$ の平均値の推定量とみなします。ここで、最尤推定やMAP推定では、「確率モデル $p(X|w)$ に対して与えるパラメータ $w$ はある1つの値に決まる」と仮定していますが、ベイズ推定では「パラメータ $w$ は事前分布 $\varphi(w)$ によって確率的に変動する値（=確率変数）である」と仮定していることに注意します。推定量 $\hat{w}_{0}$ をベイズ推定量 *1と呼びます。

$$ \begin{eqnarray} \hat{w}_{0} := \underset{w \in W}{\rm argmax} ~ L_{n}(w) \end{eqnarray} $$

　推定量 $\hat{ w }_{0}$ は「事後分布において $w$ がとり得ると期待される（尤もらしい）値」と考えられます。しかし、ベイズ推定において、確率変数 $X$ の真の分布 $q(x)$ を、 $p( X | \hat{w}_{MAP} )$ によって推定することはしません。その代わり、推定量 $\hat{ w }_{0}$ を平均にもつ事後分布 $p(w|X^{n})$ から求められる予測分布 $p^{*}(X)$ を用いて真の分布 $q(x)$ を推定します。