ぺ ん ぎ ん の 閃 き

閃き- blog

きらびやかに、美しく、痛烈に.

多変量ガウス分布についてのベイズ推定(周辺分布, 条件付き分布)

http://www.labtimes.org/labtimes/method/methods/img/2011_04b.jpg


1. ガウス分布の定義式


ガウス分布(1次元 or 基底が1コ)

\begin{align}
N(x~|~\mu,~\sigma^2)={\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}} {\exp\{-\frac{1}{2 {{\sigma}^2}} (x-\mu)^2\}}}
\end{align}


◯多変量ガウス分布(D次元 or 基底がDコ)

\begin{align}
N({\bf x}~|~{\bf \mu},~{\bf \Sigma})={\frac{1}{(2\pi)^{\frac{D}{2}} {|{\bf \Sigma}|}^{\frac{1}{2}}} {\exp\{-{\frac{1}{2}} {({\bf x}-{\bf \mu})^{\mathrm{T}}} {{\bf \Sigma}^{-1}}{({\bf x}-{\bf \mu})}\}}}
\end{align}


 \bf \mu : D次元の平均ベクトル
 \bf \Sigma : D×Dの共分散行列
 \bf |\Sigma| \bf \Sigma行列式

2.ガウス分布の共役性とベイズ推定


◯多変量ガウス分布の周辺分布と条件付き分布

(2a.)  {\bf x}の周辺分布   :  p({\bf x})~~~~~=~N({\bf x}~|~{\bf \mu},~~{\bf \Lambda}^{-1})
(2b.)  {\bf y}の条件つき分布 :  p({\bf y}~|~{\bf x})=~N({\bf y}~|~{\bf Ax+b},~~{\bf L}^{-1})
(2c.)  {\bf y}の周辺分布   :  p({\bf y})~~~~~=~N({\bf y}~|~{\bf Ax+b},~~{\bf L}^{-1}+{\bf A{\Lambda}^{-1}A^{\mathrm{T}}})
(2d.)  {\bf x}の条件付き分布 :  p({\bf x}~|~{\bf y})=~N({\bf x}~|~{\bf \Sigma\{{A}^{-1}L(y-b)+\Lambda\mu\}},~~{\bf \Sigma})

    ※ p({\bf x}~|~{\bf y})の共分散行列  \Sigmaについて、 \bf \Sigma~=~(\Lambda+A^{T}LA)^{-1}である。


ここで、ベイズの定理によって(2a.)~(2d.)をまとめると、

   {\lceil}~~p({\bf x}~|~{\bf y})=\frac{\large p({\bf y}~|~{\bf x})~p({\bf x})}{\large p({\bf y})}~~{\rfloor}~~~~{\longleftrightarrow}~~~~~{\lceil}~~(2d.)=\frac{\large (2b.)(2a.)}{\large (2c.)}~~{\rfloor}

より以下の式を得られる。

   N({\bf x}~|~{\bf \Sigma\{{A}^{-1}L(y-b)+\Lambda\mu\}},~~{\bf \Sigma})~~=~~\frac{\Large N({\bf y}~|~{\bf Ax+b},~~{\bf L}^{-1})~N({\bf x}~|~{\bf \mu},~~{\bf \Lambda}^{-1})}{\Large N({\bf y}~|~{\bf Ax+b},~~{\bf L}^{-1}+{\bf A{\Lambda}^{-1}A^{\mathrm{T}}})}




3. 線形基底関数モデル

3.1 モデルの一般式

線形基底関数モデル」の一般形は以下の式で表現できる。

 y({\bf x},~{\bf w})線形基底関数と呼び、これは入力変数 {\bf x}、基底関数 \phi{(\bf x)}、重みパラメータ {\bf w}によって表現される。

   y({\bf x},~{\bf w})~=~{\bf w}^{\mathrm{T}}\phi({\bf x})~=~\sum_{j=0}^{M-1} {w_j}{\phi_j({\bf x})}~=(w_0,~w_1,~{\cdots},w_{M-1})~\left(\begin{array}{ccc}\phi_0({x_0}) \\\phi_1({x_1})\\\vdots\\\phi_{M-1}({x_{M-1}})\end{array}\right)

   {\bf x},~~\phi{(\bf x)},~~{\bf w}はベクトルであり、各要素を以下のように表す。


   入力変数{\bf x} = \left(
   \begin{array}{ccc}
      x_0 \\
      x_1\\
      \vdots\\
      x_{D-1}
    \end{array}
  \right)
,~~~基底関数{\phi}({\bf x}) = \left(
   \begin{array}{ccc}
      \phi_0({x}) \\
      \phi_1({x})\\
      \vdots\\
      \phi_{M-1}({x})
    \end{array}
  \right)
,~~~パラメータ{\bf w} = \left(
   \begin{array}{ccc}
      {w_0} \\
      {w_1}\\
      \vdots\\
      {w_{M-1}}
    \end{array}
  \right)


3.2 基底関数  \phi_j(x)線形基底関数 y({\bf x},~{\bf w})

(1)線形基底

  基底関数: \phi_j({\bf x})~=~x_j~~~{\scriptsize (j~=~0,~1,~...,~M-1)}


  よって、線形基底を用いた線形基底関数 y({\bf x},~{\bf w})について、

   {\lceil}~y({\bf x},~{\bf w})~=~{\bf w}^{\mathrm{T}}\phi({\bf x})~=~\sum_{j=0}^{M-1} {w_j}{\phi_j({\bf x})}~{\rfloor} に、 \phi_j({\bf x})を代入すると次式を得る。

   y({\bf x},~{\bf w})~=~\sum_{j=0}^{M-1} {w_j}{x_j}~=(w_0,~w_1,~{\cdots},w_{M-1})~\left(\begin{array}{ccc}{x_0}\\{x_1}\\\vdots\\{x_{M-1}}\end{array}\right)


(2)多項式基底

  基底関数: \phi_j(x)~=~{x}^{j}~~~{\scriptsize (j~=~0,~1,~...,~M-1)}


  よって、多項式基底を用いた線形基底関数 y({\bf x},~{\bf w})について、

   {\lceil}~y({\bf x},~{\bf w})~=~{\bf w}^{\mathrm{T}}\phi({\bf x})~=~\sum_{j=0}^{M-1} {w_j}{\phi_j({\bf x})}~{\rfloor} に、 \phi_j({\bf x})を代入すると次式を得る。

   y({\bf x},~{\bf w})~=~\sum_{j=0}^{M-1} {w_j}{x^j}~=(w_0,~w_1,~{\cdots},w_{M-1})~\left(\begin{array}{ccc}{1}\\{x^1}\\\vdots\\{x^{M-1}}\end{array}\right)


(3)ガウス基底(ガウス関数

  基底関数: \phi_j(x)~=~\exp{\large \{-\frac{{({x_j}-\mu_j)}^2}{2{s_j}^2}\}}~~~{\scriptsize (j~=~0,~1,~...,~M-1)}


  よって、ガウス基底を用いた線形基底関数 y({\bf x},~{\bf w})について、

   {\lceil}~y({\bf x},~{\bf w})~=~{\bf w}^{\mathrm{T}}\phi({\bf x})~=~\sum_{j=0}^{M-1} {w_j}{\phi_j({\bf x})}~{\rfloor} に、 \phi_j({\bf x})を代入すると次式を得る。

   y({\bf x},~{\bf w})~=~\sum_{j=0}^{M-1} {w_j}{\exp{\{-\frac{{({x_j}-\mu_j)}^2}{2{s}^2}\}}}~=~(w_0,~w_1,~{\cdots},w_{M-1})~\left(\begin{array}{ccc}{\exp{\{-\frac{{({x_0}-\mu_0)}^2}{2{s_0}^2}\}}}\\{\exp{\{-\frac{{({x_1}-\mu_1)}^2}{2{s_1}^2}\}}}\\\vdots\\{\exp{\{-\frac{{({x_{M-1}}-\mu_{M-1})}^2}{2{s_{M-1}}^2}\}}}\end{array}\right)


(4)ロジスティック基底(シグモイド関数

  基底関数: \phi_j(x)~=~\sigma(\large \frac{{x_j}-\mu_j}{s_j})~=~{\large \frac{1}{1~+~\exp(-\frac{{x_j}-\mu_j}{s_j})}}~~~{\scriptsize (j~=~0,~1,~...,~M-1)}


  よって、ロジスティック基底を用いた線形基底関数 y({\bf x},~{\bf w})について、

   {\lceil}~y({\bf x},~{\bf w})~=~{\bf w}^{\mathrm{T}}\phi({\bf x})~=~\sum_{j=0}^{M-1} {w_j}{\phi_j({\bf x})}~{\rfloor} に、 \phi_j({\bf x})を代入すると次式を得る。

  
   y({\bf x},~{\bf w})~=~\sum_{j=0}^{M-1} {w_j}{\sigma({\large \frac{{x_j}-\mu_j}{s_j}})}~=~(w_0,~w_1,~{\cdots},w_{M-1})~\left(\begin{array}{ccc}{\sigma(\large \frac{{x_0}-\mu_0}{s_0})}\\{\sigma(\large \frac{{x_1}-\mu_1}{s_1})}\\\vdots\\{\sigma(\large \frac{{x_{M-1}}-\mu_{M-1}}{s_{M-1}})}\end{array}\right)

    ※ シグモイド関数 \sigma(a)の一般形: \sigma(a)~=~{\large \frac{1}{1+\exp(-a)}}


(5)フーリエ基底

  基底関数: \phi_j(x)~=~\exp(i{\omega}jx)~=~\exp({\frac{2{\pi}i}{T}}jx)~~~{\scriptsize (j~=~0,~1,~...,~M-1)}



(6)ウェーブレット基底

  基底関数: \phi_j(x)~=~{{\psi_k}^{j}(x)}~=~\psi({\large \frac{x}{2^{j}}}-k)~~~{\scriptsize (j~=~0,~1,~...,~M-1)}


4. ガウスノイズを仮定した回帰問題

4.1 前提

◯回帰問題の目的
「与えられた D次元の入力変数  \bf x_jから,  1次元の目標変数  t_jの値を予測する」

 ~~~「入力データ」:({\bf x_1},~{\bf x_2},~{\cdots},~{\bf x_N})~~~{\longleftrightarrow}~~~「目標データ」:({t_1},~{t_2},~{\cdots},~{t_N})


◯問題設定
入力変数 {\bf x_j}~{\small( j=0...M)}に対応する目標変数  t_n~{\small(n=0...N)}は、線形回帰モデル  y({\bf x},~{\bf w})によって求める。

ここで、ベイズの定理によって、 t, w, xの関係を整理する。

 ~~~「入力データ」:{\bf x}~~~{\longleftrightarrow}~~~「目標データ」:t

 {\lceil}~~p({\bf w}~|~{t})=\frac{\large p({t}~|~{\bf w})~p({\bf w})}{\large p({\bf t})}~~{\rfloor}

4.2 頻度主義的な回帰

回帰モデルには、線形基底関数 y({\bf x},~{\bf w})を用いる。

   y({\bf x},~{\bf w})=\sum_{j=0}^{M-1}  {w_j}\phi_j(\bf x)~=~{{\bf w}^{\mathrm{T}}}\phi({\bf x})

   t=y({\bf x},~{\bf w})+\epsilon

ここで、 \epsilonの確率分布が(平均 0, 精度 \beta^{-1})のガウス分布に従うと仮定する。(加法性ガウスノイズ)
すると、

   p(t~|~{\bf x},~{\bf w},~{\beta})~=~N(t~|~y({\bf x},~{\bf w}),~~{\beta^{-1}})~=~N(t~|~{{\bf w}^{\mathrm{T}}}\phi({\bf x}),~~{\beta^{-1}})





4.3 ベイズジアン風の回帰

 {\lceil}~~p({\bf w}~|~{t})=\frac{\large p({t}~|~{\bf w})~p({\bf w})}{\large p({\bf t})}~~{\rfloor}~~~~{\longleftrightarrow}~~~~~{\lceil}~~({\bf w}の事後分布)=\frac{\large (tの尤度)(wの事前分布)}{\large (tの予測分布)}~~~~~~~~{\rfloor}

(3a.)  {\bf w}の事前確率  :  p({\bf w}~|~{\alpha})~~~~~~~~~~~~~~~~=~N({\bf w}~|~{\bf 0},~~{{\alpha}^{-1}}{\bf I})
(3b.)  {t}の尤度    :  p({\bf t}~|~{\bf w},~~{\bf x},~~{\beta})~~~~~=~N({t}~|~{y({\bf x},~{\bf w})},~~{\beta}^{-1})
(3c.)  {t}の予測分布  :  p({t}~|~{x},~~{\bf t},~~\alpha,~~\beta)~~=~N({t}~|~{\bf m_N}^{\mathrm{T}}\phi({\bf x}),~~{{\beta}^{-1}+{{\phi}(\bf x)}^{\mathrm{T}}}{\bf S_N}{\phi}({\bf x}))
(3d.)  {\bf w}の事後確率  :  p({\bf w}~|~{\bf t},~~\alpha,~~\beta)~~~~~~=~N({\bf w}~|~{\beta}~{\bf S_N{\Phi}^{\mathrm{T}}t},~~{\bf S_N})