AICの導出：平均対数尤度の摂動を近似する

1. 確率モデルとKL情報量
2. パラメトリックモデルを考える
3. バイアスの不偏推定量を求める
4.AICの導出

このポストでは，赤池情報量規準(AIC, Akaike Information Criterion)について，特にその導出過程に留意しつつ解説します．AICは，線形モデル(+ガウスノイズ)のパラメータ選択問題を（必要条件の拘束が大きいものの）発展的に解いた偉大な研究成果であり，また，様々な学習問題において本質的な"汎化"問題を考える上でも非常に示唆的です．AICの導出過程を細かく記述した文献については，論文/書籍があるもののweb上には少ない印象を受けました．そこで，なるべく式展開を詳細しつつ，AICの有名な定義式（下式）が求められるまでの過程を記しておきたいと思います．

$$ \begin{equation} A I C = -2 \sum_{i=1}^{n} ~ \log f(x_i | \hat{\theta}_{MLE}( \boldsymbol{x}^n ) ) + 2 p \end{equation} $$

サンプルサイズは $n$ とする．
パラメータ $\theta$ の次元は $p$ とする． $\theta \in \Theta \in \mathbb{R}^p$
確率変数 $X_i$ ，そのサンプル $x_i$ の次元は $d$ とする． $X \in \mathbb{R}^d$
確率変数 $Y_i$ ，そのサンプル $y_i$ の次元は $1$ とする． $Y \in \mathbb{R}^1$

情報量規準 (シリーズ・予測と発見の科学)

作者: 小西貞則,北川源四郎
出版社/メーカー: 朝倉書店
発売日: 2004/09/01
メディア: 単行本
クリック: 14回
この商品を含むブログ (7件) を見る

赤池情報量規準AIC―モデリング・予測・知識発見

作者: 樺島祥介,北川源四郎,甘利俊一,赤池弘次,下平英寿,土谷隆,室田一雄
出版社/メーカー: 共立出版
発売日: 2007/07/06
メディア: 単行本
購入: 4人クリック: 74回
この商品を含むブログ (12件) を見る

1. 確率モデルとKL情報量

未知の確率分布関数 $G(x)$ （=「真の分布」）に従って観測された $n$ 個のデータサンプル ${\boldsymbol{x}}^n := \{ x_i, \dots, x_n \}$ を考えます．真の分布 $G(x)$ の近似として我々は確率モデルを $F(x)$ を想定します．分布関数 $G(x), F(x)$ に対応する密度関数*1をそれぞれ $f(x), g(x)$ と定義します．

変数 $X$ の真の分布　： $G(x), g(x)$

変数 $X$ の確率モデル： $F(x), f(x)$

このとき，モデル $f(x)$ のよさは「真のモデル $g(x)$ に対する確率分布としての近さ」によって評価できます．AIC(Akaike, 1973)では，分布間の近さを測る尺度として次のKL情報量(Kullback-Leibler, 1951)を採用しています．KL情報量は距離の公理のうち「対称性」以外をみたす疑距離であり， $\mathbb{D}_{KL}(G ; F)$ の値が小さいほどモデル $f(x)$ は $g(x)$ に近いと考えることができます．

$$ \begin{eqnarray} \mathbb{D}_{KL}(G ; F) & = & \mathbb{E}_{G} \left[ \log \frac{G(X)}{F(X)} \right] \\ & = & \int \log \frac{g(x)}{f(x)} ~ dG(x) \\ & = & \int_{- \infty}^{\infty} g(x) \log \frac{g(x)}{f(x)} ~ dx \end{eqnarray} $$

さらに，KL情報量を分解すると，「確率モデル $f$ に依存しない不確実性（変数 $X$ の平均情報量）」と「確率モデル $f$ に依存する不確実性（変数 $X$ のモデル $f$ による平均対数尤度）」に分けることができます．

$$ \begin{eqnarray} \mathbb{D}_{KL}(G ; F) & = & \int_{- \infty}^{\infty} g(x) \log \frac{g(x)}{f(x)} ~ dx \\ & = & \int_{- \infty}^{\infty} g(x) \log g(x) ~ dx - \int_{- \infty}^{\infty} g(x) \log f(x) ~ dx \\ & = & \mathbb{E}_{g} \left[ \log g(x) \right] - \mathbb{E}_{g} \left[ \log f(x) \right] \\ & = & - (X の平均情報量) - (X のモデル f による平均対数尤度) \end{eqnarray} $$

変数 $X$ の平均情報量 $\mathbb{E}_{g} \left[ \log g(x) \right]$ は，確率モデル $f$ の選び方に依らない量であり，データの背後にある現象（変数 $X$ の確率的構造）がもつ不確実性の下限です．すなわち，「モデル $f(x)$ の，真のモデル $g(x)$ に対する確率分布としての近さ」を評価する際には，変数 $X$ の平均対数尤度 $\mathbb{E}_{g} \left[ \log f(x) \right]$ にのみ注目すれば良いことがわかります．

平均対数尤度を最大化するモデル $f(x|\theta)$ 　＝　KL情報量 $\mathbb{D}_{KL}(g ; f)$ を最小化するモデル $f(x|\theta)$

なお，KL情報量の詳細については，下記記事で紹介しています． yul.hatenablog.com

2. パラメトリックモデルを考える

さて，多くの確率モデル $f(x)$ では，対象となる変数 $x$ の他に，モデリングを拡張するための媒介変数として「パラメータ $\theta$ 」を想定します．パラメータの値を陽に指定できる確率モデル $f(x|\theta)$ を，一般に「パラメトリックモデル」と呼びます．ここからは，確率モデルと行った場合，パラメトリックモデル $f(x|\theta)$ のことを指す事にします．

パラメータ $\theta$ を中心に，問題を整理してみましょう．

ある変数 $X$ の確率構造 $g(x)$ を捉えるために， $p$ 次元パラメータをもつパラメトリックモデル $f(x | \theta ) : \theta \in \Theta \in \mathbb{R}^{p}$ を想定します．推定に用いるデータサンプル ${\boldsymbol{x}}^n$ を固定すると，モデル $f(x | \theta)$ は $\theta$ の値によって決定されます．ここではパラメータ $\theta$ を，最尤推定量 $\hat{\theta}_{MLE}$ で置き換えることによって，確率モデル $f(x | \hat{\theta}_{MLE})$ を構築します．以下に，よく使われる用語を整理しておきます．尤度(likelihood)とよばれる量は，すべてパラメータ $\theta$ の関数として考えることができます．

データサンプルに依存する量（データから計算可能）
- （対数尤度）　　　 $\ell(\theta | \boldsymbol{x}^n) = \log f(\boldsymbol{x}^n | \theta) = \sum_{i=1}^{n} \log f(x_i | \theta)$
- （最大対数尤度）　
  - ただし， $\hat{\theta}_{MLE}(\boldsymbol{x}^n) := \underset{\theta \in \Theta}{\rm argmax} ~ \ell(\theta | \boldsymbol{x}^n)$ （パラメータ $\theta$ の最尤推定量）
データサンプルに依存しない量（データから計算不可能）
- （平均対数尤度）　 $\mathbb{E}_{g(x)} \left[ \log f(X | \theta) \right] \propto \mathbb{D}_{KL}(g ; f)$
- （KL情報量）　　　 $\mathbb{D}_{KL}(g ; f) = \int g(x) \log \frac{g(x)}{f(x)} ~ dx$

「モデル選択」の問題（あるいは「バイアス-バリアンス分解」「過学習」「汎化誤差」）とは，結局のところ，「具体的なデータから計算可能な量」から「データから計算不可能な量」を推定する際に生じる"偏り"(=バイアス)をどのようにコントロールするのか，を問うているのです．さらに，モデル選択の問題に，パラメトリックモデルかつ最尤推定という仮定をおけば，これはより具体的に，「対数尤度と平均対数尤度の"ズレ"(=バイアス)を評価して適切に割り引く」ことに他なりません．

平均対数尤度は，未知の関数 $g(x)$ で期待値をとっているためデータから計算不可能な量ですが，「サンプル数が大きい（ $n \to \infty$ ）」場合，大数の法則を用いることで，対数尤度から推定することが可能です．AICでは，この関係式をヒントに，バイアスを補正した対数尤度（=平均対数尤度の推定量）を導出します．

$$ \frac{1}{n} \sum_{i=1}^{n} \log f(x_i | \theta) ~~ \underset{p}{\to} ~~ \mathbb{E}_{g(x)} \left[ \log f(X | \theta) \right] ~~~ (n \to \infty) $$

ここまでの流れをアルゴリズム風にまとめると以下のようになります．特に注意すべきは，手続き(a)，(b)で現れる2つの量，対数尤度と平均対数尤度です．

$X_1, \dots, X_n ~ i.i.d. ~ \sim g(x) \\ if ~ X_1 = x_1, \dots, X_n = x_n ~ then, \\ ~~~~~~ (a)~Estimate~the~optimal~params. \\ ~~~~~~~~~~~~ \hat{\theta}_{MLE}(\boldsymbol{x}^n) \gets \underset{\theta \in \Theta}{\rm argmax} ~ \log f(\boldsymbol{x}^n|\theta), \\ ~~~~~~~~~~~~ where ~~~~~~~~~~~~ \boldsymbol{x}^n := \{ x_1, \dots, x_n \} ~ (data~sample) \\ ~~~~~~~~~~~~~~~~~~~~~~~~~~ f(\boldsymbol{x}^n|\theta) := \sum_{i=1}^{n} f(x_i|\theta) \\ ~ \\ ~~~~~~ (b)~Evaluate~the~distance~between~g(x)~and~f \left( x|\hat{\theta}_{MLE}(\boldsymbol{x}^n) \right)~by~g(x). \\ ~~~~~~~~~~~~ \mathbb{D}_{KL}(g ; f) = \int_{- \infty}^{\infty} g(x) \log {\large \frac{g(x)}{f(x|\hat{\theta}_{MLE}(\boldsymbol{x}^n))}} ~ dx \\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~ \propto \int_{- \infty}^{\infty} g(x) - \log f \left( x|\hat{\theta}_{MLE}(\boldsymbol{x}^n) \right) dx \\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~ = \mathbb{E}_{g(x)} \left[ - \log f \left( x|\hat{\theta}_{MLE}(\boldsymbol{x}^n) \right) \right] (平均対数尤度)$

3. バイアスの不偏推定量を求める

我々の目標/ゴールは，「 $\hat{\theta}_{MLE}$ におけるモデル $f(x|\theta)$ の平均対数尤度を計算すること」です．下図の白丸はデータから計算可能な（データに依存する）量を表しており， $\theta_0$ は平均対数尤度を最大化するパラメータです．ただし，データ $\boldsymbol{x}^n$ から $\theta_0$ を見つけることはできません．AICでは，最尤推定量 ${\hat{\theta}}_{MLE}$ を与えた際のモデル $f$ の対数尤度（=最大対数尤度）ではなく，最尤推定量 $\hat{\theta}_{MLE}$ を与えた際のモデル $f$ の平均対数尤度によって，モデル選択を行います．ここで重要な量は，下図の $D$ で示された部分です．

モデル $f(x|\theta)$ に対して，データサンプル $\boldsymbol{x}^n$ を固定して， $\theta = \hat{\theta}_{MLE}( \boldsymbol{x}^n)$ における「対数尤度と平均対数尤度の差 $D$ 」を考えます．

$$ \begin{eqnarray} D & := & \left( データサンプル \boldsymbol{x}^n の対数尤度 \right) - \left( n \cdot 変数X の平均対数尤度 \right) \\ & = & \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}(\boldsymbol{x}^n)) - n \cdot \mathbb{E}_{g} \left[ \log f(X | \hat{\theta}_{MLE}(\boldsymbol{x}^n)) \right] \end{eqnarray} $$

さらに， $D$ はデータサンプル $\boldsymbol{x}^n$ に依存するため，その期待値を考えます．データサンプル $\boldsymbol{x}^n$ は密度関数 $g(\boldsymbol{x}^n) := {g(x)}^n$ にしたがってばらつくことに注意すると，

$$ \begin{eqnarray} b(G) & := & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D \right] \\ & = & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}(\boldsymbol{x}^n)) - n \cdot \mathbb{E}_{g} \left[ \log f(X | \hat{\theta}_{MLE}(\boldsymbol{x}^n)) \right] \right] \\ \end{eqnarray} $$

が定義されます． $b(G)$ はバイアスと呼ばれる量です． $b(G)$ に無理やり意味付けを与えると，「確率モデル $f$ に対する，データサンプル $\boldsymbol{x}^n$ の最大対数尤度 $\log f(\boldsymbol{x}^n | \hat{\theta}_{MLE})$ の"ばらつき"の期待値」といえます．ここで，以下の関係が成り立つ事に注意してください．

$$ \begin{eqnarray} (最大対数尤度の期待値) + (バイアス) & = & n \cdot (\hat{\theta}_{MLE}における平均対数尤度) \\ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) \right] + b(G) & = & n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \\ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) + D \right] & = & n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \end{eqnarray} $$

3.1 Dを分解する．

$\theta = \hat{\theta}_{MLE}$ における「対数尤度と平均対数尤度の差 $D$ 」は， $\theta_0$ を用いて次のように分解できます．

$$ \begin{eqnarray} D & = & \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) - n \cdot \mathbb{E}_{g} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \\ & = & \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) - \log f(\boldsymbol{x}^n | \theta_0) \\ & ~ & + \log f(\boldsymbol{x}^n | \theta_0) - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] \\ & ~ & + n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \\ \end{eqnarray} $$

よって，以下のように $D_1, D_2, D_3$ を定義すると， $D = D_1 + D_2 + D_3$ が成り立ちます．

$$ \begin{eqnarray} D_1 & = & \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) - \log f(\boldsymbol{x}^n | \theta_0) \\ D_2 & = & \log f(\boldsymbol{x}^n | \theta_0) - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] \\ D_3 & = & n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \\ \end{eqnarray} $$

（１） $D_1$ の期待値を計算する

$\theta$ の関数：対数尤度 $\ell(\theta) = \log f(\boldsymbol{x}^n | \theta)$ を，最尤推定量 [\hat{\theta}_{MLE}] のまわりでTaylor展開すると，

$$ \ell(\theta) \simeq \ell(\hat{\theta}_{MLE}) + { (\theta - \hat{\theta}_{MLE}) }^{\mathrm{T}} \frac{\partial \ell(\theta)}{\partial \theta} {\mid}_{\theta = \hat{\theta}_{MLE}} + \frac{1}{2} { (\theta - \hat{\theta}_{MLE}) }^{\mathrm{T}} \frac{{ \partial}^2 \ell(\theta) }{\partial \theta \partial \theta^\mathrm{T}} {\mid}_{\theta = \hat{\theta}_{MLE}} (\theta - \hat{\theta}_{MLE}) $$

さらに， $\theta = \theta_0$ を代入すると，

$$ \ell(\theta_0) \simeq \ell(\hat{\theta}_{MLE}) + { (\theta_0 - \hat{\theta}_{MLE}) }^{\mathrm{T}} \frac{\partial \ell(\theta)}{\partial \theta} {\mid}_{\theta = \hat{\theta}_{MLE}} + \frac{1}{2} { (\theta_0 - \hat{\theta}_{MLE}) }^{\mathrm{T}} \frac{{ \partial}^2 \ell(\theta) }{\partial \theta \partial \theta^\mathrm{T}} {\mid}_{\theta = \hat{\theta}_{MLE}} (\theta_0 - \hat{\theta}_{MLE}) $$

ここで，

$$ \begin{eqnarray} \frac{\partial \ell(\theta)}{\partial \theta} {\mid}_{\theta = \hat{\theta}_{MLE}} & = & {\bf 0} \\ \\ \frac{1}{n} \frac{{ \partial}^2 \ell(\theta) }{\partial \theta \partial \theta^\mathrm{T}} {\mid}_{\theta = \hat{\theta}_{MLE}}
& = & \frac{1}{n} \frac{{ \partial}^2 \sum_{i=1}^{n} \log f(x_i | \theta) }{\partial \theta \partial \theta^\mathrm{T}} {\mid}_{\theta = \hat{\theta}_{MLE}} \\ & \underset{p}{\to} & \mathbb{E}_{g(x)} \left[ \frac{ {\partial}^2 \log f(X|\theta)}{\partial \theta \partial \theta^\mathrm{T}} {\mid}_{\theta = \theta_0} \right] = J(\theta_0) ~~~~~~ (n \to \infty) \end{eqnarray} $$

が成り立つから，

$$ \ell(\theta_0) \approx \ell(\hat{\theta}_{MLE}) + \frac{n}{2} { (\theta_0 - \hat{\theta}_{MLE}) }^{\mathrm{T}} J(\theta_0) (\theta_0 - \hat{\theta}_{MLE}) $$

が得られます．よって，

$$ \begin{eqnarray} \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_1 \right]
& = & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) - \log f(\boldsymbol{x}^n | \theta_0) \right] \\ & = & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \ell( \hat{\theta}_{MLE} ) - \ell( \theta_0 ) \right] \\ & \approx & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \frac{n}{2} { (\theta_0 - \hat{\theta}_{MLE}) }^{\mathrm{T}} J(\theta_0) (\theta_0 - \hat{\theta}_{MLE}) \right] \\ & = & \frac{n}{2} \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \mathrm{tr} \left\{ J(\theta_0) (\theta_0 - \hat{\theta}_{MLE}) { (\theta_0 - \hat{\theta}_{MLE}) }^{\mathrm{T}} \right\} \right] \\ & = & \frac{n}{2} \mathrm{tr} \left\{ J(\theta_0) ~ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ (\theta_0 - \hat{\theta}_{MLE}) { (\theta_0 - \hat{\theta}_{MLE}) }^{\mathrm{T}} \right\} \right] \\ & = & \frac{n}{2} \mathrm{tr} \left\{ J(\theta_0) ~ \frac{1}{n} {J(\theta_0)}^{-1} I(\theta_0) {J(\theta_0)}^{-1} \right\} \\ & = & \frac{1}{2} \mathrm{tr} \left\{ I(\theta_0) {J(\theta_0)}^{-1} \right\} \end{eqnarray} $$

（２） $D_2$ の期待値を計算する

$$ \begin{eqnarray} \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_2 \right] & = & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \theta_0) - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] \right] \\ & = & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \theta_0) \right] - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] \\ & = & n \cdot \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \frac{1}{n} \sum_{i=1}^{n} \log f(x_i | \theta_0) \right] - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] \\ & = & n \cdot 0 = 0 \end{eqnarray} $$

（３） $D_3$ の期待値を計算する

$\theta$ の関数： $\eta(\theta) = \mathbb{E}_{g(x)} \left[ \log f(X | \theta) \right]$ を， $\theta_0$ のまわりでTaylor展開すると，

$\eta(\theta) \approx \eta(\theta_0) + \sum_{i=1}^{p} (\theta_{i} - \theta_{0i}) {\large \frac{\partial \eta(\theta_0)}{\partial \theta_{i}} } + {\large \frac{1}{2} } \sum_{i=1}^{p} \sum_{j=1}^{p} (\theta_{i} - \theta_{0i})(\theta_{j} - \theta_{0j}) {\large \frac{ {\partial}^{2} \eta(\theta_0)}{\partial \theta_i \partial \theta_j} }$

さらに， $\theta$ の任意性から $\theta = \hat{\theta}_{MLE}$ を代入すると，

$\eta(\hat{\theta}_{MLE}) \approx \eta(\theta_0) + \sum_{i=1}^{p} (\hat{\theta}_{MLEi} - \theta_{0i}) {\large \frac{\partial \eta(\theta_0)}{\partial \theta_i} } + {\large \frac{1}{2} } \sum_{i=1}^{p} \sum_{j=1}^{p} (\hat{\theta}_{MLEi} - \theta_{0i})(\hat{\theta}_{MLEj} - \theta_{0j}) {\large \frac{ {\partial}^{2} \eta(\theta_0)}{\partial \theta_i \partial \theta_j} }$

となります．ここで「確率モデル $f(x|\theta)$ によって，真の分布 $g(x)$ が表現可能である」という仮定をおきます．

$$ \exists \theta_0 \in \Theta, ~ \forall x \in \mathbb{R}^d, ~~~ f(x|\theta_0) = g(x) $$

よって， $\theta$ の関数： $\eta(\theta) = \mathbb{E}_{g(x)} \left[ \log f(X | \theta) \right]$ に， $\theta = \theta_0$ を代入すると，

$$ \mathbb{E}_{g(x)} \left[ \frac{\partial \log f(X|\theta)}{\partial \theta} \mid_{\theta_0} \right] = \mathbb{E}_{g(x)} \left[ \frac{\partial \log g(X)}{\partial \theta} \right] = \int g(x) \frac{\partial \log g(x)}{\partial \theta} ~ dx = \boldsymbol{0} $$

が成り立つので，Taylor展開の第1項は消えて，

$\eta(\hat{\theta}) \approx \eta(\theta_0) - {\large \frac{1}{2}} {(\hat{\theta}_{MLE} - \theta_0)}^{\mathrm{T}} J(\theta_0) (\hat{\theta}_{MLE} - \theta_0)$

$$ \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \approx \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0 ) \right] - \frac{1}{2} {(\hat{\theta}_{MLE} - \theta_0)}^{\mathrm{T}} J(\theta_0) (\hat{\theta}_{MLE} - \theta_0) $$

が成り立ちます．

$$ \begin{eqnarray} \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_3 \right] & = & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] - n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \right] \\ & = & n \cdot \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \mathbb{E}_{g(x)} \left[ \log f(X | \theta_0) \right] - \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \right] \\ & \approx & n \cdot \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \frac{1}{2} {(\hat{\theta}_{MLE} - \theta_0)}^{\mathrm{T}} J(\theta_0) (\hat{\theta}_{MLE} - \theta_0) \right] \\ & = & \frac{n}{2} \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ {(\hat{\theta}_{MLE} - \theta_0)}^{\mathrm{T}} J(\theta_0) (\hat{\theta}_{MLE} - \theta_0) \right] \\ & = & \frac{n}{2} \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \mathrm{tr} \left\{ J(\theta_0) (\hat{\theta}_{MLE} - \theta_0) {(\hat{\theta}_{MLE} - \theta_0)}^{\mathrm{T}} \right\} \right] \\ & = & \frac{n}{2} \mathrm{tr} \left\{ J(\theta_0) ~ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ (\hat{\theta}_{MLE} - \theta_0) {(\hat{\theta}_{MLE} - \theta_0)}^{\mathrm{T}} \right] \right\} \\ & = & \frac{n}{2} \mathrm{tr} \left\{ J(\theta_0) ~ \frac{1}{n} {J(\theta_0)}^{-1} I(\theta_0) {J(\theta_0)}^{-1} \right\} \\ & = & \frac{1}{2} \mathrm{tr} \left\{ I(\theta_0) {J(\theta_0)}^{-1} \right\} \end{eqnarray} $$

3.2 バイアスの推定量（Dの漸近推定量）

$D_1, D_2, D_3$ に関する計算結果をまとめると，バイアス $b(G)$ は結局次のように近似されます．

$$ \begin{eqnarray} b(G) &= & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D \right] \\ &= & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_1 + D_2 + D_3 \right] \\ &= & \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_1 \right] + \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_2 \right] + \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D_3 \right] \\ &= & \frac{1}{2} \mathrm{tf} \left\{ I(\theta_0) {J(\theta_0)}^{\mathrm{-1}} \right\} + 0 + \frac{1}{2} \mathrm{tf} \left\{ I(\theta_0) {J(\theta_0)}^{\mathrm{-1}} \right\} \\ &= & \mathrm{tr} \left\{ I(\theta_0) {J(\theta_0)}^{\mathrm{-1}} \right\} \end{eqnarray} $$

3.3 2つの重要な行列 $I, J$

パラメータ $\theta$ を任意の値に固定したとき，確率モデル $f(X|\theta)$ のFisher情報量行列 $I(\theta)$ と，平均対数尤度関数 $\mathbb{E}_{g(x)} \left[ \log f(X|\theta) \right]$ のHesse行列 $J(\theta)$ が定義されます．ここで， $\theta = \theta_0 ( \forall x, ~ f(x|\theta) = g(x) )$ における $I(\theta), J(\theta)$ は次のように記述されます．

確率モデル $f(X|\theta)$ のFisher情報量行列 $I(\theta)$

$$ \begin{eqnarray} I(\theta_0) & := & \ \mathbb{E}_{g(x)} \left[ \left( \frac{\partial \log f(X | \theta)}{\partial \theta} \right) \left( \frac{\partial \log f(X | \theta)}{\partial {\theta}^{\mathrm{T}}} \right) \mid_{\theta_0} \right] \\ I(\theta_0)_{ij} & := & - \mathbb{E}_{g(x)} \left[ \left( \frac{\partial \log f(X | \theta)}{\partial \theta_i} \right) \left( \frac{\partial \log f(X | \theta)}{\partial \theta_j} \right) \mid_{\theta_0} \right], ~~~ \forall i, j \in [1, p] \end{eqnarray} $$

平均対数尤度関数 $\mathbb{E}_{g(x)} \left[ \log f(X|\theta) \right]$ のHesse行列 $J(\theta)$

$$ \begin{eqnarray} J(\theta_0) & := & - \mathbb{E}_{g(x)} \left[ \frac{ {\partial}^{2} \log f( X | \theta) }{\partial \theta \partial {\theta}^{\mathrm{T}}} \mid_{\theta_0} \right] \\ J(\theta_0)_{ij} & := & - \mathbb{E}_{g(x)} \left[ \frac{ {\partial}^{2} \log f( X | \theta) }{\partial \theta_i \partial \theta_j} \mid_{\theta_0} \right], ~~~ \forall i, j \in [1, p] \end{eqnarray} $$

$p \times p$ 行列， $I(\theta_0), J(\theta_o)$ では「微分演算」と「内積演算」の順序が異なることに注意してください．さらに， $\theta_0$ に対して，

$$ \forall x, ~ f(x|\theta_0) = g(x) ~~~ \Longrightarrow ~~~ I(\theta_0) = J(\theta_0) $$

が成り立ちます．

4.AICの導出

さて，バイアス $b(G)$ の不偏推定量が求められたので，これによってAICを導出しましょう．

目標
データサンプルから求めたパラメータ $\theta$ の最尤推定量 $\hat{\theta}_{MLE}$ を使って求めた確率モデル $f(x|{\hat{\theta}}_{MLE})$ に対して，その対数尤度 $\log f({x}^{n}|\theta)$ （=最大対数尤度）ではなく，平均対数尤度 $n \cdot \mathbb{E}_{g(x)} \left[ \log f(X|{\hat{\theta}}_{MLE})\right]$ の値によって，評価を与える．

ここで，

$$ \exists \theta_0 \in \Theta \subset \mathbb{R}^p, \forall x, ~~~ f(x|\theta_0) = g(x) ~~~ \cdots ~~~ (仮定*) $$

という仮定をおくと，バイアス $b(G)$ は $p \times p$ 行列 $I(\theta_0), J(\theta_0)$ を用いて

$$ b(G) = \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ D \right] \simeq \mathrm{tr} \left\{ I(\theta_0) {J(\theta_0)}^{\mathrm{-1}} \right\} $$

と近似できます．さらに，仮定 $(*)$ より行列 $I(\theta_0) = J(\theta_0)$ が成り立つから，

$$ \mathrm{tr} \left\{ I(\theta_0) {J(\theta_0)}^{\mathrm{-1}} \right\} = \mathrm{tr} \left\{ I(\theta_0) {I(\theta_0)}^{\mathrm{-1}} \right\} = \mathrm{tr} \left\{ I_p \right\} = p \\ i.e. ~~~ b(G) \simeq p $$

を得ます．よって，対数尤度からバイアス $b(G) = p$ を補正することにより，平均対数尤度の推定量(=AIC)を求めることができます．

$$ \begin{eqnarray} (最大対数尤度の期待値) + (バイアス) & = & n \cdot (\hat{\theta}_{MLE}における平均対数尤度) \\ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) \right] + b(G) & = & n \cdot \mathbb{E}_{g(x)} \left[ \log f(X | \hat{\theta}_{MLE}) \right] \\ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \log f(\boldsymbol{x}^n | \hat{\theta}_{MLE}) + p \right] & \simeq & \mathbb{E}_{g(x)} \left[ n \cdot \log f(X | \hat{\theta}_{MLE}) \right] \\ \mathbb{E}_{g(\boldsymbol{x}^n)} \left[ \sum_{i=1}^{n} \log f(x_i | \hat{\theta}_{MLE}) + p \right] & \simeq & \mathbb{E}_{g(x)} \left[ n \cdot \log f(X | \hat{\theta}_{MLE}) \right] \end{eqnarray} $$

上式の左辺を2倍すれば，AICの定義式が求められます．

$$ \begin{equation} A I C = -2 \sum_{i=1}^{n} \log f(x_i | \hat{\theta}_{MLE}) + 2 p \end{equation} $$

*1:離散変数の場合は密度関数は定義できません．簡単のためここでは連続変数のみを考えます．