閃 き

閃き- blog

きらびやかに、美しく、痛烈に.

Donsker-Varadhan representation(DV下限)

定理(DV表現)

連続確率変数  X に対して,確率密度関数  q(x), p(x) が定義されているとき,以下の関係式が成り立ちます.この式を,Donsker-Varadhan representation*1といい,右辺をDV下限と言います.

$$ \mathbb{D}_{KL}(q || p) = \underset{T: X \to \mathbb{R} }{\rm sup} ~ \mathbb{E}_{q} [T(x)] - \log \left( \mathbb{E}_{p} [ {e}^{T(x)} ] \right) $$

この関係式は,任意の実関数  T による近似で,KL情報量に下限を与えられることを保証しており,かつ一致解の存在を示しています.以下で,簡単な証明を記します.

証明

まず,確率密度  q(x) に対して,近似分布  g(x) を考えます. 近似分布  g(x)は,確率密度 p(x) T(x) をエネルギー関数とみたときのギブス分布*2によって導かれます. 関数  T: X \to \mathbb{R} は任意の実関数*3です.

$$ g(x) = \frac{{e}^{T(x)}}{ \mathbb{E}_{p}[{e}^{T(x)}] } \cdot p(x) \\ \\ $$

次に, q(x) に対する, p(x) g(x) の擬距離(KL情報量)を考えます.

$$ \begin{eqnarray} \mathbb{D}_{KL}(q || p) &=& \mathbb{E}_{q} \left[ \log \frac{q(x)}{p(x)} \right] \\ \mathbb{D}_{KL}(q || g) &=& \mathbb{E}_{q} \left[ \log \frac{q(x)}{g(x)} \right] \\ \end{eqnarray} $$

これらの差を計算すると.

$$ \begin{eqnarray} \mathbb{D}_{KL}(q || p) - \mathbb{D}_{KL}(q || g) &=& \mathbb{E}_{q} \left[ \log \frac{g(x)}{p(x)} \right] \\ &=& \mathbb{E}_{q} \left[ \log \frac{\frac{{e}^{T(x)}}{\mathbb{E}_{p}[{e}^{T(x)}]} \cdot p(x)}{p(x)} \right] \\ &=& \mathbb{E}_{q} \left[ \log \frac{{e}^{T(x)}}{\mathbb{E}_{p}[{e}^{T(x)}]} \right] \\ &=& \mathbb{E}_{q} [T(x)] - \log \left( \mathbb{E}_{p} [ {e}^{T(x)} ] \right) &\geq& 0 \end{eqnarray} $$

となり,DV下限が導出されました.つまり,ある関数  Tを用いてDV下限を計算したとき,

$$ \mathbb{D}_{KL}(q || p) = (DV下限) + \mathbb{D}_{KL}(q || g) $$

が成り立つので,誤差項  \mathbb{D}_{KL}(q || g) を考慮すれば,KL情報量  \mathbb{D}_{KL}(q || p) はDV下限で下から測ることができます.

*1:Donsker, M. and Varadhan, S. Asymptotic evaluation of certain markov process expectations for large time, iv. Communications on Pure and Applied Mathematics, 36(2):183?212, 1983.

*2:ボルツマン分布とも呼ばれる. 朱鷺の杜Wiki - "Bolzmann分布"

*3:厳密には,値が発散しないことなどが条件になる.