Donsker-Varadhan representation（DV下限）

定理（DV表現）

連続確率変数 $X$ に対して，確率密度関数 $q(x), p(x)$ が定義されているとき，以下の関係式が成り立ちます．この式を，Donsker-Varadhan representation*1といい，右辺をDV下限と言います．

$$ \mathbb{D}_{KL}(q || p) = \underset{T: X \to \mathbb{R} }{\rm sup} ~ \mathbb{E}_{q} [T(x)] - \log \left( \mathbb{E}_{p} [ {e}^{T(x)} ] \right) $$

この関係式は，任意の実関数 $T$ による近似で，KL情報量に下限を与えられることを保証しており，かつ一致解の存在を示しています．以下で，簡単な証明を記します．

証明

まず，確率密度 $q(x)$ に対して，近似分布 $g(x)$ を考えます．近似分布 $g(x)$ は，確率密度 $p(x)$ と $T(x)$ をエネルギー関数とみたときのギブス分布*2によって導かれます．関数 $T: X \to \mathbb{R}$ は任意の実関数*3です．

$$ g(x) = \frac{{e}^{T(x)}}{ \mathbb{E}_{p}[{e}^{T(x)}] } \cdot p(x) \\ \\ $$

次に， $q(x)$ に対する， $p(x)$ と $g(x)$ の擬距離（KL情報量）を考えます．

$$ \begin{eqnarray} \mathbb{D}_{KL}(q || p) &=& \mathbb{E}_{q} \left[ \log \frac{q(x)}{p(x)} \right] \\ \mathbb{D}_{KL}(q || g) &=& \mathbb{E}_{q} \left[ \log \frac{q(x)}{g(x)} \right] \\ \end{eqnarray} $$

これらの差を計算すると．

$$ \begin{eqnarray} \mathbb{D}_{KL}(q || p) - \mathbb{D}_{KL}(q || g) &=& \mathbb{E}_{q} \left[ \log \frac{g(x)}{p(x)} \right] \\ &=& \mathbb{E}_{q} \left[ \log \frac{\frac{{e}^{T(x)}}{\mathbb{E}_{p}[{e}^{T(x)}]} \cdot p(x)}{p(x)} \right] \\ &=& \mathbb{E}_{q} \left[ \log \frac{{e}^{T(x)}}{\mathbb{E}_{p}[{e}^{T(x)}]} \right] \\ &=& \mathbb{E}_{q} [T(x)] - \log \left( \mathbb{E}_{p} [ {e}^{T(x)} ] \right) &\geq& 0 \end{eqnarray} $$

となり，DV下限が導出されました．つまり，ある関数 $T$ を用いてDV下限を計算したとき，

$$ \mathbb{D}_{KL}(q || p) = (DV下限) + \mathbb{D}_{KL}(q || g) $$

が成り立つので，誤差項 $\mathbb{D}_{KL}(q || g)$ を考慮すれば，KL情報量 $\mathbb{D}_{KL}(q || p)$ はDV下限で下から測ることができます．

*1:Donsker, M. and Varadhan, S. Asymptotic evaluation of certain markov process expectations for large time, iv. Communications on Pure and Applied Mathematics, 36(2):183?212, 1983.

*2:ボルツマン分布とも呼ばれる．朱鷺の杜Wiki - "Bolzmann分布"

*3:厳密には，値が発散しないことなどが条件になる．