ややプログラム紀行

博士2年のプログラムに関する日記

log-Sobolev不等式



去年最後に投稿した記事でPoincaré不等式について書いたので、その続きで今回はlog-Sobolev不等式について軽く&フォーマルに書こうと思う

Markov過程が均衡状態に収束していく様子はある意味で熱伝導方程式のように捉えることもできて、その様子を分散の指数関数的収束で特徴づけるのがPoincaré不等式だと言える
一方、(自分的には)熱の伝導といえば熱力学第二法則、すなわちエントロピーの増大を思い出すが、Markov過程の均衡への収束をエントロピーの観点から特徴づけるのがlog-Sobolev不等式である

ここではエントロピーを以下のように定義する: 測度 \nuと関数 f \geq 0に対して

\displaystyle \begin{align*}
\operatorname{Ent}_\nu(f) := \int f \log f d\nu - \left(\int f d\nu\right) \log \left(\int f d\nu\right)
\end{align*}
  \left(\int f d\nu\right) \log \left(\int f d\nu\right) は正規化項のようなもので、 \int f d\nu = 1であれば \operatorname{Ent}_\nu(f) = \int f \log f d\nuと見知った形になる

log-Sobolev不等式はエントロピーの時間経過による収束率の不等式なので、まずはとりあえず時間で微分してみると、エントロピーとFisher情報量を繋ぐ次の等式が得られる

(de Bruijn's identity) 関数 f \geq 0に対して

\displaystyle \begin{align*}
\frac{d}{dt} \operatorname{Ent}_\nu(P_t f) = -I_\nu (P_t f)
\end{align*}

上式に登場する I_\nu Fisher情報量で、carré du champ operator  \Gamma(g,h) = \frac{1}{2}[L(gh) - gLh - hLg] を用いて I_\nu (g)  := \int \frac{\Gamma(g,g)}{g} d\nu として定義される
特に、Fisher情報量は常に非負なので、de Bruijn's identityはエントロピーの単調減少性を示している*1

これ以降では、具体例として前回同様Ornstien-Uhlenbeck過程 dX_t = \sqrt{2}dW_t - X_t dtとその定常分布である標準正規分布 \muについて考えてみる

まずおさらいとして、Ornstein-Uhlenbeck過程のinfinitesimal generator  L_{\mathrm{OU}}  L_{OU} = f'' - xf' と書けるので、carré du champ operator  \Gamma_{\mathrm{OU}} (f,f)

\displaystyle \begin{align*}
\Gamma_{\mathrm{OU}} (f,f)
= \frac{1}{2}\left[ L_{\mathrm{OU}}(f^2) - 2fL_{\mathrm{OU}}f \right]
= (f')^2
\end{align*}

また、Ornstein-Uhlenbeck過程はMarkov semigroupが標準正規分布に従う確率変数 Gを用いて

\displaystyle \begin{align*}
P_t f = \mathbb{E}\left[ f\left(e^{-t}x + \sqrt{1-e^{-2t}G} \right) \right]
\end{align*}
と書けるので、その xによる微分
\displaystyle \begin{align*}
(P_t f)' = e^{-t}P_t \left(f'\right)
\end{align*}
と表せる

これらを用いると、 P_t fのFisher情報量は

\displaystyle \begin{align*}
I_\mu (P_t f)
&= \int \frac{\Gamma_{\mathrm{OU}}(P_t f,P_t f) }{P_t f} d\mu \\
&= \int \frac{{\left(P_t f\right)'}^2}{P_t f} d\mu \\
&= \int \frac{e^{-2t} \left(P_t(f')\right)^2}{P_t f} d\mu \\
\end{align*}
さらに P_t (f') = \mathbb{E}[ f'(X_t) \mid X_0 = x] 積分であることを思い出せば、Cauchy-Schwarz不等式 \left(P_t(f')\right)^2 \leq (P_t f) (P_t \frac{(f')^2}{f} ) より
\displaystyle \begin{align*}
I_\nu (P_t f)
&= \int \frac{e^{-2t} \left(P_t(f')\right)^2}{P_t f} d\mu \\
&\leq e^{-2t} \int P_t \frac{(f')^2}{f} d\mu \\
&= e^{-2t} \int \frac{(f')^2}{f} d\mu \\
&= e^{-2t} \int \frac{\Gamma_{\mathrm{OU}} (f,f)}{f} d\mu = e^{-2t} I_\mu (f)
\end{align*}
となる、ただし3行目の式変形は \muが定常分布であることを用いている(すなわち \int P_t g d\mu = \int g d\mu )

以上の議論とde Bruijn's identityより \frac{d}{dt}\operatorname{Ent}_\nu(f) = -I_\mu (P_t f) \leq -e^{-2t} I_\mu (f)、すなわち

\displaystyle \begin{align*}
\operatorname{Ent}_\mu(f) 
&= \lim_{t \to \infty} \operatorname{Ent}_\mu(P_t f) + \int_\infty^0  \frac{d}{dt}\operatorname{Ent}_\nu(f) dt \\
&\leq \lim_{t \to \infty} \operatorname{Ent}_\mu(P_t f) + I_\mu (f) \int_0^\infty e^{-2t} dt \\
&= \lim_{t \to \infty} \operatorname{Ent}_\mu(P_t f) + \frac{1}{2} I_\mu (f)
\end{align*}
ところで t \to \infty P_t f \to \int f d\muとなるので*2  \lim_{t \to \infty} \operatorname{Ent}_\nu(P_t f) = 0となることから、以下の不等式が得られる

(log-Sobolev inequality for the Gaussian measure) 任意の(適当な)非負関数 f \geq 0と標準正規分布 \muに対して

\displaystyle \begin{align*}
\operatorname{Ent}_\mu(f) 
&\leq \frac{1}{2} I_\mu (f)
\end{align*}

ちなみに一般的にFisher情報量 I_\nu (f)  I_\nu (f) = 4\int \Gamma \left(\sqrt{f},\sqrt{f}\right) d\nu とも表せるので、上の式は任意の(適当な) fに対して

\displaystyle \begin{align*}
\operatorname{Ent}_\mu(f^2) 
\leq 2\int \Gamma_{\mathrm{OU}} \left(f,f\right) d\mu
= 2\int (f')^2 d\mu
= 2\mathcal{E}(f)
\end{align*}
が成り立つ、とよりPoincaré不等式と比較しやすい形に読み替えることができる


一般的にあるMarkov過程と確率分布 \nuが「任意の(適当な)関数 fに対して \operatorname{Ent}_\nu(f^2) \leq 2C\mathcal{E}(f) + D\int f^2 d\nu」を満たすときにlog-Sobolev不等式 \operatorname{LS}(C,D)を満たすと言う
上の例で言えば、Ornstein-Uhlenbeck過程は \operatorname{LS}(1,0)を満たす、となる
なお、 \operatorname{LS}(C,0)はPoincaré不等式より強い主張であることが知られている
実際、 \int g^2 d\nu = 0となる gを用いて f = 1 + \epsilon gとおけば \mathcal{E}(f) = \epsilon^2 \mathcal{E}(g^2)および

\displaystyle \begin{align*}
\operatorname{Ent}_\mu(f^2) 
= 2\epsilon^2 \int g^2 d\nu + o(\epsilon^2)
\end{align*}
が成り立つので、 \operatorname{LS}(C,0)を満たすときPoincaré不等式 \operatorname{Var}_\nu(g) = \int g^2d\nu \leq C\mathcal{E}(g)も満たされる

*1:エントロピーが増加どころか単調減少しとるやないかい!とツッコミが入りそうだが、ここで定義されているエントロピーはどちらかと言うとKLダイバージェンスに近いもので、 \operatorname{Ent}_\nu(f)の減少は分布が定常分布 \nuに近づくことを意味する

*2:Ergodicityという