ややプログラム紀行

博士2年のプログラムに関する日記

Regular Conditional Distribution

最近研究室が思ったより理論系だと知ってから急いでklenkeさんのprobability theoryを読んでる

www.springer.com

この本の中でRegular Conditional Distributionって概念を初めて知ったんだけど、最初何言ってるんだこいつ?ってなったから自分用にまとめてみることにした😤


初等的な条件付き期待値

条件付き期待値(conditional expectation)といえば名前の通り条件が課された時の期待値で、条件を課すっていうのはつまり確率空間で考える対象の標本を制限するってことだから次のような定義ができる(以下確率空間は(\Omega, \mathcal{A}, \mathbf{P}))

Definition 8.9 Let  X \in \mathcal{L}^1 (\mathbf{P}) and  A \in \mathcal{A}. Then we define \begin{align} \mathbf{E}[ X \mid A ] := \int X(\omega) \mathbf{P}[d\omega \mid A ] = \begin{cases} \frac{\mathbf{E}[ 1_A X ]}{\mathbf{P}[A]} & \text{if}\ \mathbf{P}[A] \gt 0 \\ 0. & \text{else}. \end{cases} \end{align}

 \mathbf{P}[A ]で割ってるのは事象 Aに制限した時の Xの平均を求めたいから

で、上の定義は事象 Aに対してのみ考えた値だけど、場合分けの要領で可算個の互いに素な事象に対する条件付き期待値をまとめて関数を考えることもできる

つまり I可算集合 (B_i)_{i \in I}を互いに素な事象の族で \bigcup_{i  \in I} B_i = \Omegaであるとした時、 \mathcal{F} := \sigma(B_i , i \in I)と書くことにすると確率変数 X \in \mathcal{L}^1 (\mathbf{P})に対して関数 \mathbf{E}[X \mid \mathcal{F} ]: \Omega \to \mathbb{R}を \begin{align} \mathbf{E}[ X \mid \mathcal{F} ](\omega) = \mathbf{E}[ X \mid B_i ] \Leftrightarrow \omega \in B_i \end{align} と定義できる*1

測度論的な条件付き期待値

上の定義だと例えば実数値をとる確率変数 Xに対して \mathbf{E}[ Y \mid X=x] みたいなのを考えたい時にどうするんや!って話になるけど、測度論的な条件付き期待値を使えば何とかなる

初等的定義だと可算個の互いに素な事象族の条件付き期待値だったけど、測度論的な条件付き期待値だとより一般的に部分 \sigma-加法族 \mathcal{F} \subset \mathcal{A}に対して定義される

Definition 8.11 (Conditional expectation) A random variable Y is called a conditional expectation of  X given  \mathcal{F}, symbolically  \mathbf{E}[ X \mid \mathcal{F} ] := Y , if:
- (i)  Y is  \mathcal{F}-measurable.
- (ii) For any  A \in \mathcal{F}, we have  \mathbf{E}[ X1_A ] = \mathbf{E}[ Y1_A ] .
For  B \in \mathcal{A},  \mathbf{P}[ B \mid \mathcal{F} ] := \mathbf{E}[ 1_B \mid \mathcal{F} ] is called a conditional probability of  B given the  \sigma-algebra  \mathcal{F}

初等的な定義と比べてだいぶ抽象的になってる気がする*2けど、この2つの条件で十分なことが次の定義でわかる

Theorem 8.12  \mathbf{E}[ X \mid \mathcal{F} ] exists and is unique (up to equality almost surely)

証明は X^+ := X \vee 0,\ X^- := X^+ - Xに対して Q^\pm (A) := \mathbf{E}[ X^\pm 1_A ] が有限測度かつ \mathbf{P}に対して絶対連続であることからRadon-Nikodym theoremを用いて示される

気持ち的には初等的定義の場合分けをもっと細かくして、部分 \sigma-加法族 \mathcal{F}を通してどれくらい Xに関する情報を得られるかみたいな事を表してる(と思ってる)

 \mathcal{F}より細かい事象に関しては \mathbf{E}[ X \mid \mathcal{F} ] からは分からなくて、その部分はあくまで平均の値しかわからないってイメージ


次に今定義した測度論的条件付き期待値を使って \mathbf{P}[ A \mid X = x ] = \mathbf{E}[ 1_A \mid X = x ] を考えてみる

気持ち的には \mathbf{E} [ 1_A \mid \sigma(X) ]  \sigma(X)-measurableだから X^{-1}(x)上では全部同じ値になってて、それを \mathbf{E} [ 1_A \mid \sigma(X) ] の値として採用できれば良さそうだけど、次の補題でそれを正当化できる

Corollary 1.97 (Factorization lemma) Let  (\Omega', \mathcal{A}') be a measurable space and let  \Omega be a nonempty set. Let  f: \Omega \to \Omega' be a map. A map  g: \Omega \to \overline{\mathbb{R}} is  \sigma(f)- \mathcal{B}(\overline{\mathbb{R}})-measurable if and only if there is a measurable map  \phi: (\Omega', \mathcal{A}') \to (\overline{\mathbb{R}}, \mathcal{B}(\overline{\mathbb{R}})) such that  g = \phi \circ f.

 g \geq 0の場合を考えると g = \sum_{n = 1}^\infty \alpha_n 1_{A_n}\ (A_n \in \sigma(f))と表せるが、 A_n \in \sigma(f)より f^{-1}(B_n) = A_nとなる B_n \in \mathcal{A}'が存在して \phi := \sum_{n=1}^\infty \alpha_n 1_{B_n}とおけばいい


上の補題より Y \in \mathcal{L}^1 (\mathbf{P}),\ X:(\Omega, \mathcal{A}) \to (E, \mathcal{E})に対して \phi(X) = \mathbf{E}[ Y \mid X ] となる \phi: E \to \mathbb{R}が存在するので、それを \mathbf{E}[ Y \mid X = x] := \phi(x) と定義する

Regular Conditional Distribution

日本語でなんていうのかよく分からなかったから英語のままにした、正則条件付き期待値かな

初等的な条件付き確率はそれ自体が再び測度になってた訳だけど、 \mathbf{P}[ \cdot \mid X = x] の場合は一筋縄ではいかない

というのも測度論的条件付き確率 \mathbf{P}[ A \mid \mathcal{F} ] は殆ど至る点でしか定義されてなくて*3、しかもその定義されてない零集合は Aに依存して決まるから任意の(非可算個あるかもしれない)事象 Aについての零集合を足し合わせた場合にそれが再び零集合になるとは限らないから

しかし、(klenkeの言葉を借りると)もし \sigma-加法族 \mathcal{A}が可算個の Aで十分精度よく近似することが出来れば、その可算個の Aに対する条件付き確率を組み合わせて測度を構成できるかもしれない、、、という希望がわく

Definition 8.25 (Transition kernel, Markov kernel) Let  (\Omega_1, \mathcal{A}_1), (\Omega_2, \mathcal{A}_2) be measurable spaces. A map  \kappa: \Omega_1 \times \mathcal{A}_2 \to [0, \infty] is called a ( \sigma-)finite transition kernel (from  \Omega_1 to  \Omega_2) if:
- (i)  \omega_1 \mapsto \kappa(\omega_1, A_2) is  \mathcal{A}_1-measurable for any  A_2 \in \mathcal{A}_2
- (ii)  A_2 \mapsto \kappa(\omega_1, A_2) is a ( \sigma-)finite measure on  (\Omega_2, \mathcal{A}_2) for any  \omega_1 \in \Omega_1
If in (ii) the measure is a probability measure for all  \omega_1 \in \Omega_1, then  \kappa is called a stochastic kernel or a Markov kernel. If in (ii) we also have  \kappa(\omega_1, \Omega_2) \leq 1 for any  \omega_1 \in \Omega_1, then  \kappa is called sub-Markov or substochastic.

このtransition kernelを用いて測度の性質を満たした条件付き確率であるregular conditional distributionを定義する

Definition 8.28 Let  Y be a random variable with values in a measurable space  (E, \mathcal{E}) and let  \mathcal{F} \subset \mathcal{A} be a sub- \sigma-algebra. A stochastic kernel  \kappa_{Y, \mathcal{F}} from  (\Omega, \mathcal{F}) to  (E, \mathcal{E}) is called a regular conditional distribution of  Y given  \mathcal{F} if \begin{align} \kappa_{Y, \mathcal{F}}(\omega, B) = \mathbf{P}[ \{ Y \in B \} \mid \mathcal{F} ](\omega) \end{align} for  \mathbf{P}-almost all  \omega \in \Omega and for all  B \in \mathcal{E}; that is, if \begin{align} \int 1_B (Y) 1_A d\mathbf{P} = \int \kappa_{Y, \mathcal{F}}( \cdot, B)1_A d\mathbf{P}\quad \text{for all}\ A \in \mathcal{F}, B \in \mathcal{E} \end{align} Consider the special case where  \mathcal{F} = \sigma(X) for a random variable  X (with values in an arbitrary measurable space  (E', \mathcal{E}')). Then the stochastic kernel \begin{align} (x, A) \mapsto \kappa_{Y, X}(x, A) = \mathbf{P}[ \{ Y \in A \} \mid X = x ] =  \kappa_{Y, \sigma(X)}(X^{-1}(x), A) \end{align}
(the function from the factorization lemma with an arbitrary value for  x \not\in X(\Omega)) is called a regular conditional distribution of  Y given  X

最後の \kappa_{Y, \sigma(X)} (X^{-1}(x), A)っていうのはfactorization lemmaにおける g = \phi \circ fとなる \phiに対して便宜的に g \circ f^{-1} := \phiと書く記法によるもの*4

結局このtransition kernelとかいうものが存在してくれれば嬉しいんだけど、これはBorel spaceであれば存在する

Theorem 8.37 (Regular conditional distribution) Let  \mathcal{F} \subset \mathcal{A} be a sub- \sigma-algebra. Let  Y be a random variable with values in a Borel space  (E, \mathcal{E}) (hence, for example,  E Polish, E = \mathbb{R}^d, E = \mathbb{R}^\infty, E = C([0,1]), etc.). Then there exists a regular conditional distribution  \kappa_{Y, \mathcal{F}} of  Y given  \mathcal{F}.

証明の順序としては、まず Yが実数値確率変数である場合に示して、次にBorel spaceが (B, \mathcal{B})と同型である事を利用して示す(ここで B \in \mathcal{B}(\mathbb{R}))

実数での証明はなかなか一言でまとめづらいけど、累積分布関数が可算個の事象を使って十分表せる事を利用する感じ

上の定理に書いてある通り、まぁ少なくとも自分の応用上はまずregular conditional distributionが存在する、つまり \mathbf{P}[ \{ Y \in \cdot \} \mid X = x] が測度であると思っても良さそうかな?


とりあえずRegular conditional distributionに関するお気持ち的なのをまとめてみたけど、少しは頭の中で整理されたと思う

ただ、regularうんたらが存在することが分かっても、具体的にどういう形をしてんだよっ!って疑問はまだ少しある

今回は書かなかったけど、一応本には X, Yが密度関数 f(x, y)を持つ時に \mathbf{P}[ Y \in \cdot \mid X = x ] の密度関数は \frac{f(x, y)}{\int f(x, y)\lambda(dy)}で表せるよ*5、みたいな話も載ってて、これが思ったより強いのかもしれない

はてなブログで数式書くのしんどすぎた

*1:例えば整数値をとる確率変数 Xに対して B_n := X^{-1}(n)とかの場合を考えてみると実感が湧きやすいかもしれない

*2:当然初等的な定義も測度論的条件付き期待値の条件を満たしてる

*3:定義されてないというより、測度論的条件付き確率は定義からして等号がa.s.で等しいことまでしか意味をなさないからって言った方がいいかもしれない?

*4: f^{-1}が存在していなくてもいいのがfactorization lemmaの嬉しいところで、 f全射であれば \phiは1つに定まる

*5:for  \mathbf{P}_X [dx] -a.a.  x \in \mathbb{R} \int f(x, y)\lambda(dy) = 0の場合もあるから