最近concentration inequalitiesを読み進めていて、今は8章まで読んだところなのだけど、一旦学んだことを整理したくなってきたのでまずは序盤の内容をまとめてみる
Hoeffding/Bennett/Bernsteinの不等式はどれも独立な確率変数の和に関する、古典的な集中不等式というもので、その証明も大体同じような道筋を辿ることになる
Markovの不等式
まず初めに、ほとんどの集中不等式はMarkovの不等式というものが出発地点になる
非負な確率変数と任意のに対して、
証明は、の両辺を期待値とってからで割り、であることに気をつければ良い*1
Markovの不等式は、特に ()を代入した時が有用で、これによって非負に限らず任意の確率変数に対して
この不等式は非負でない確率変数を扱えるという点も良いのだが、が独立な確率変数の和で表されるときに真価を発揮する
すなわち、が独立な確率変数を用いてと表される時、も独立であることに注目すると
よって、の挙動を解析するためには、各々の確率変数のモーメント母関数さえ分かれば良い
Hoeffdingの不等式
Hoeffdingの不等式は独立かつ有界な確率変数の和に関する集中不等式であり、具体的には次のようなもの:
は独立な確率変数であり、かつ各については区間に値を取るものとする
この時、とすれば、任意のについて
上で述べたように、この不等式を示すためにはのモーメント母関数を解析すればよく、これにはHoeffdingの補題というものが存在する:
有界な区間に値をとるという仮定のみで対数モーメント母関数の挙動がわかるのは面白いが、どう証明すれば良いか中々難しそう
鍵になるポイントは、有界な区間に値をとる確率変数は分散も有界であるという点: より詳細には、であることから
分散が上から抑えられるということは、モーメント母関数の2次の項を抑えられるということになるので、なんだか証明できそうな気もしてくる
Hoeffdingの補題の証明は次のような感じになる: テイラーの定理より、が存在して
具体的にを計算してみると
このようにして定義された確率変数は同様に区間上に値をとる確率変数であるから、上の議論からその分散はで抑えられ、無事が示された
さて、Markovの不等式とHoeffdingの補題を合わせることで
Hoeffdingの不等式の右辺はという、正規分布のような裾になっていることがわかるが、このような確率変数はsub-gaussianと呼ばれる:
確率変数に対して、次の不等式を満たす定数が存在するときはsub-gaussianであるという
よって、Hoeffdingの不等式は「有界な確率変数はsub-gaussianである」ということを述べていると見做すこともできる
素朴な観察として、もしHoeffdingの不等式において総和の分散がよりも遥かに小さい場合、右辺のバウンドはゆるいものになってしまうことが予想される
実際、がをパラメータとするベルヌーイ分布に従っている状況を考えると、がとても小さい時は少数の法則よりがおおよそポアソン分布に従うことになるが、ポアソン分布といえば
このような確率変数に対してよりシャープな評価を与えるのが、次に述べるBennett/Bernsteinの不等式である
Bennett/Bernsteinの不等式
分散が有限かつ独立な確率変数の列に対してある定数が存在して各についてとなるとき、
と表すことにすれば、任意のに対して
となる(ここで)
ステートメントが少しわかりにくいが、
これは所謂中心極限定理の現れであり、和を取る確率変数の数が大きくなるほどの値も大きくなるので、それに応じて裾におけるsub-gaussianな領域も広がっていくことが見て取れる
とのプロット
証明はHoeffdingの不等式と同様にモーメント関数を評価していくことになるわけだが、Hoeffdingの不等式との大きな違いは、Bennettの不等式ではより直接的に確率変数の2次モーメントの値が与えられているということだ
これによって、Hoeffdingの不等式では評価が緩くなるような分散が小さい確率変数に対してもシャープな評価を与えることができる
より詳細には次のようになる: まず初めに、、すなわちとしても一般性を失わないことに注目すると、モーメント母関数は
あとは今までと同様にして、マルコフの不等式に上の評価を代入したのち右辺をで最小化すれば良い