特異学習理論 - ややプログラム紀行

テーマソング(安直

を読んだ

タイトルの通りそもそもベイズ統計が何かってところから始まって、後半は現実でベイズ統計を行うための方法まで書いてある

自分はそもそもベイズ自体ビミョーにしかわかってなかったから結構助かったけど、やっぱり本丸は一般理論を扱ってる4章だと思う

一般理論が登場する前はいわゆる正則理論という枠組みで、まずこれが3章で紹介される

ここでいう正則というのは平均対数損失関数*1のヘッシアンの固有値が全て正であることを指してると思うけれど、正則理論ではそれに加えて最適なパラメータ*2が一つである条件も課されている

この時平均対数関数が最適なパラメータ周りで下に凸な感じになっているわけだけど、サンプル数nが増えてくると分配関数*3の計算においてラプラス原理的なノリでこの近傍の形のみが重要になってきて、下に凸であることから事後分布が正規分布ライクになることを示せる(雑

事後分布の形がわかってしまえばあとは楽で、計算を連ねることで自由エネルギー、汎化損失の挙動も計算することができる

ただ、本に書いてある通り正則理論はそもそもの仮定が満たされているか否かを判断する術がないという欠点がある

そこで一般理論では(複数個ありうる)最適なパラメータ周りに特異点解消定理を適用することで扱いやすい座標系を手に入れて、その上で諸々の計算をすることで汎化損失の挙動を解消の仕方によらない不変量を用いて表すことができる(超飛躍

特異学習理論とはなんぞやっていうのをまず知りたい時はこの本を読めば大枠が把握できて良いと思う

ただ、オーダーまわりの計算とかがちょっと飛躍が多い気がするから、細かいとこまで知りたい場合は他の本も参照してみた方がいいかもしれない(研究室にAlgebraic Geometry and Statistical Learning Theoryがあったから借りてみた

あと著者の渡辺先生のページにかなり示唆的なpdfが散らばっているっぽいから、それを探しまくるのもだいぶ参考になりそう*4

自分は今まで深層学習の枠組みの研究を追っていたけど、この特異モデル論を深層学習にどれくらい適当できるのか考えるのも面白そう

*1:確率モデルの対数損失の期待値

*2:平均対数損失関数を最小にするパラメータ

*3:事後分布の正規化項

*4:例えば