偏りと分散 - ややプログラム紀行

SoundCloudのサジェストで結構かっこいいのに遭遇した

コメント欄を見る感じ、1つ目の曲の作者は2018年ごろに死んでしまったらしい

先日たまたまこんな論文を見かけたから読んでみた

ニューラルネットワークを十分学習させた(収束した)時の損失値の分散を不偏推定量を用いて気合で調査して、モデルの幅を横軸にしてプロットしてみたところ、様々なモデルに共通して単峰性が確認できたという論文

これに基づけば分散のコブによってdouble descent現象が起こっているのでした〜という話になる*1

正直この論文は何かの会議にアクセプトされてる訳でもないっぽいし、著者が学部生(?!)っぽいから信用できる...かは微妙なところなんだけど、話の真偽にかかわらず見通しの良くなる論文だと思った

卒論でNTKを扱ったときにも強く感じたけどニューラルネットの挙動っていうのはパラメータの微妙な取り方の違いで全然様相が変わるもので、その理論解析となると現状場合分けのように「この論文ではこのパラメータの取り方をします」みたいにして理論を展開してくケースが多い

だけどdouble descent現象とかは結構ロバストに発生するものっぽいから、偏りと分散の複雑な兼ね合いで出来上がるリスクカーブじゃなくて、まずは分散だけに注目するみたいなのは順当なやり方なのかなと感じた*2

まだ有名どころで読んでない論文が大量にあるから、それらの共通部分を抽出しようとしながら読んでいきたい(ポエム終

*1:もちろん偏りが単調減少していない場合は話はそこまで単純じゃない、イントロ曰くfixed-designという状況の偏りを考えると単調ではなかったりするらしい

*2:多分既存の論文たちはとっくにそうしてると思うけど