OpenAI Gymの練習と強化学習の理解のためにMountainCar-v0タスクをSarsaと線形回帰の組み合わせで解くプログラムを書いてみた 学習前、適当に行動を選んでいる時の様子↓ 1500ステップ刻みでの学習の様子↓*1 やっぱこういうのは実際に見れる形にした方が盛り…
近況: シンエヴァを2回見た、面白かった*1 SuttonのReinforcement LearningのPart 1: Tabular Solution Methodsを読み直してちょいちょい実装してみた とりあえず自分の理解をまとめると、強化学習には(i)方策を直接計算するか価値関数を推定してから方策を…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。