【強化学習メモ】model-based RL と model-free RL
正直、この2つを明確に分ける必要もないかもしれないが、 一応メモ、
model-based RL
強化学習をしながら、環境のmodelを同時に推定し、そのmodelも使いながら学習をする手法
例) dyna-q
model-free RL
環境のmodelの推定は行わずに強化学習を行う手法
例) Q学習
正直、この2つを明確に分ける必要もないかもしれないが、 一応メモ、
強化学習をしながら、環境のmodelを同時に推定し、そのmodelも使いながら学習をする手法
例) dyna-q
環境のmodelの推定は行わずに強化学習を行う手法
例) Q学習