2017-08-14から1日間の記事一覧
正直、この2つを明確に分ける必要もないかもしれないが、 一応メモ、 model-based RL 強化学習をしながら、環境のmodelを同時に推定し、そのmodelも使いながら学習をする手法 例) dyna-q model-free RL 環境のmodelの推定は行わずに強化学習を行う手法 例) …
正直、この2つを明確に分ける必要もないかもしれないが、 一応メモ、 model-based RL 強化学習をしながら、環境のmodelを同時に推定し、そのmodelも使いながら学習をする手法 例) dyna-q model-free RL 環境のmodelの推定は行わずに強化学習を行う手法 例) …