雑多な技術系メモ

自分用のメモ。内容は保証しません。よろしくお願いします。

【強化学習メモ】model-based RL と model-free RL

強化学習

正直、この２つを明確に分ける必要もないかもしれないが、一応メモ、

model-based RL

強化学習をしながら、環境のmodelを同時に推定し、そのmodelも使いながら学習をする手法

例) dyna-q

model-free RL

環境のmodelの推定は行わずに強化学習を行う手法

例) Q学習