RL学习笔记-表格型方法

 免模型即无法获取马尔可夫决策过程的情况(不知道状态转移概率和奖励函数,需要agent与环境去交互,从而学习到最佳策略)。

免模型预测即在免模型情况下,去评估给定策略的价值。

动态规划方法(属于有模型预测,因为是由贝尔曼期望方程来更新的)

蒙特卡洛方法(免模型预测,在当前状态下,走完一条支路,然后根据这条路径上的状态来更新)

时序差分法(免模型预测,在当前状态下,走一步(或n步),马上更新一次)

上一篇:如何在服务器端对PDF和图像进行OCR处理-前提条件


下一篇:[MySQL#11] 索引底层(2) | B+树 | 索引的CURD | 全文索引