RL学习笔记-表格型方法

2024-11-03 06:59:01

免模型即无法获取马尔可夫决策过程的情况（不知道状态转移概率和奖励函数，需要agent与环境去交互，从而学习到最佳策略）。

免模型预测即在免模型情况下，去评估给定策略的价值。

动态规划方法（属于有模型预测，因为是由贝尔曼期望方程来更新的）

蒙特卡洛方法（免模型预测，在当前状态下，走完一条支路，然后根据这条路径上的状态来更新）

时序差分法（免模型预测，在当前状态下，走一步（或n步），马上更新一次）