免模型即无法获取马尔可夫决策过程的情况(不知道状态转移概率和奖励函数,需要agent与环境去交互,从而学习到最佳策略)。
免模型预测即在免模型情况下,去评估给定策略的价值。
动态规划方法(属于有模型预测,因为是由贝尔曼期望方程来更新的)
蒙特卡洛方法(免模型预测,在当前状态下,走完一条支路,然后根据这条路径上的状态来更新)
时序差分法(免模型预测,在当前状态下,走一步(或n步),马上更新一次)
2024-11-03 06:59:01
免模型即无法获取马尔可夫决策过程的情况(不知道状态转移概率和奖励函数,需要agent与环境去交互,从而学习到最佳策略)。
免模型预测即在免模型情况下,去评估给定策略的价值。
动态规划方法(属于有模型预测,因为是由贝尔曼期望方程来更新的)
蒙特卡洛方法(免模型预测,在当前状态下,走完一条支路,然后根据这条路径上的状态来更新)
时序差分法(免模型预测,在当前状态下,走一步(或n步),马上更新一次)