策略、奖励、评价、环境。
系统:Agent、环境。Agent 由三个模块组成:输入模块 I、强化模块 R 和策略模块 P
RS=<S,A,W>
S=(s1,s2,…sN)为环境所有可能状态的集合;A=(a1,a2,…aN)是 Agent 可能产生的动作集合;W 是环境的状态转移集合。
强化学习的主要算法有 TD 算法、Q 学习算法、自适应启发评价算法(adaptive heuristic critic, AHC)、多步回溯
Q(λ)学习算法等。
决策:可以采用马尔可夫决策过程(Markov Decision Process,MDP)
Q学习以离散时间马尔可夫决策过程TMDP)模型为数学基础,与监督学习、统计模式识别和人工神经网络不同,不需要精确的历史训练样本及系统先验知识,是一种基于值函数迭代的在线学习和动态最优技术.在使用 Q 学习的最优潮流计算中,根据 Q 学习算法的策略选择一个动作后,通过观察每一次潮流计算的结果,判断不满足不等式约束的个数,从而来修正状态,确定 s’的值。动作 a 的个数与初始条件有关,例如发电机的有功出力,变压器分接头的档位,以及可投切电容器的组数等都有关系,一般是这些动作次数的乘积,动作 a 的空间为:
奖励函数需包含两个要素,一个是潮流计算所得的成本值,另一个是对约束条件的奖惩.
相关文章
- 03-02【DataWhale数据可视化学习】认识Matplotlib
- 03-02C++面向对象程序设计学习笔记(5)
- 03-02『Numpy学习指南』排序&索引&抽取函数介绍
- 03-02C++面向对象程序设计学习笔记(7)
- 03-02C++面向对象程序设计学习笔记(3)
- 03-02dremio 学习一 简单了解
- 03-02Bootstrap学习(2)--表单
- 03-02$exLucas$学习笔记
- 03-02模块划分--MVVM指南(课程学习)
- 03-02LDA主题模型学习笔记5:C源代码理解