强化学习&opf

策略、奖励、评价、环境。
系统:Agent、环境。Agent 由三个模块组成:输入模块 I、强化模块 R 和策略模块 P
强化学习&opf
RS=<S,A,W>
S=(s1,s2,…sN)为环境所有可能状态的集合;A=(a1,a2,…aN)是 Agent 可能产生的动作集合;W 是环境的状态转移集合。
强化学习的主要算法有 TD 算法、Q 学习算法、自适应启发评价算法(adaptive heuristic critic, AHC)、多步回溯
Q(λ)学习算法等。
决策:可以采用马尔可夫决策过程(Markov Decision Process,MDP)
Q学习以离散时间马尔可夫决策过程TMDP)模型为数学基础,与监督学习、统计模式识别和人工神经网络不同,不需要精确的历史训练样本及系统先验知识,是一种基于值函数迭代的在线学习和动态最优技术.在使用 Q 学习的最优潮流计算中,根据 Q 学习算法的策略选择一个动作后,通过观察每一次潮流计算的结果,判断不满足不等式约束的个数,从而来修正状态,确定 s’的值。动作 a 的个数与初始条件有关,例如发电机的有功出力,变压器分接头的档位,以及可投切电容器的组数等都有关系,一般是这些动作次数的乘积,动作 a 的空间为:强化学习&opf
奖励函数需包含两个要素,一个是潮流计算所得的成本值,另一个是对约束条件的奖惩.

上一篇:git-ssh 配置和使用


下一篇:ctfshow-web4