1. 问题:612个点 [(x,y,z), 标号1,标号2]
约束:整体
水平
垂直
2. State: {w_ij}
Action: 校正点坐标
Reward: { -1 ; 1000/distance(s,a); 10}
3.
在状态S基于$\epsilon$贪心策略选择动作A,
转移到状态S’,给予奖励R
在下一步暂时不选择动作A‘,而是更新价值表Q
输入:S,A,迭代轮数T,步长$\alpha$,衰减因子$\gamma$, $\epsilon$
输出:状态集合和动作集合对应的价值表Q
E(s,a) = E(s,a) + 1 #当前步在(s,a), 表示离奖励或惩罚更近,增加该步的权重
for s $\in$ S, a $\in$ A :
更新:Q(s,a) += $\alpha ( R+ \gamma Q^{\'} (s^{\'}, a^{\'}) - Q(s,a) ) E(s,a) $
E(s,a) = $\lambda \gamma$ E(s,a) #之后都不走这步
4. 优化:空间余弦:校正点与A构成的向量,与AB构成的向量的空间余弦的正负作为评判飞行器的飞行方向
转为曲线:输入A, P1, P2; 先求O,再求M
输出AP1, P1M弧,MP2