最近看了一篇利用UAV搭载RIS保持IoTDs的信息新鲜度的论文:
现如今,普遍认为无线通信的普及会让物联网成为未来网络的推动者。通常来说,城市中的应用都十分依赖物联网的信息新鲜度、覆盖率和互通性。在论文中,先提出了AoI,即最近接收到的信息(状态更新)生成/采样所消耗的时间。同时,提到了RIS有以下优点:
(1)可以改善接收机接收到的信号并减少干扰
(2)由许多个无源低功耗低成本元件构成,每个元件都可以独立调节入射信号的相移
(3)根据配置相移,可以人为构*射信号,提高物联网可靠性//为什么配置相移,就可以产生反射信号?
而UAV可以改善网络的互通性和覆盖率,不妨将两者结合起来构成aerial RIS(ARIS):
用UAV搭载RIS作为中断节点,然后物联网(不同的激活模式)对城市里面的应用的信息进行采样、发射(s.t. SNR&AoI),通过RIS传递给基站,这样就不用穿过山体,造成信息的时延。//UAV功耗太大,飞行时间短?
这样处理有以下几个好处:
(1)因为RIS的工作模式为FD(全双工中断模式),故只需要一个time slot。//为什么全双工就只需要一个time slot
(2)UAV不用处理中断信息,减少功耗以增加飞行时间。
(3)集成UAV和RIS,减少了无线网络资源,降低了UAV功耗。//这里不是很明白,为什么会减少无线网络资源?
同时,为了最小化AoI,该ARIS框架带来了三个问题:
(1) considering the SNR constraints
(2)UAV altitude consraint
(3)IoTDs scheduling constraints
在UAV飞行之前,需要对UAV进行离线处理优化的部署规划,但是我们并不知道IoTDs的激活模式。
故,在该论文中使用了基于PPO算法的DRL框架,解决了在UAV飞行之前我们无法提前得知IoTDs的activation pattern(激活模式?)的问题
一、DRL(Deep reforcement learning)
以飞行射击游戏为例,让机器控制飞机完成向左、向右和射击三个简单操作。
agent先观察environment(游戏图像),获得游戏的state(s1),再根据policy选择一个action。agent采取action之后,environment会发生一定的改变(即state发生变化,产生s2),同时反馈给agent一个reward。agent再根据reward可能改变action。这就是利用马尔科夫决策过程(MDP)对学习过程进行形式化。
显然,机器需要进行大量的练习以此学会最大化reward。值得一提的是,并不是有人去教机器如何操作以达到最大化reward,而是机器自己通过不断的练习找到最大化reward的方法。
policy θ
马尔可夫决策过程(MDP)
PPO