简单梳理一下论文中的想法

  最近看了一篇利用UAV搭载RIS保持IoTDs的信息新鲜度的论文:

  现如今,普遍认为无线通信的普及会让物联网成为未来网络的推动者。通常来说,城市中的应用都十分依赖物联网的信息新鲜度、覆盖率和互通性。在论文中,先提出了AoI,即最近接收到的信息(状态更新)生成/采样所消耗的时间。同时,提到了RIS有以下优点:

(1)可以改善接收机接收到的信号并减少干扰

(2)由许多个无源低功耗低成本元件构成,每个元件都可以独立调节入射信号的相移

(3)根据配置相移,可以人为构*射信号,提高物联网可靠性//为什么配置相移,就可以产生反射信号?

  而UAV可以改善网络的互通性和覆盖率,不妨将两者结合起来构成aerial RIS(ARIS):

  用UAV搭载RIS作为中断节点,然后物联网(不同的激活模式)对城市里面的应用的信息进行采样、发射(s.t. SNR&AoI),通过RIS传递给基站,这样就不用穿过山体,造成信息的时延。//UAV功耗太大,飞行时间短?

  这样处理有以下几个好处:

(1)因为RIS的工作模式为FD(全双工中断模式),故只需要一个time slot。//为什么全双工就只需要一个time slot

(2)UAV不用处理中断信息,减少功耗以增加飞行时间。

(3)集成UAV和RIS,减少了无线网络资源,降低了UAV功耗。//这里不是很明白,为什么会减少无线网络资源?

  同时,为了最小化AoI,该ARIS框架带来了三个问题:

(1) considering the SNR constraints

(2)UAV altitude consraint

(3)IoTDs scheduling constraints

  在UAV飞行之前,需要对UAV进行离线处理优化的部署规划,但是我们并不知道IoTDs的激活模式。

  故,在该论文中使用了基于PPO算法的DRL框架,解决了在UAV飞行之前我们无法提前得知IoTDs的activation pattern(激活模式?)的问题

一、DRL(Deep reforcement learning)

  以飞行射击游戏为例,让机器控制飞机完成向左、向右和射击三个简单操作。

agent先观察environment(游戏图像),获得游戏的state(s1),再根据policy选择一个action。agent采取action之后,environment会发生一定的改变(即state发生变化,产生s2),同时反馈给agent一个reward。agent再根据reward可能改变action。这就是利用马尔科夫决策过程(MDP)对学习过程进行形式化。

  显然,机器需要进行大量的练习以此学会最大化reward。值得一提的是,并不是有人去教机器如何操作以达到最大化reward,而是机器自己通过不断的练习找到最大化reward的方法。

policy θ   

马尔可夫决策过程(MDP)

 

 

 

PPO

 

上一篇:paddle2使用DQN跑CartPole(详细解读)


下一篇:uniapp内嵌H5页面和uniapp页面相互传值