A Survey on Multi-Agent Reinforcement Learning Methods for Vehicular Networks

摘要

在物联网(IoT)的飞速发展下,车辆可以被视为移动的智能体,它们可以进行通信,合作以及竞争资源和信息。 车辆需要学习策略并做出决策,以提高多智能体系统(MAS)应对不断变化的环境的能力。多智能体强化学习(MARL)被认为是在高度动态的车载MAS中寻找可靠解的学习框架之一。 在本文中,我们对与车辆网络相关的研究问题进行了调查,例如资源分配,数据卸载,缓存放置,超可靠的低延迟通信(URLLC)和高移动性管理。此外,我们展示了MARL的潜在应用,该技术可在车辆万物互联(V2X)场景中实现分布式和可扩展的决策制定。

I INTRODUCTION

车对万物通信(V2X)是一项重要技术,可传输服务请求并交换车辆彼此的信息,吸引了许多研究人员兴趣。 有效的资源分配对于车辆网络至关重要,因为它可以满足车辆行驶过程中用户的需求偏好。车辆网络中的许多资源分配技术和问题都有待解决。 这些问题可以分类为通信、存储和计算资源分配等。 在这里我们总结了其中的一些问题,并展示了车载网络的多智能体强化学习(MARL)的优势以及它如何在资源分配、高移动性、功率分配方面提高车载网络的性能、延迟、带宽和可用容量。

在强不确定性和固有非平稳的车辆网络环境中,MARL被认为是得到最优解决方案或接近最优方案的良好系统。多辆车之间的合作使他们可以为共有的利益学习新的行为,并提高应对动态环境的完整系统的性能。多主体系统被定义为马尔可夫决策过程(MDP),此过程中不存在适用于分布式系统的全局控制和全局稳定知识。该代理与环境保持互动以提高车辆的智能,并根据该环境的反馈选择最佳动作。

任何强化学习(RL)算法的目标都是创建一个函数,该函数将感知到的环境(一般称之为观测值 o 或者状态 s )映射到行动,并且将此函数称为策略函数。它通过在每个状态中尝试不同的操作,以得到最佳结果而创建。这种试验并改错(trial-and-error)的过程不会对环境进行任何假设。每次动作后,都会通过奖励函数计算出数值奖励。

在车联网中,MARL的学习显得更加困难,因为车辆的高移动性和数目会导致环境的高度变化【所以是环境的高度变化使MARL的实施更加困难】。为此,在车辆上使用MARL的主要目标是,将多个车表示成 multi-agent,允许车辆将相邻车辆作为agent来学习,进而提高网络性能。另一个目标是研究分布式网络下的不同问题,例如使用多智能体算法进行资源分配,使多代理能够采取最佳行动,并通过反复试验在共享环境中获取良好的表现。另外,无论代理知道多少有关其他代理或环境的信息,都将在多代理系统中进行学习。

将车辆网络与MARL结合的重要研究方向之一是控制车辆到车辆(V2V),车辆到基础设施(V2I)或从云到云之间的流量卸载, 提高能源效率(EE)并减少处理延迟。了解计算资源有助于减轻任务负担。

缓存是另一个关键方向,它可以减少蜂窝基础结构(如路边单元(RSU)和宏基站(MBS))上的负载。 根据车辆的不同属性,使用车辆存储流行内容并寻找存有内容的相关车辆,以此减少基础结构上的负载,提高能源效率、传输速率并减少处理延迟。

图1展示了V2X的四种通信模式:V2V V2I V2P V2N。在V2V模式中,我们需要管理安全消息的广播以及车辆之间的信息交换,例如位置和速度。 V2N 和 V2I 有助于提高交通效率、未来预测和其他服务,例如高清城市地图绘制,空气污染,设施故障报告和天气监控。车辆到行人(V2P)和车辆到实体通信(V2U)有助于提高道路安全性。将通信分类为模式非常重要,这有助于分别研究每种模式中的URLLC。

在安全、增强现实(AR)和娱乐等实际应用中,使用这些技术可以提高质量,并缩短交付时间。零延时地向正确的车辆发送警告信息可改善道路安全性。

本文的结构如下。 第二节介绍了MDP和MARL。 在第三部分中,研究了感兴趣的V2X主题。 在第四节中,提供了应用程序驱动的研究方向。 最后,在第五节中,我们总结了全文。

II MDP AND MARL

图2中单独的代理1代表RL模型,其中RL中的代理和环境彼此交互以学习最佳动作并从环境中获得最大回报。 使用MDP M =(S,A,P,R)作为环境模型,它引入一个动作ak∈A,其中A是智能体在第k次episode内为获得奖励而采取的一组动作,rk∈R,其中R是训练代理如何在环境中行为的一组奖励,取决于观察状态sk∈S和奖励R(s,a)的函数:S×A→R,由R定义(s,a)= E [rk + 1 | sk = s,ak = a]。 状态集定义为S。RL的目标是找到一个策略π:S×A→[0,1],该策略采取措施以最大化将来的回报。 P(s‘| s,a):S×A×S→[0,1]是从s到s’的状态转移概率。

智能体在任何需要的地方发送和接收数据,并在车辆中处理这些数据。 而且,它们可以动态适应环境并根据环境要求进行更改。图2显示了多智能体系统,其中每个智能体分别与环境进行交互,这有助于提高车辆网络的性能以及车辆之间的协作,并为车辆网络带来了优势。 多主体系统定义为具有不同特征的对象。

多智能体系统具有许多特性,这些使其成为一个很好的系统。 智能体对其动作有控制权,并且可以在决策中作出反应。它们是自治的,因为它可以在没有任何直接干预的情况下运行。 此外,它的决策使其能够满足系统目标并帮助其与其他代理进行交互。 代理可以学习环境因素,以采取明智的行动来改善车辆网络的性能[1] – [3]。 多代理系统定义为元组(S,{Ai},P,{ri}),其中N是代理数。 在时间步k处的全局预期作用值函数为

其中α∈[0,1]是学习率,而β∈[0,1]表示 折扣系数。

III V2X TOPICS OF INTEREST

近年来,车载网络的研究重点是传输效率,低延迟,高可靠性[5],[6],能源效率[7],定位[8],车辆的高机动性,连接性 车辆和RSU之间的关系[9],交通管理,卸载[10],[11],缓存[12],[13],公平性[14]和通信开销[15]。 此外,在[16]-[19]中研究了车辆网络中的聚类算法。 而且,当前的工作和最早的研究都集中在具有安全感知的拥塞控制[20],路由[21]和交通信号控制[22]。 表I列出了V2X网络研究主题的摘要。

A.机器学习

许多研究人员将机器学习(ML)与车辆网络结合在一起。 [23]的作者研究了使用ML来解决车辆网络中的高移动性问题的可能性。 他们首先介绍了ML,然后介绍了车辆网络中的一些研究以及可以使用哪些工具。之后,他们指出了一些需要更多注意的领域,并列出了一些未解决的问题。 最近,RL在车载网络上取得了长足的进步[24]。RL中的代理通过与环境交互来学习最佳行为,从而从环境中获得最大回报。 在[25]中,作者提出了一种具有网络代理的分布式MARL,其中每个代理都可以根据从邻居那里收到的信息或在本地观察到的信息来做出决定并采取行动。这些操作确定了代理的下一个状态及其奖励。代理之间的共享和合作使该方法足以应用于大规模的MARL问题,例如车辆网络。 在[34]中显示了对车辆到一切的人工智能(AI)的调查。 该调查显示了AI如何用于解决V2X中的不同研究挑战,并展示了RL在V2X中的使用方法。

B.资源分配

[26]中,作者基于分布式的V2V资源分配提出了多智能体深度强化学习的解决方法,该方案将每个V2V链路视作agent,其需要在时延限制下通过最优决策最小化干扰。智能体会自动在减少V2V链路对V2I网络的干扰 和 V2V链路的传输功率之间进行调整,以满足V2V链路的要求。 使用深度强化学习可以了解V2V链接如何彼此共享信道,以及如何对V2I信道产生最小的干扰。

[27]根据层选择和中继选择将优化问题分解成两个子问题,解决了解决两跳协作车载网络上可伸缩视频编码(SVC)流的资源分配问题。

在[28]中,提出了一种用于车辆云计算(VCC)的资源分配方法的计算方法,其中将优化问题构造为无限horizon的半马尔可夫决策过程(SMDP)。目标是使VCC系统的期望奖励最大化,其中VCC系统的奖励包括成本和收入,这取决于处理时间和功耗。

C.定位

定位被认为是最重要的方法之一,它在车辆通信的许多应用中起着重要作用,因为有许多应用依赖于定位的准确性。在[29]中,提出了一种位置跟踪方法,以允许车辆改善或估计其位置。[8]讨论了许多技术,例如神经网络,航位推算,卡尔曼滤波器,支持向量回归和粒子滤波器,它们可以随时随地提供可靠的信息和高度精确的定位。

List item

D.缓存

缓存已成为许多近期研究的主题。在[12]中,作者提出了边缘缓存方法来缓存内容,但是由于车辆中存储容量的限制,车载内容网络(VCN)依赖于RSU和车载单元(OBU)之间边缘的内容存储。因此,如果内容被缓存在RSU中,并且移动车辆请求了内容,则可以立即从RSU中检索请求的内容。 否则,车辆需要RSU或其他车辆的联系,直到下载内容为止。 车辆的快速行驶也会影响RSU上的缓存。 因此,车辆可以彼此共享内容,而不是使用RSU。他们不仅根据车辆的策略来确定从哪里获取所请求的内容以减少传输延迟,而且还提出了一种新颖的缓存方法,该方法基于车辆和RSU的协作来分发内容,以提高命中率和减少缓存开销。RSU上的内容算法缓存考虑了内容受欢迎程度的变化,如果RSU缓存上存在受欢迎且尺寸较小的内容,则可以将其替换为受欢迎程度较低且尺寸最大的内容。另外,本文将提出的算法与三种不同的算法进行比较,但是当更改高速缓存大小时,提出的算法较差。 众所周知,车辆行驶很快,因此除非将其存储在所有RSU中,否则无法检索大尺寸的内容。 在[30]中,作者提到基于学习的方法(如回声状态网络(ESN)[35])比Zipf分布[36]更准确,以发现内容的受欢迎程度。

在[31]中,所述框架被实施以应对高机动性车辆交通和可再生能源的问题,其中综合考虑了能量管理、内容缓存和交通导向以优化服务能力。自供能式高速缓存站(SCS)配备了能量收集技术和内容高速缓存单元,这些单元使用mmWave无线回程,并将太阳能电池板或风力涡轮机用作核心网络的连接器。通过将这些SCS和5G技术相结合,可以带来灵活部署的三重好处,为经济高效的车载网络,绿色运营和增强的QoS铺平道路。 在缓存上应用深度强化学习可以提高网络的能效和传输速率[32]。

E.数据分流

由于车辆的高度机动性,数据分流被视为一项艰巨的任务。数据分流可以去往集中式服务器,也可以去往网络中的其他设备。在[10]中,作者提出了一种新的基于5G的软件定义的车载网络(SDN)的数据卸载方法,其提议的方案分为四个部分:卸载管理器,优先级管理器,网络选择器 ,以及负载平衡。

IV APPLICATION-DRIVEN RESEARCH DIRECTIONS

由于高移动性以及在相同环境中有大量车辆相互交互,在车载网络中学习MARL变得更加困难。 结果,使用 multi-agent 能够使环境中的多个主体采取改进学习策略的最佳行动,从而满足用户满意度。 对于数据流和关键任务案例中的主要应用,主要研究问题在下面详述。

A.流媒体应用

大多数流量是视频,并且流量每年都在增长,并且随着技术和车辆的改进,乘客需要观看电影,收听新闻和玩在线游戏。

乘客需要找到娱乐方式,因此减少处理延迟并减少RSU和MBS等蜂窝基础设施的负担以确保我们满足乘客满意度是无能为力的。 为此,应用MARL数据分流来控制V2V,V2I或到云的流量分流是一个不错的选择,其中车辆可以减少基础架构上的负载,从而提高传输速率并减少处理延迟。 了解计算资源有助于减轻任务负担。 由于车辆的高机动性,数据卸载被认为是一项艰巨的任务,它有助于在高峰时段分配负载,尤其是在交通拥堵时。 数据的卸载可以集中化也可以分散化。 在这里,可以在车辆之间,车辆与基础设施之间或基础设施与云之间存在交换数据的车辆之间进行数据卸载。 同时使用雾接入点(FAP)和MBS来减少工作负载分流以及云和车辆网络中的计算是在两者之间进行选择的另一个挑战。 由于车辆的高机动性,使用RL预测需要将数据推入和处理的最佳节点是一个巨大的挑战。 而且,管理要在愿意彼此合作的车辆之间分配的卸载可能并不容易。

另一种方法是使用MARL选择交通工具,最适合缓存最流行内容的RSU或MBS。 车辆的选择取决于不同的属性,在这些属性中,车辆可以减少基础设施上的负载,从而提高能效,传输率[32]并减少处理延迟。 使用社交媒体和视频流的增加导致网络延迟和网络流量负载的增加。 因此,MARL缓存放置算法可以减少蜂窝基础结构(例如RSU和MBS)的负载,在该基础结构中车辆存储了受欢迎的内容并发现车辆依赖于不同的特性。

缓存是有助于提高能效,传输速率并减少处理延迟的解决方案之一。 然而,由于以下因素,将所有流行的内容缓存在车辆上会影响车辆网络的性能:车辆中存储的限制,高机动性和车辆速度。 为了解决这类问题,应缓存内容在RSU和车辆中。 问题在于,我们不知道拥有内容的车辆将在请求文件的车辆的覆盖区域中停留多长时间。 挑战在于增加车辆移动时交换更多信息的机会。 此外,了解车辆的位置以及车辆愿意相互协作的方式非常重要。 此外,需要考虑在内容请求期间的高移动性的问题,并且可以通过将内容划分为大块然后将部分内容从RSU传输到RSU,RSU传输到车辆或V2V来解决。 此外,缓存不仅用于受欢迎的内容,而且还可以包括乘客所需的信息,例如地图,地址,地点,目的地和车站的信息。 而且,由于车辆被认为用作雾节点,因此需要激励车辆所有者同意加入车辆网络。

B.关键任务应用(与生命安全相关的应用)

车辆网络正在迅速发展,并且道路上的车辆每天都在增加,这导致了交通拥堵并使驾驶越来越复杂。 随着道路上车辆数量的增加,事故数量也增加了,这使人类生命处于危险之中。因此,诸如自动驾驶和道路安全信息之类的关键任务应用需要一种有助于显着减少这些问题并考虑到人身安全的方法,这是我们关注的问题。

随着Cellular V2X(C-V2X)的诞生[33],第五代(5G)系统中的URLLC对于任务关键型应用(例如自动驾驶和道路安全)最有效,并且能够避免事故的发生、预防能力。 因此,最好考虑将分布式MARL超可靠性低延迟通信用于协作式自主驾驶,其中可以在本地进行学习和决策,以减少往返于云或RSU的延迟。

增强车辆网络中的URLLC是研究人员的重要方向之一。诸如汽车网络安全之类的关键任务应用需要研究人员给予更多关注,以提高整体网络效率,例如超可靠性,低延迟和更高的吞吐量。 彼此之间的超可靠性和低延迟效应使得难以减少等待时间并提高可靠性。 因此,URLLC是一种方法,其中考虑了分布式MARL,如图3所示,其中延迟分布在其中,学习和决策在本地进行。 这导致更低的等待时间和更高的可靠性。 分布式学习方法减少了信道争用,在这种情况下可以应用此方法来改善安全警告消息的定位和广播。 本地分布式学习可减少将数据上传到RSU或云。 超可靠和低延迟需要分别研究,因为这都会影响每个其他因素

图3.分布式MARL增强可靠性会导致延迟增加。 而且,减少等待时间会影响可靠性。

1)超低延迟:较低延迟等功能可通过减少延迟以确保警告消息更快地到达邻居车辆来挽救数条生命,并有助于启用事故预防功能,并且被视为5G的重要功能 。 通常,每个应用程序都需要特定级别的延迟要求。 例如,安全应用比非安全应用需要更高的优先级。 因此,有必要研究等待时间。

2)超高可靠性:另一个特性是高可靠性,可确保相邻车辆正确接收数据,还有助于启用事故预防功能,并且它也被视为5G的重要特性。 通常,每个应用程序都需要特定级别的可靠性。 安全应用程序中的可靠性需要高于非安全应用程序。

C.挑战

在实施多主体模型期间,研究人员可能面临的挑战之一是寻找合适的软件来实现其模型。 另外,寻找或收集用于训练MARL模型的数据集似乎是另一个挑战。 此外,分散学习和与多个异构主体的交易也被视为挑战,值得研究。 [37]。 车载网络中的安全性,信任,隐私和安全性是重要的挑战,需要考虑[38]。 另外,交通流的预测考虑了避免交通拥堵的挑战性任务。 高机动性,车辆位置以及车辆数量使在车载网络中处理MARL变得更加复杂。

V CONCLUSIONS

在本文中,我们概述了有关车载网络的最新研究,并确定了可能导致的问题。用MARL解决了。 将MARL的优势与车载网络相结合,可使智能代理采取有效措施并在共享环境中表现良好。 利用分布式设计,还可以使用来自其他代理或环境的部分可观察信息在本地进行决策,从而提高车载网络针对各种应用需求的性能。 诸如数据卸载,缓存放置,URLLC和高移动性等主题的解决方案仍然是未解决的问题。

上一篇:JSP原理


下一篇:JSP原理剖析