【RL-CC】Reinforcement learning-based neural network congestion controller for ATM network

ID: 001


作者:A.A. Tarraf, I.W. Habib, T.N. Saadawi

e-mail : tarraf@fuwutai.att.com


机构:Electrical Engineering Department, The City College of New York

纽约市立大学,电气工程系


发表会议:IEEE Proceedings of MILCOM, 1995

MILCOM, Military Communications Conference
无线通信会议(会议介绍相关的一篇博文算是A类吧?


标题:应用于ATM网络的基于强化学习神经网络的拥塞控制器

ATM, Asynchronous transfer mode,异步传输模式,在LAN或WAN上传输数据的宽带技术(类似于数据包是货物,ATM是传输的公路,特点是公路比较宽,传输速度快,但技术复杂且价格昂贵,5G使用的两种公路之一。)


算法:AC

AC, actor critic
policy-based与value-based合并
actor——policy gradient基于概率选择action,critic——value-based根据actor做出的action给出得分,actor——根据critic的得分修改选择action的概率。
policy:某种看到什么state采取什么action的策略,用π表示。
policy gradient:使用梯度下降法,逼近想要的policy(用reward评定策略好坏)


场景:ATM networks


states: Taped delay-value of the number of the cells, and taped delay values of the feedback control signal. 语音信元的延迟值和反馈控制信号的延迟值。

actions: The coding rate. 编码率

rewards: The input multiplexer buffer overflow, and the level of the coding rate of the input source. 输入多路复用器缓冲区溢出,以及输入源编码率的高低


pros: Can be a preventive CC, and the statistical multiplexing gain is enhanced. 可作为预防性拥塞控制,增强统计复用增益。
cons: Limited state space and performance metrics. 有限的状态空间和性能指标。


survey: ATM是适合部署RL-based CC算法的典型网络。ATM网络是支持多媒体应用的经典网络。对于不同的多媒体流量,ATM有不同的QoS,例如cell loss rate(CLR)和delay。

QoS: 服务质量
cell loss rate(CLR): 信元丢失率,服务质量的一个参数,ATM信元标题的一个域,分析ATM网络中流量控制问题的基础和关键。丢失信元和成功传输信元的比率。例如,CLR高则语言和多媒体视频效果差。
信元:ATM(高速分组交换技术)的数据传输单元,可以看成一个货物。

然而,在ATM,高度时变的流量模式增大了网络流量的不确定性。并且,在ATM,最小信元传输时间和低缓存大小需要高适应性和高响应性的CC算法。此文中,基于AC算法来解决这些问题。在提出的 CC 算法中,AC 侧重于基于 CLR 和语音质量的性能函数。在每步中,算法根据性能评估action。以这种方式,不同的流量模式连接对应actions。仿真结果表明,信元丢失率降低并且语音质量保持不变。对比ATM中基于十分准确的数学模型的传统最优控制算法,此算法可以理解网络条件的动态性,从而同时最小化CLR、最大化编码率。并且,由于算法是用于网络的输入访问节点(input access node),因此算法的速度不受传输时延的限制,所有控制行为都会及时避免潜在用拥塞。并且,由于多路复用器可以支持更多的资源,因此增强了统计复用增益。但,这种算法的限制是算法相对简化。状态空间和反馈只考虑了要优化的参数,没有考虑其他参数(例如流量特征),因此不适用于复杂环境。


上一篇:关于pta题目集7~9总结


下一篇:BZOJ3668: [Noi2014]起床困难综合症(贪心 二进制)