industry_robot论文笔记
《Resouce Allocation and Service Provisioning in Multi-Agent Robotics: A Comprehensive Survey》——
《在多智能体机器人上的资源分配与服务提供:一份综合性的调查》
这篇综述与今年二月的IEEE Communications Surveys & Tutorials的一篇early access article。
1、相关术语介绍
(1)多智能体系统:一种分布式计算技术,由一个在环境一系列相互作用的智能体组成的计算系统。
(2)CPS(cyber-physical system):信息物理系统,是一个综合计算、网络和物理环境的多维复杂系统,通过3C(computing、communication、control)技术的有机融合与深度协作,实现大型工程系统的实时感知、动态控制和信息服务。该系统主要应用于智能制造领域。使得有限的人员参与,降低成本和更高的性能,基本要素是机器人。
(3)工业4.0:第四次工业革命,借助IoT(物联网)、大数据分析以及云计算帮助工业制造数字化.
(4)ZigBee:紫蜂,是一种低速短距离传输的无线上网协议。类似的无线传输协议还有:bluetooth、WiFi等。
(5)Tethering:用户可以将手机连接他们的笔记本电脑作为3G调制解调器使用;允许手机使用通过笔记本电脑获得的3G容量。
(6)DAG有向无环图(任意一条边有方向且不存在环路的图)。在一个流程系统中,任务加往往存在复杂的依赖关系,为保证pipeline(多任务组成的流水线)的正确执行,就要解决任务间依赖的问题。DAG+拓扑排序就是解决存在依赖关系一类问题的利器。
把依赖关系的问题建模成DAG,依赖关系成为图中的有向边,然后通过拓扑排序不断遍历和删除没有父结点的结点,可以达到快速解决依赖的目的。
(7)Bag-of-Tasks:网上对这个术语的解释很少,大多都是关于Bag-of-Words,大概是一个调度机制,在网格计算、异构平台上均有很大的帮助。
(8)虚拟资源池:是指把服务器、存储、网络都做成一个虚拟的资源池,应用软件需要的资源可以在资源池里抓取,这样能够提高企业的资源利用率。虚拟资源池作为实现融合基础设施结构的关键要素,是共享服务器、存储和网络的集合,能够根据应用程序的需要,更快地进行重新配置,从而使管理员能够比以往更容易、更快捷地支持业务需求的变换。建立资源池的方法有资源发现以及资源扩展,后面将会一一介绍。
(9)博弈论(Game Theory):经济学中的著名理论。指的是在信息不对称的情况下,根据对手可能作出的决策而作出决策。(经典案例:囚徒困境)。
(10)Stackelberg(主从博弈):非对称博弈的一种。在主从博弈当中,领导者具有领导优势,能够在博弈中占据先机或有利位置,跟随着必须跟在领导者之后做出博弈。是一个两阶段的完全信息动态博弈,博弈的time使序贯的。双方都是根据对方可能的策略来选择自己的策略,以保证自己在对方策略下的利益最大化。
(11)马尔可夫决策过程:是一个序贯决策的数学模型。用于在系统状态具有马尔可夫性质的环境中,模拟智能体可实现的随机性策略与回报。智能体感知系统当前的状态,根据策略对环境实施一定的动作,从而改变环境的状态获得一定的奖励,奖励随时间的累积成为"回报"。
(12)马尔可夫性质:是概率论中的一个概念。随机过程在给定当前状态以及所有过去状态的情况下,未来状态的概率分布仅依赖于当前状态。
(11)机器学习的方法:主要有四大类(监督学习、非监督学习、半监督学习、强化学习)。除强化学习外,其他的机器学习方法都需要静态的数据,不需要与环境交互,数据输入到相关函数训练就行。而对于强化学习,简单来说,就是根据当前的条件做出决策和动作,以达到某一预期目标,如机器人下棋,无人驾驶。通常使用马尔可夫决策过程(MDP)描述。其特点主要体现在:无特定数据,只有奖励函数反馈的奖励信号;奖励信号不一定实时;主要研究时间序列的数据,而不是独立同分布的数据;当前行为影响后续数据。