2018 年,随着国外 RPA 厂商的崛起,投资者看到 RPA 与 AI 结合的巨大潜力,RPA 赛道迅速成为投资热点,中国也涌现出一批 RPA 创业公司,投资者、创业者纷纷入局。四年过去了,中国市场的 RPA 产品与 AI 技术结合的效果究竟如何?AI 技术对 RPA 产品升级换代有何贡献?机器之心联合多名业内资深技术专家共同完成业内 RPA 产品的首次深度评测。
RPA,全称机器人流程自动化技术。该技术可按照事先设定的流程,控制计算机完成鼠标点击、数据处理、跨软件操作等任务,已广泛应用于金融、电商、运营商、政务、物流、制造等众多行业领域,在财务、税务、人力、内审、法务、风控、客服、运营、IT 等劳动密集型场景取得了非常好的降本增效成果。据 IDC(国际数据公司)统计预测,2018-2023 年全球 RPA 市场规模将持续上涨, 2023 年达到 39 亿美元。而中国 RPA 市场规模则将以 64% 的年复合增长率扩张至 10.2 亿美元。
随着以深度学习为代表的新一轮 AI 技术升级并在越来越多领域内取得突破,RPA 通过结合自然语言处理、计算机视觉(cv) 等智能算法,在执行任务的复杂度、覆盖应用场景的广度也相应提升。
业内普遍认为,随着 AI 以及 SaaS 平台、大数据、物联网等技术的进一步发展,RPA 将从独立实现转向更广泛的嵌入数字流程模型。RPA+AI 的智能流程自动化被认为在下一个阶段将取代传统的业务流程外包,成为新型的业务流程外包形式。
2018 年,随着国外 RPA 厂商的崛起,投资者看到 RPA 与 AI 结合的巨大潜力,RPA 赛道迅速成为投资热点,中国也涌现出一批 RPA 创业公司,投资者、创业者纷纷入局。四年过去了,中国市场的 RPA 产品与 AI 技术结合的效果究竟如何?AI 技术对 RPA 产品升级换代有何贡献?
通过与众多业内专家的访谈及各行业 RPA 用户的深入交流,机器之心了解到,衡量一款 RPA 产品不可或缺的核心能力,主要通过元素拾取(控制软件的能力)、稳定性、执行效率等。这是客户真正关注、看重并愿意为之付费的判断准则。
然而我们发现,大部分厂商对自身产品与 AI 融合的效果描述主要围绕 “AI 概念” 组件数量、“支持场景”数量等相对表面的维度,缺少 AI 技术对 RPA 产品核心三要素的影响情况陈述。这样的描述没有严格的数据支撑,亦无法解答机器之心项目组试图探索的灵魂问题 ——
RPA 厂商在采用 AI 技术后,其产品的核心能力是否得到了提升?
在寻找问题答案的过程中,机器之心项目组与实在智能的技术团队就当前遇到的障碍进行了深度交流后,决定邀请实在智能技术团队的技术专家帮助机器之心项目组对当下主流 RPA 厂商的社区版产品完成一次基于实测实验的研究,探索 RPA 产品在采用 AI 技术后其界面控制力、执行效率、稳定性等传统核心能力维度提升的情况,并结合测试结果形成《中国市场 RPA 产品 AI 技术融合情况测试报告》。
评测小组通过专家访谈,行业追踪等方法,汇总多方反馈,围绕界面控制要 “准”、流程执行效率要 “强”、任务遂行能力要 “快”、 这三个最能体现 RPA 产品服务客户的价值目标,得到以下评价方案,并基于该方案进一步设计了一套基于 RPA 用户使用需求的 18 个常见软件,10 个常见业务流程的测试方案,并在 windows10 系统环境下进行了首轮测试。
筛选评测对象
基于目前市场公开渠道中开放社区版本的 RPA 产品。我们取同一时期的软件版本,下载安装了五家主流厂商官网提供的社区版 RPA,历时月余,开发了相应的流程评测脚本(注:由于有些厂商未开放社区版或中途取消了试用功能,未加入最终评测)。
为公平起见,评测小组从软件库中筛选出最常用 100 款 windows 办公软件,随机抽取其中 18 款作为测试目标,针对所有厂商实现了一套包含近 700 个元素的识别控制、10 种常见业务流程任务的测试方案,在相同的 win10 系统环境下开展首轮测试。
表:18 个常见软件及运行环境
表:10 个常见业务流程及运行环境
计算指标权重
指标权重是指某一因素或指标相对于事物的重要程度。我们重点关注评价指标 “元素拾取成功率”、“流程执行完成率”、“流程运行速度” 对 RPA 产品的影响。采用定性方法进行指标权重赋值,往往说服力较差。基于定量和定性角度出发,评测小组采用层次分析法进行指标权重的计算。该方法作为网络系统理论和多目标综合评价方法,主要应对一些较为复杂模糊的问题作出决策,特别适用于那些难以完全定量分析的问题。基本操作流程:首先建立结构模型(如下图所示),然后构造判断矩阵,对判断矩阵进行一致性检验,最终确定各个指标对 RPA 产品的权重 w1、w2、w3。
评测小组基于层次分析法,构造判断矩阵并通过一致性检验,求解出三个核心指标的权重分别为 w1=0.431,w2=0.325,w3=0.244。
评测过程及结果
评测小组在相同控制变量(运行环境、软件界面、流程任务、拾取方式等)下,进行两种模式的对比实验,即传统模式(或称普通模式)和智能模式。传统模式,指完全采用普通元素拾取的方式进行流程编辑和运行;智能模式,指在普通元素拾取基础上融入 CV 技术的智能拾取方式。
本次实验运行流程脚本总计 10 万余次,详细记录流程运行日志并保存到数据库。在剔除因运行环境、外界干扰等造成的异常数据后,对 5 家厂商的社区版 RPA 产品,基于三个维度所设定的统一指标进行数据分析。具体分析方法及相应结论如下 ——
一、界面控制能力
方法
通过指标 “元素拾取成功率” 评价“界面控制能力”。参与拾取元素测试图标 684 个;对传统模式下的元素拾取和融入 CV 技术后的拾取方式进行分别测试;人工进行元素拾取后保存元素库;开发拾取流程包,执行元素点击流程,记录是否成功、运行时间、系统参数等日志并存入数据库,剔除异常数据。元素拾取成功率评分 = 拾取元素成功个数 / 总元素个数 * 100,计算该项得分。
考虑不同环境下各厂商产品存在设计组件的差异,在评测时,采用完全相同的流程包设计框架且设置相同的延时时间。
得分
特别说明:测评过程中,单项及综合得分排名第一的产品为实在 PRA。经项目组与厂商确认,对方同意在报告中具名。报告中涉及的其他产品仅收录测试数据,名称暂时隐去。
结论
在被测软件领域随机的模式下,各厂商的传统模式拾取能力得分普遍不高,AI 能力对元素拾取提升贡献突出。
解析
在被测软件领域随机的模式下,各厂商的传统模式拾取能力普遍不高,海外厂商受影响更大,显然主要通过 windows 底层能力实现拾取的厂商在跨领域软件控制上受到了很大的限制。
传统拾取模式下,若某款软件底层架构无法解析,其元素即无法拾取,因此也无法完成最基础的组件功能。
智能模式下,拾取效果显著提升(平均提升近一倍),说明传统 RPA 厂商和具备 AI 能力的厂商在这一项上的差异巨大!评测小组在测试过程中发现,虽然智能模式对 RPA 产品的拾取能力提升巨大,但是在细粒度小目标的精准识别上,如在拾取百度网盘、企微、千牛等软件元素时,偶有发生黏连、识别不到的情况,也有元素框选取不够准确的现象,显示各 RPA 厂商在 AI 能力上也有显著差异,本项测试评分最高的是实在智能的实在 PRA,在小目标识别的准确度、识别速度和使用便捷性上都让人感觉眼前一亮,该产品的拾取将 CV 识别和普通识别进行整合,直接在 CPU 环境中运行,可以自动切换模式,对用户无感,默认智能拾取方式,同时也提供了普通拾取模式,这大大减少了评测小组构建测试流程包需要在普通模式和 CV 模式之间来回切换构建流程的时间,也让小编少受了不少折磨。
作为 RPA 产品的核心能力,主流 RPA 产品元素拾取能力,通过结合 CV 算法,一定程度上弥补了软件品类的限制,基本都达到商业可用的程度,体现了 AI 技术特别是底层模型构建和服务能力对 RPA 产品的重要贡献。随着 AI 技术的不断发展以及在 RPA 产品上的应用,未来 RPA 产品的核心竞争力,AI 能力必然是重要因素。
二、任务完成能力
方法
通过指标 “流程执行完成率” 评价“任务完成能力”。无报错运行一个任务流程包至结束视为成功一次,统计成功次数占比,数据归一化转为百分制,计算该项得分。由于不同厂商产品存在设计组件的差异,评测时采用完全相同的流程包设计框架,保持拾取方式一致,且设置相同的延时时间。
(1)设计 10 个场景任务流程包;对于完全采用传统拾取模式可执行的任务,单独统计。(2)间歇性循环执行流程包任务将是否成功、运行时间、系统参数等存入数据库。(3)评分公式:完成率 x = 成功运行流程数 / 流程运行总数,归一化采用最简洁的离差标准化即线性变换,映射至区间[80, 100],分值映射公式为:y=80+(x-min)/(max-min)*20,其中 min=0.68,max=1.00,为归一化后数据边界最值,截取两位小数。由于传统拾取模式下只能完成全部流程任务的 70%,为保证评分客观性,传统模式下采用完成率 x 乘以系数 0.7 的方式计算。
得分
结论
传统模式下,各厂商的任务完成能力无显著差异,且各厂商的任务完成能力普遍不高,但是智能模式与传统模式相比对任务完成能力提升明显。
解析
本评测模块,重点考察同环境下设定任务的完成能力。传统的拾取模式限制下,各家产品都存在一定的软件局限,某款软件元素不能识别,会直接导致流程无法操作,任务场景受限,失败率较高。
智能模式的 RPA 产品流程包,在无干扰 windows 系统环境下表现出色,任务完成能力评分均超过 98 分,平均提升 23.1%。本项稳定性测试表明,E 厂作为老牌海外 RPA 厂商,其产品运行流程非常稳健。值得指出的是,本项指标看上去差异不大,但是在流程运行的绝对数量大幅提升和部署机器人数量巨大的情况下,各个厂商的服务和维护成本会体现出来巨大的差异。
任务完成能力,是客户对产品的最基本要求,也是机器人产品能力的核心体现之一。一方面,由于服务成本、流程失败等对客户影响较大,直接影响客户的采购和续费,从本项测试可见融入 AI 技术, 以及通过各种智能化手段提升 RPA 机器人运行的任务完成能力和稳定性是必然趋势,也对 RPA 厂商的 AI 能力提出更高要求。
本次评测采用干净完善无干扰的良好系统环境,得出的结果令人满意,大部分厂商表现良好,但在复杂噪音多系统下的任务遂行能力,还需进一步深度测试。
三、软件运行效率
方法
通过指标 “流程运行速度” 评价 “软件运行效率”。取前项实验数据,在流程包运行成功的前提下,统计单一流程包效率,累加后,经数据归一化转为百分制,计算该项得分。对每个产品,设第 i 个流程包用时 t_i 秒,成功数量 m_i 次,其运行效率值为 x=∑_(i=1)^10m_i/t_i 。归一化仍采用线性变换,映射至区间[80, 100] 分值,分值映射公式为:y=80+(x-min)/(max-min)*20,其中 max = 0.07,min = 0.04 为归一化后数据边界最值,截取两位小数。
得分
结论
流程包在智能模式下运行,流程执行效率均略有下降。
解析
传统模式下流程运行,各家表现中规中矩;出现差异的重要原因在于智能模式下元素拾取的流程耗时差异。智能拾取的接入,对流程运行速度产生了一定影响,有平均 8% 的下降幅度。
不过我们在本次评测报告撰稿期间,发现实在智能发布了 6.0.0 最新版本,其中的融合拾取,体验下来拾取速度提升达 100%,其速度接近原生拾取,很遗憾由于评测工作量过于巨大及采样时间已经确定,新的版本不能加入本次评测,实在 PRA 在本项评测的表现依然可圈可点。
RPA 的目标是辅助人类完成重复性劳动,未来的发展方向也必然是眼(拾取)手(执行)协调的进化。降本增效的刚需下必然对 RPA 机器人的执行速度有更高的要求,能用更少的机器人完成相同的工作,这直接关系到用户的成本。开发者对产品交互的反应速度要求,客户对执行速度的需求,使得轻量化 AI 模型成为大势所趋。用户普遍对更高效快捷的 RPA 产品充满期待。
四、综合能力评价
方法
上述三个核心指标加权求和,权重来源于前述层次分析法。
得分
结论
AI 技术加持,使得 RPA 软件在拾取精度、拾取能力、稳定性上有明显的提升,AI 自研能力强的厂商更占优势。
解析
通过三大核心指标直观比较,虽然融入智能技术导致流程的执行效率略有降低,但由于其他两个指标的大幅提升,总体 RPA 软件在工业场景上应用的可行性得到显著提升。相比传统模式的 RPA 产品,智能模式下综合评分平均提高近 23 分。从任务完成度 70% 这个数据看,任务场景的严苛限制,已经使得客户无法接受单纯传统模式的 RPA 产品。
从访谈反馈、操作体验、评测数据细节等综合来看,各家产品在功能、体验、面向客户等方面均有不同的特征体现,但在三大核心维度评测数据上,实在智能的实在 RPA 表现出众,由此我们认为 AI 实力雄厚且勇于创新的头部厂商更具商业化竞争力和产业化持久力,其“开创性的融合拾取技术、轻量化算法模型、加持 AI 能力的产品体验”,是本次评测独占鳌头的主要原因。当然,本测试为体现公平性及考察 RPA 软件的普适能力,采用随机选取软件的方式,可能会对部分专注某些领域内的 RPA 厂商的评测效果有所影响,比如海外厂商 E 厂的原生拾取由于受到部分国产软件无法拾取的影响,在普通拾取方面表现一般。
表:评测数据总表
本次评测结果令人欣喜。从评测结果可见,AI 与 RPA 技术的 “融合” 效果得到显著的体现,这与外界普遍认为的 AI+RPA 不同,二者产生了显性的化学反应。经专家分析,本次评测中实在 RPA 表现出众,优势在于强大的 AI 能力和技术创新,其首次提出并实现的融合拾取技术值得肯定。我们认为 AI 在 RPA 领域内的应用已经看到明显效果,并且未来会在众多垂直行业产生深刻的改变。
通过评测我们看到,软件的界面控制能力是甄别 RPA 产品最重要的评价指标,也是各 RPA 厂商比拼的核心要素之一,传统 RPA 产品通过底层技术(windows 底层控制 com)的方式识别和控制软件可操作的元素,受软件版本、技术组合、操作系统版本、系统接口差异等众多因素影响,拾取能力面临几乎无穷尽的问题需要解决,这明显是 RPA 行业的天花板之一。AI 技术的融入为 RPA 拓宽能力边界,为用户创造了 “凡是元素皆可拾取、没有软件不能操作” 的美好愿景。
欣喜同时,我们更有理由展望,RPA 与 AI 技术深度融合,向 IPA 发展是必然趋势,也是产业发展的良好方向。相信不久的将来,业内这些具有强大 AI 技术和创新能力的 RPA 厂商,会给我们带来更多更大的惊喜。
下一步工作
当前主流 RPA 产品都有较快的版本迭代,个别厂商甚至达到每周一次小迭代,每月一次大迭代的快速步伐,产品功能、体验、创新上都有大幅度甚至焕然一新的提升;评测小组选取的是同时期各家厂商社区版产品进行评测,考虑到流程包兼容性、运行环境更替等,本次评测未进行版本更换。
未来,评测小组将继续跟进主流 RPA 产品的更新迭代,通过深入调研渠道客户、社区开发者、相关厂商等,增进理解客户的真实需求,对核心维度进行拓展性的专项深度评测,例如针对复杂极端多样环境、专业小众软件操作、新旧版本、更多场景任务等的能力评价。
此外,评测小组也在进一步筹备评测流程包及测试数据集的开源、开放事宜。作为 RPA 产品的首次深度评测,希望起到抛砖引玉的作用,在此,我们也邀请更多业内人士参与进来,构建并开放 AI 能力测试数据集, 推动 RPA 厂商包括社区爱好者参与到 AI 能力打榜,充分发挥 AI 技术贡献,共同推动 AI 能力与 RPA 产品融合,促进 RPA 产业在良性竞争中健康发展。
评测结论仅代表本次评测环境下的结果体现。
致谢:
本次调研由实在智能提供技术支持和咨询,特此致谢。