RPA机器人运行的稳定性

很多用户在初期应用RPA之时,都会遇到RPA运行稳定性的挑战。为什么经过UAT测试之后,机器人在真正的生产环境下还会出现许多异常和问题?这是RPA自身的技术特性造成的。RPA不稳定的原因主要包括以下几点。

第一,生产环境和开发测试环境的差异性可能会造成异常出现。而且这些差异是非常细小的,也是经常容易被忽略的,比如操作系统或浏览器的版本、某个补丁插件是否安装、网络里的某种限制等。

第二,虽然之前在测试阶段测试人员已经尽量模拟了各种业务情况,但测试样本数据和真实业务数据之间的差异性仍旧是不能避免的。

第三,基于UAT测试人员和真正办理业务的一线人员之间业务知识的差异性,也可能导致一些测试过程中没有被发现的问题在生产环境中出现。

传统应用系统上线时出现这些问题,可以要求前台业务人员手工操作来弥补。而RPA就是在解决手工操作的问题,对于RPA来说已经变得没有退路了。所以,我们应当从设计方法、认知态度、业务和技术上的管理手段、超级关怀(Hypercare)方面来解决RPA机器人运行稳定性的问题。

1.设计方法

为了保证RPA机器人的稳定运行,设计人员在RPA设计时需要重点考虑两方面的内容,即异常处理和日志记录。

在自动化流程运行中,异常情况主要包括三类:业务异常、应用异常和机器人异常。

(1)业务异常

业务办理过程中可能存在一些数据异常或者超越既定业务规则的情况。通常,业务人员需要采用特别的手段进行处理。在RPA中,通常采用拟定新的业务解决方案或流程规则判断、分支条件以及人机交互(将错误的数据交给人类员工处理,机器人只处理正常的数据)的方式来解决。

(2)应用异常

例如,RPA运行时会出现某个应用程序中断、网站的某个页面打不开、应用出现异常报错的情况,而在设计中设计人员通常很难预测到这类异常。所以,设计人员需要在RPA程序中引入错误捕捉和处理机制。例如,Error Handling或Try Catch,即通过错误捕捉技术抓取自动化程序中的运行错误,做一些特殊处理,而不中断RPA机器人的运行。这些处理手段包括截取界面的错误信息、触发某种补偿任务、发送邮件通知相关人、记录错误日志等。

(3)机器人异常

例如,RPA平台中的某个机器人运行错误,导致自动化处理流程中断。那么,我们可以采用负载均衡和机器人动态控制机制,将自动化任务分配给其他没有问题的机器人来处理。即便整个RPA平台出现了问题,我们也可以通过高可用(High Availability,HA)和灾备(Disaster Recovery,DR)机制来解决这类异常问题。

记录机器人运行的日志信息是非常有必要的。运维人员可以根据之前记录的日志信息分析出导致异常现象出现的原因。技术人员也可以根据日志信息快速定位到自动化程序中的Bug,通过修改自动化程序,增加分支处理流程,增加异常处理手段,不断增强自动化流程的稳定性。在自动化流程运行中,通常需要记录三类日志信息:正常的执行过程记录、警告信息、错误信息。

·正常执行过程的日志记录信息通常用于后续的合规和审计处理,以及对机器人处理过程的追踪和监控。

·警告日志信息可以尽早为RPA运维人员提示运行风险,使运维团队及时采取适当的手段避免异常发生。

·错误日志信息描述了自动化流程运行中已经发生的问题。机器人运维人员可通过监控系统捕获这些异常,并及时修复和处理这些异常情况。

2.认知态度

虽然机器人初期运行时会遇到种种问题,但业务用户需要有一定的同理心去理解这种现象,就像一个新员工刚刚入职接受一份新的工作时,总会有些磕磕绊绊,手忙脚乱的现象也是正常的。但是,经过一段时间的学习之后(对于问题的修复),新员工就会随着经验的积累(自动化程序的健壮性)逐步减少工作中的错误。

3.管理手段

在技术上,机器人运行稳定性的提升和改进也是RPA运维团队的重要职责之一。如同员工不断优化自己的操作处理方式,不断改进与上下游的协作关系一样,机器人也需要不断优化运行周期、触发动作、与人的协作方式等。

在业务上,就像一个业务主管对手下人类员工进行监督一样,业务主管也需要对机器人处理的业务信息进行监控,如是否有超规格的业务数据出现、业务流量的突增或突减等。以前如果出现这些情况,员工可以及时报告自己的领导,但如今机器人需要实时地展现并反映这些问题,提交给运维人员,经修复处理达到某一预设的业务规则后,及时反馈给业务主管。反过来,业务主管也应当及时发现机器人运行中的问题,上报给运维人员或者是调整业务处理策略。

4.超级关怀(Hypercare)

保障RPA稳定运行的一项重要工作就是Hypercare。Hypercare通常是在RPA上线后的1到6个月有效,可依据机器人执行任务的频率缩短或延长。Hypercare的目的是保障机器人的稳定运行,提高业务用户的满意度,避免由于RPA运行初期的稳定性问题给业务部门带来负面情绪。初期的Hypercare团队基本上是来自于RPA的实施团队,他们对这些上线的业务流程和实施过程最为了解,由他们来提供即时技术支持,可以确保RPA流程在初期的稳定运行。

一旦RPA的部署上线完成,运维团队就应根据业务和IT的项目成功目标,以及预定义的Hypercare退出标准,来编制Hypercare的执行计划,其中包括检查周期、检查方式、检查清单、信息仪表盘、错误修复流程指南、快速部署上线流程等内容,如图5-7所示。相当于在进入常规的运维状态前,对新上线的自动化流程的一种特殊关怀。

RPA机器人运行的稳定性

 

 

 

图5-7 Hypercare执行计划

 RPA机器人运行的稳定性

 

上一篇:1.5 RPA的核心产品功能


下一篇:RPA机器人运行效率管理