通过对《Understanding AWS Lambda Performance—How Much Do Cold Starts Really Matter?》、《Serverless:Cold Start War》等文章分析不难看出,不仅仅不同厂商对于冷启动的优化程度是不同的,同一厂商对不同运行时的冷启动优化、也是不同的;这也充分说明,尽管各个厂商也在通过一些规则和策略努力降低冷启动率,但是由于冷启动的影响因素是复杂的,存在即多不可控因素,所以至今也没办法做到一致性,甚至同一厂商都没办法在不同运行时实现同样的优化成果。除此之外文章《Understanding Serverless Cold Start》,《Everything you need to know about cold starts in AWS Lambda》,《Keeping Functions Warm》,《I'm afraid you're thinking about AWS Lambda cold starts all wrong》等也均对冷启动现象等进行描述和深入的探讨,并且提出了一些业务侧应对函数冷启动的解决方案和策略。
如图1.31所示,通常情况下,冷启动的解决方案包括几个部分:实例的复用,实例的预热以及资源池化。
实例复用方案
从资源复用层面来说,对实例的复用相对来说是比较重要的,一个实例并不是在触发完成之后就结束其生命周期,而是会继续保留一段时间,当在这段时间内如果函数再次被触发,那么可以优先分配该实例来完成相应的触发请求,在这种情况下可以认为函数的所有资源是准备妥当的,只需要再执行对应的方法即可,所以实例复用是大多数厂商都会采取的一个降低冷启动率的措施;在实例资源复用的方案中,实例静默状态下要被保留多久,是一个成本话题,也是厂商不断探索的话题之一,因为如果保留时间过短会导致请求出现较为严重的冷启动问题,影响用户体验,如果实例长期不被释放则很难被合理地利用起来,会大幅度提高平台整体成本。
实例预热方案
在预热层面来讲,解决函数冷启动问题可以通过某些手段判断用户的函数在下一个时间段可能需要多少实例,并且进行实例资源的提前准备;函数预热的方案是大部分云厂商所重视并不断深入探索的方向,常见的预热方案有几种:
被动预热通常指的是非用户主动行为预热,是系统自动预热函数的行为。这一部分主要包括了规则预热、算法预热以及混合预热;所谓的规则预热是指设定一个实例数量范围(例如每个函数同一时间点最低0个实例,最多300个实例),然后通过一个或几个比例关系进行函数下一时间段的实例数量的扩缩,例如设定某个比例为1.3倍,当前实例数量为110,实际活跃实例数量为100,那么实际活跃数量*所设定的比例的结果为130个实例,与当前实际存在时110个实例相比是需要额外扩容20个实例,那么系统就会自动将实例数量从110个提升到130个;这种做法在实例数量较多的和较少的情况下会出现阔缩数量过大或过小的问题(所以有部分厂商引入不同实例范围内采用不同的比例来解决这个问题),在流量波动较频繁且波峰波谷相差较大的时候该方案会出现预热滞后的问题;算法预热实际上是根据函数之间的关系、函数的历史特征进行,通过深度学习等算法,进行下一时间段的实例的扩缩操作,但是在实际生产过程中,环境是非常复杂的,对流量进行一个较为精确的预测是非常困难的,所以算法预测的方案是很多人在探索,但却迟迟没有落地的一个重要原因;还有一种方案是混合预热,即将规则预热与算法预热进行一个权重划分,共同预测下一时间段的实例数量,并提前决定扩缩行为,以及扩缩数量等;
主动预热通常指的是用户主动进行预热的行为,由于被动预热在复杂环境下的不准确性,所以很多云厂商提供了用户手动预留的能力,目前来说主要分为简单配置和指标配置两种,所谓的简单配置就是设定预留的实例数量,或者某个时间范围内的预留实例数量,所预留的实例将会一直保持存活状态,不会被释放掉;还有另一种是指标配置,即在简单配置基础上,可以增加一些指标,例如当前预留的空闲容器数量小于某个值时进行某个规律的扩容,反之进行某个规律的缩容等;通常情况下用户主动预留模式比较适用于有计划的活动,例如某平台在双十一期间要进行促销活动,那么可以设定双十一期间的预留资源以保证高并发下系统良好的稳定性和优秀的响应速度;通常情况下主动预留可能会产生额外的费用;
混合预热,即将被动预热和主动预热按照一个权重关系进行结合;当用户配置了主动预热优先主动预热规则,辅助被动预热规则;如果用户没有配置主动预热规则,则使用默认的被动预热规则;
资源池化方案
最后一种解决冷启动问题的方法是资源池化,但是通常情况下这种所谓的资源池化带来的效果可能不是热启动,可能是温启动,所谓的温启动就是说实例所需要的相关资源是已经被提前准备了,但是并没有完全准备的情况。所谓的池化就是在实例从零到一的过程中的任何一步,进行一些预留准备:
例如,底层资源准备层面,可以提前准备一些底层资源作为池化;在进行运行时准备的层面,也可以准备一些运行时资源作为池化资源;如果可以精确到用户代码层面,也可以在一些实例中,在加载用户代码(业务逻辑)等资源层面作为池化;池化的好处是,可以将实例启动的链路,例如运行时层面的池化,可以避免底层资源准备时产生的时间消耗,让启动速度更快,同时池化也可以更加灵活的面对更多情况,例如在运行时层面的池化,可以将池化的实例分配给不同的函数,不同函数被触发的时候,可以优先使用池化资源,达到更快启动速度;当然池化也是一门学问,例如池化的资源规格,运行时的种类,以及池化的数量,资源的分配和调度等。
通常情况下,在冷启动的过程中,比较耗时的环节包括网络资源的打通(很多函数平台都是函数容器里绑定弹性网卡去访问开发者其他的资源,这个网络的部署需要秒的级别),实例的底层资源的准备过程,以及运行时等准备。