2.3 TCO最优
在满足业务性能要求的前提下,如何做到总体TCO最优,包括CapEx和 OpEx总体最优,是业务关注的核心问题。TCO最优不仅要考虑产品本身的CapEx 和OpEx,还要考虑业务产品的市场竞争力,能够将业界最先进的产品和技术快速应用于上层业务中,充分挖掘技术红利。
因此,对最终用户来说,如何提供满足业务需要的计算、存储解决方案是非常大的挑战。我们需要能够根据不同业务特点,提供最适合业务诉求的解决方案,不仅包括计算、存储、网络等,也包含实现方式,是选择自建数据中心,还是选择混合云部署,或是完全放在公共云上。
从全世界范围内云计算的实践来讲,公共云已经深入人心,并在切实地推动各个行业的数字化转型。公共云是一种商业,更是一种基础设施的资源,客户从公共云厂商买的不是设备,不是机房,而是 IT能力,让更专业的云服务商来做基础计算、运营维护的工作。
从财务的角度来看,自建基础设施和使用公共云计算,就类似于 CapEx 和 OpEx的区别。从企业经营的角度看,CapEx一次性投入大,不确定性强,且由于 IT设备的生命周期所限,技术研发也必须跟上投入,而 OpEx支出稳定,按需付费,不浪费资源,所以企业更倾向于将CapEx转为 OpEx,改善企业的现金流,这种逻辑不论对中小客户还是企业级客户,都是成立的,其本质是将CapEx投资的风险转嫁给公共云服务商,而对自己就是财务最优的配置。风险本身在于该公共云服务商体量是否够大,是否能够持续发展,是否能够提供稳定可靠的大规模服务,因此很多决策者选择头部公共云服务商,也是这个考量。
另外一个考量是稳定性,用户关注服务的不间断性,而公共云厂商提供的就是永不停机的计算服务,这是自建基础设施无法达到的,在省钱的基础上保证服务的永续。所以公共云计算永不停机,让客户降低了服务中断的损失,也是成本的降低。因此,最终用户在考虑如何搭建基础设施满足业务需求的时候,不仅考虑物理成本、运维成本,同时还需要关注资源利用效率、弹性、扩容效率和能力,以及容灾成本等全链条的综合因素。
例如,图 2-5描述了一个通常的资源规划,平时日常需求计算量小,但一旦有新特性上线、营销活动、大促等,就必须要有足够的资源满足业务需求。这其实非常典型地反映了现代企业对计算资源需求的两个趋势——长期的向上增长,以及突然的爆发。在过去 20年中,阿里巴巴是典型的企业代表,深切地感受到这一点。在没有云的时候,公司技术架构只能自建 IT 基础设施,需要有非常前瞻性的规划,如在前一年就要规划好后一年的容量规划,既能满足业务的需求,又不能过于超前,让基础设施产生大量闲置。
一般企业技术部门经历的实际情况是,为了满足业务的高峰需求,必须多买设备,即使这些设备很多时候只能闲置,同时,业务的增长速度和时点往往会超过所有人的估计,很多时候会击穿资源的上限,造成服务中断或延误。这样,计算力的曲线和业务的曲线永远是一对矛盾,企业当然希望两者之间差别越小越好,但实际的生产中要么发现 CPU利用率极低,要么资源被“打爆”。原因来自两个方面 :业务的增长很多时候是无法预测的,业务的需求并不是线性的,很多时候会因为促销或者过节而大幅度波动。
自建基础设施面临的问题是随着规模扩大,边际成本很难降低,而容灾成本急剧提升,在使用公共云的情况下,可以获得由于极大规模带来的直接红利,使得基础设施的资源成本可控,同时可以弹性使用资源,因此平均使用成本保持不变,同时不为用不上的资源付费。
在涉及具体业务扩容的实际场景中,随着服务器规模的增加,扩容和容灾的成本不可避免地由于网络架构的扩张 /升级、数据中心的扩张,甚至地域的扩张而在不同阶段存在阶梯式的上升,如图 2-6所示。公共云的出现实际上解决了不同规模的云成本。
图 2-6资源规划
IT基础设施扩容及容灾的成本上升问题,让大规模的扩容及容灾成本也能维持在稳定的低位上。这就是在业界很容易被忽略的一个概念,即广义的弹性,指的是云规 模的预铺设带来的普惠和低边际成本扩容。当一个新用户拥抱公共云的时候,无论 是大客户还是小客户,享受的基础设施是相同的,这也是普惠技术这一概念的本质 所在,用户不用大规模的基础设施投资,就可以马上享受到两地三中心、云灾备、高弹性等昔日银行、电信等大客户只有花费巨额投资才能享受到的技术能力。
因此,既要少花钱,又要享受新的硬件技术红利,还能保障资源的可供给性、足够的资源成本灵活度,甚至无须考虑运维复杂性和硬件稳定性,相对于自建数据中心,使用公共云实现全局最优的TCO已经成为越来越多用户的首选。