阿里云的水晶计划

2018年9月的一天,阿里云基础产品首席架构师黄瑞瑞在跟H银行客户交流时,听到了这样的吐槽:“我上云之后,看不到你们在云上的数据操作过程,其他云厂商我也看不到。虽然我会继续用你们的产品,但我心里不舒服。”


让这位客户不舒服的正是行业一大痛点:对于上云企业来说,云厂商对云上数据的操作、运维过程完全是一个黑盒子。就像一台汽车,你能看到方向盘、底盘、座舱,但是看不到引擎到底是怎么运作的。


这容易埋下隐患。随着数据被定义为数字时代的新型生产要素,从过去单纯的“数据信息”变成如今的“企业资产”,其重要性陡然提升。把自家的数据资产交给别人保管,而且看不到保管的过程,这让人如何相信数据资产的安全?


这种疑惑并非个例,云厂商只好苦口婆心地向外界宣告公有云是安全的。早在2015年7月,阿里云就发布《数据保护倡议书》,明确表示绝对不碰客户数据。之后,其他国内云厂商跟进表示自己“不碰数据”。


但是,这更像是一种倡议而非机制,数据黑盒的行业通病并没有从根本上得到解决。


直到今天,这一行业痛点迎来转机。在10月19日的阿里云栖大会上,阿里云智能总裁张建锋(花名:行癫)在主论坛的演讲环节,重申了保护客户数据安全是阿里云的第一原则。行癫在台上没有提到的细节是,阿里云给出了对于数据黑盒的解决方案——透明厨房。

阿里云的水晶计划

透明厨房在阿里云内部有一个特殊的代号——水晶计划,它与本次云栖大会上发布的第四代神龙架构,同属2019年阿里云基础产品的六大战役。值得一提的是,放眼全球也只有谷歌云(Google Cloud)有类似的产品。


本文,「甲子光年」采访了阿里云基础产品首席架构师黄瑞瑞,来还原透明厨房的前世今生。


在数据安全受到前所未有的重视后,云计算也走进深水区。透明厨房是阿里云的一小步,也是数据安全的一大步。

1.打不开的数据黑盒


在云计算之前的IT服务时代,企业将数据保存在自己的IDC(数据中心)机房中,运维人员的每一步操作都会生成相应的日志,来记录整个操作过程。因此对于企业来说,这是一个白盒。


而数据黑盒是云计算的副产品。


从IDC切换到云服务之后,云厂商除了提供计算、存储这些基础的资源外,还会提供智能托管的服务——也就是代运维。但是,就像把家里的钥匙完全交给装修师傅一样,云厂商在云平台上的操作过程并不能被客户感知。这对客户来说,就形成了数据黑盒。


尽管云厂商已经通过各种加密手段、第三方审计报告或合规证书来证明其数据的安全性,但黄瑞瑞认为“这只是安全的及格线”。


黄瑞瑞告诉「甲子光年」:“客户常常表示,我相信你们阿里云不会碰我的数据,但你们怎么保证没有员工头脑发热,或者误操作?”


为了打消企业对数据安全的疑虑,过去云厂商通常有两种做法:


第一种是商业手段,将数据安全写进合同。如果企业发现云厂商对自己的数据做了手脚,那么云厂商要做出一定的赔偿。


这是一个行业标准做法,但问题又回到了逻辑的原点。“既然你都不告诉客户云平台内部到底发生了什么,他又怎么能发现你动了他的数据呢?他发现不了。你写在合同里无非是表达一种承诺,让客户心里好受一点罢了。”黄瑞瑞表示。这种方式治标不治本。


还有一种技术手段,将云平台内部所有的运维API接口向客户开放,把“钥匙”还给业主,把黑盒再次变成白盒。


但是这种做法有点不切实际。负责着阿里飞天云平台总体架构设计,以及下一代云平台底座技术架构设计、升级等工作的黄瑞瑞深知,把云平台内部的接口全部对外开放是一种不负责任的行为。


站在客户的角度看,很多客户不具备敏感数据、API的管理能力,这样做等于云厂商将数据安全问题甩给没有安全能力的客户;站在云厂商自己的角度,大量暴露API接口实际上扩大了黑客的攻击面,此外权限收敛和分配因此也更加复杂,难以做到最小化授权。


从创立开始,阿里云就一直在思索这个问题的最佳解决方案应该是什么。


他们最早的灵感来自一则牛奶广告:牛奶厂商为了证明牛奶质量的可靠性,邀请很多家长、小朋友去牧场参观从奶牛到牛奶的生产全流程,来切身感知一杯牛奶的诞生。牛奶厂商要做的,就是消除消费者和企业的信息差。


阿里云安全和产品团队从这则广告中获得了启发,云服务的过程就像牛奶生产的过程,想要获得客户的信任,最好要让客户获得全链路的感知能力。但是这一想法一直没有很好的落地契机。直到H银行客户在和阿里云沟通时,提到了它在海外给谷歌提出了一个需求,即在云上系统中的内部操作,运维日志都要对客户透明公开。


放眼全球,这称得上是一个创新。黄瑞瑞认为,这对阿里云的高安全等级需求客户(如金融类客户)来说,也会是一个非常重要的需求。


要不要做这件事呢?与其说这是一个痛点,倒不如说是一个痒点。市场调研机构IDC发布的市场份额报告显示,2018年阿里云在国内的市场份额占比高达45.5%,牢牢占据第一位。即使不解决数据黑盒问题,阿里云的收入似乎也不会有影响。


但黄瑞瑞当时有一个更理想化的追求。他认为,首先这是客户真真切切的需求;其次作为全球排名第三、国内第一的云计算厂商,阿里云有义务为行业树立一个标杆。


说干就干,在经过需求论证之后,阿里云将这一数据安全产品上升到战略高度,定为2019年阿里云基础产品的6大战役之一,并起了一个代号——水晶计划。

2.从水晶计划到透明厨房

水晶计划的过程则是一波三折。


最开始,阿里云安全和产品团队把问题想得很简单,虽然不能把API接口全部对外,但直接把运维日志给到客户不就行了?


实际操作起来才发现,阿里云的内部运维日志是海量数据,大量的内部运维日志非但不能给客户产生价值,反而变成了一种白噪音——客户并不能从海量日志中分辨哪些东西对他是有用的。


同时,还有很多数据并非人为操作产生,而是机器自动产生。黄瑞瑞告诉「甲子光年」:“比如说机器监控到某个集群水位高了,就会自动迁移到其他地方,这个过程本身是符合安全要求的,即使给到客户也没有多少参考价值。”


有时候大而全不是最优解,反而给客户带来负担。阿里云需要小而美的解决方案。


最终,阿里云将对外公开的日志范围缩小到人为操作日志。这样能保证客户拿到数据之后,快速分析和判断阿里云工作人员对客户的数据执行了哪些操作。


理清思路后,接下来就是内部团队的协调和开发。阿里云做的第一个产品,是针对OSS存储(对象存储服务)运维日志的透明化。OSS适合存放任意类型的文件,包括文字、图像、视频等等,因此也是阿里云客户使用最多的产品之一。


阿里云做了两层“透明化”,第一层是日志的订阅管理。


客户可以通过订阅的方式,在任何他想看的时刻来获得阿里云内部的运维操作日志,来获取什么人员因为什么原因做了什么操作。这是平台为了“自证清白”。


但如果将阿里云内部的运维日志不加处理交给客户,有时候是没有意义的。因为这些日志,只有在内部运维系统的上下文中才有意义。因此要提取有效信息,并将其翻译成客户能看懂的示例。此外,阿里云要保证数据脱敏,不能在保护客户数据的初心下反而造成云厂商数据隐私的泄露。


第二层“透明化”,是在第一层的基础上再加一层保险箱,称为客户工单的授权管理。


黄瑞瑞告诉「甲子光年」,当客户发起工单,平台会追加一个子项目,在工作人员操作之前向客户申请授权,“工单是工单,授权是授权,如果只有工单没有授权,我们是不会进行任何操作的”。


这样,阿里云不仅要打通工单系统,还要打通授权系统。尽管这增大了工作量,但能够让客户买的安全,用的放心。


阿里云将这个产品的理念描述为“透明厨房”。顾名思义,阿里云将云服务比作去餐厅吃饭,过去人们看不到菜品的烹饪过程。而在透明的厨房,人们可以像在家里做饭一样,看到每个菜的烹饪细节。


2019年下半年,经过一个6人小组以及存储产品团队小伙伴们半年多的努力,针对OSS存储的“透明厨房”终于落地了。在推向市场的时候,阿里云却同时得到了一个好消息和一个坏消息。好消息是,客户对此产品的评价是“有帮助”,坏消息是“帮助不大”。


原因也很简单,企业不仅仅用阿里云OSS存储这一个产品,也用了数据库、云盘、大户数据分析等等产品,只保证OSS存储这“一道菜”的透明化远远不够,必须扩大到“满汉全席”。


如果说OSS存储是透明厨房从零到一的探索性产品,接下来的两年,透明厨房团队做的事情就是从一到十的规模性扩大。如今,透明厨房已经适配了包括数据库、云盘在内的超过十款阿里云主流产品,并延伸到了线上账号管理系统和权限管理系统,以及密钥管理系统。


有一个金融客户让黄瑞瑞印象深刻。在听说阿里云研发了透明厨房之后,该金融客户打电话给黄瑞瑞说,他们正在内部审计,比较着急,“如果提交工单之后能第一时间看到阿里云的运维日志,不管需要多少钱,我马上就买”。黄瑞瑞则告诉对方:“日志可以马上给,但是不要钱,这是免费的产品。”


对此,黄瑞瑞向「甲子光年」解释:“透明厨房没有商业化的计划。我们认为数据安全是阿里云应该提供的基础服务而非增值服务。”


后来,黄瑞瑞收到了审计部门对于透明厨房的反馈,只有简单一句话:“做的不错,这是一个新的可审计数据集,符合可审计的需求。”


这给了透明厨房团队很大的鼓励。

3.行至云深处:可靠、可控、可见

在数据安全之下,如今云计算的发展正呈现出两个趋势。


第一是针对数据安全生命周期建立全链路保护机制。


数据的全生命周期一般为6个阶段,包括数据采集、数据传输、数据计算、数据交换、数据存储到数据销毁。黄瑞瑞告诉「甲子光年」,几年前云厂商的宣传大多停留在单点保护,而实际上客户需要的是全流程全周期的保护。


透明厨房不针对某一阶段,而是贯穿数据全流程的产品。不过现在,透明厨房相对侧重在企业更常用的数据计算、数据传输和数据存储,来记录数据是否被触碰或修改。


基于6个阶段和1个全流程产品,阿里云将其数据安全能力总结为三个词:可靠、可控与可见,三者螺旋交替,互为补充。


可靠性,是指阿里云建立的全链路数据保护机制。云上数据的6个关键阶段都需要不同的安全能力,这依赖于阿里云高安全等级的基础设施产品。



每年的云栖大会也是阿里云基础产品的集中发布会。今年,阿里云发布了自研CPU倚天710、磐久服务器、第四代神龙架构等基础产品。比如,通过自研的神龙云服务器,阿里云能提供“芯片级”加密安全环境,只有用户才能看到并使用自己的数据。


可控性,是指阿里云把数据控制权交给用户所有。这里的数据控制权,主要指数据“密钥”。


企业的数据明文通过加密算法加密后就会变成数据密文。无论国际还是国内,都对加密算法有严格的合规标准,就像一个数据保险箱,打开保险箱的唯一方式就是拿到保险箱的钥匙,即“密钥”。


阿里云做的就是把加密算法的密钥,完全给到用户。目前阿里云上40余款产品支持全链路加密能力,和在适用场景下的自选密钥能力,让用户对数据的调用和读取具有完全的控制权。

阿里云的水晶计划

最后是可见性,即透明厨房。


阿里云目前已经实现云平台内部操作完整记录,并通过了第三方权威审计公司的严苛审计,审计期间会做大规模随机抽样,可验证阿里云是否遵循严格的安全控制措施。目前,阿里云几乎已经拿到了安全合规领域的“全满贯”资质。

阿里云的水晶计划

第二个变化趋势是黄瑞瑞从客户侧感受到的——客户越来越懂行业了。


过去客户会纠结于上不上云,现在这已不成为问题了。早在2019年Veritas(数据管理公司)对1654名来自世界各地的云架构师和管理人员做了调研,80%的中国受访者表示“他们希望将大部分甚至全部的应用程序放至公有云架构中”。


同时,客户的专业性也越来越高。黄瑞瑞提到:“我们其实很早就在做全链路加密和自选密钥的云产品功能了,但是一直到最近的一年多客户的需求才呈现井喷式增长。很多客户开始问我们密钥的控制权能不能交给他们,放在过去如果我们不提,可能很多人都不知道有自选密钥这回事。”


黄瑞瑞认为,云厂商与客户各进一步,是这个行业正在走向成熟的一个标志。


今年的云栖大会上,行癫的演讲主题是“云深处,新世界”。行至云深处,这是云计算发展的一个缩影,而保护数据安全始终是第一原则,就像“水晶计划”名字所希望的那样,透明而坚固。




END.

上一篇:LeetCode-7.整数反转 取模反转法与字符串法


下一篇:SpringAOP-什么是面向切面编程?