在很多的IT系统架构图里,运维体系和安全体系都像两个门神一样矗立在两厢。
本文内容来自2019杭州云栖大会的以下两个分会场的收看和解读:
- 《大规模云计算基础设施智能运维》
- 《云安全峰会》
云安全峰会
《云安全峰会》的第一名演讲嘉宾是阿里云智能安全事业部总经理肖力,演讲的题目叫《破边界,超未来》。随着企业的数字化转型逐步深入,上云成为其中的关键路径。上云的同时,将获得三个方面的安全能力:
- 基础设施的云化、随着各种新算力的普惠,安全能力也能够做到弹性可扩展,并解决安全硬件的可信问题。
- 核心技术的互联网化、分布式架构将打破单机的能力限制,基于云端的在线能力和大数据处理能力可以更好的提供安全服务。
- 应用数据智能化、利用全网统一的威胁数据,可以做到统一的安全策略快速下发,自动化的闭环响应、智能主动防御。
具体来说,阿里云将提供6个方面的云原生安全能力:
- 全方位网络安全隔离管控、阿里云防火墙支持东西南北向的网络流量管控,并支持动态拓扑生成、业务流量可见、微分段隔离、阿里云防火墙是只需一键即可开启的SaaS防火墙。
- 全网实时情报驱动自动化响应、基于阿里云全网统一的0day漏洞捕获、疫苗制作、全局防护可实现自动化的0day漏洞主动防御。
- 基于云的统一身份认证、提供统一用户目录、统一身份认证、统一访问授权、统一资源管理、统一行为审计。
-
默认底层硬件安全与可信环境、结合Intel SGX提供可信加密执行环境。
- 全链路数据加密、可提供数据的加密存储、加密传输、加密计算、脱敏、分类、授权、访问控制、容灾恢复、日志审计、双因素认证的全链路安全防护。支持用户自带密钥的管理、支持控制台操作审计。
- DevSecOps实现上线即安全、阿里从2005年就开始构建安全开发流程SDL,从应用的设计与开发、集成、部署、运营全流程实现安全可控。今天,阿里云所有云产品在上线时都要遵循产品安全生命周期流程(SPLC)。
为了让阿里云安全能力能够让更多的人所了解,阿里云在这次云栖大会发布了《阿里云安全白皮书4.0》。
为了让用户更好的构建云上安全体系,阿里云在本次云栖大会上还发布了《阿里云企业上云安全指引》作为云上安全最佳实践供用户参考。
第二个Session是有关混合云安全,演讲的题目叫做《云原生能力·混合云安全》,阿里云为混合云用户可以提供的方案包括:
- 阿里云·自动化编排(SOAR),通过云安全中的自动化编排能力实现零业务影响的自动化漏洞修复闭环,利用阿里云网络服务的API和服务器快照克隆功能实现不停机漏洞修复和流量切换。
- 统一身份认证服务IDaaS,我理解就是一个SaaS化的统一身份认证服务,提供包括单点登录、集中授权、操作审计等功能。
- 统一网络安全连接、将私有云的网络入口统一到公共云,利用公共云的DDOS和云防火墙、云WAF能力进行更好的互联网流量安全防护。
- 统一主机安全、利用阿里云安全中心对私有云的服务器进行统一纳管,实现全面的主机安全检测、自动化安全响应、以及网页防篡改、应用白名单等功能满足等保合规要求。
- 统一安全管理、将线下的安全数据上传到阿里云安全中心利用云端大数据和AI能力实现统一的安全分析告警。
第三个Session是有关数据安全的,题为《云上全栈数据安全保护体系建设》,云上的数据安全核心三要素是可靠、可控、可见。
可靠,就是可靠的保护机制,阿里云提供高安全等级的基础设施从底层确保了数据的可靠性。在数据管理层面,可以通过阿里云敏感数据保护服务SDDP对存储在大数据计算服务(MaxCompute)、关系型数据库服务(RDS for MySQL)、对象存储(OSS)中敏感信息进行快速定位发现、对这些数据实现分类打标、访问异常检测和脱敏服务。为防止数据泄露,阿里云提供全链路加密能力,支持对数据的传输、计算、存储实现全链路加密保护。
可控,就是可控的密钥管理,阿里云支持BYOK也就是让用户来生成和掌握密钥来提高加密数据的安全性,阿里云在北京、上海支持符合国密标准的托管HSM(硬件加密机),在国外提供符合FIPS142-2三级的硬件加密设备。
可见、就是云平台的内容操作透明化、云不在是一个黑盒子,阿里云平台侧的操作包括工单、宕机恢复、集群定期迁移、按照国家法规进行的处置等操作完全对用户可见。该机制已通过国际知名会计实务所得审计通过。
最后还有一个合规,阿里云拥有业界领先的最全面合规资质。
具体可见阿里云合规中心页面:
[https://www.alibabacloud.com/zh/trust-center]
第四个Session是有关可信计算的内容,题为《零信任网络:应用可信架构构建安全系统》,主要内容是有关Intel SGX在阿里的应用。
第五个Session是一个行业客户的分享,是由政采云信息安全负责人进行的使用经验分享。
第六个Session是业界知名信息安全大牛猪猪侠王昱分享的有关漏洞管理的内容,猪猪侠站在攻击者的视角下重新审视了0-DAY与APT攻击,对于大部分客户来说这两类的威胁并不大。黑客攻击入侵的主要对象是WEB服务,其中尤其对Tomcat、Spring及其他一些开源中间件的攻击最易得手。仅仅利用一些开源软件和中间件的漏洞在实战情况下,渗透成功率甚至超过了90%。
为了改善这一状态,猪猪侠提出要引入漏洞优先级评分机制,以对系统的实际威胁为中心对漏洞进行管理。可以按照漏洞本身情况、产生的威胁、影响的资产三个维度进行评分。
站在漏洞本身的维度:
- EXP成熟度、可以分成未验证、有POC、有EXP、被武器化四个等级。
- 攻击路径、远程、本地、物理。
- 权限要求、无需权限、普通用户、管控权限三个等级。
- 利用复杂度、容易、复杂两个级别。
- 影响范围、有限影响、有越权逃逸两个级别。
- 披露时间、一天、一周、一个月、三个月,时间越长则风险越高。
站在对系统的威胁维度:
- 对系统可用性的影响、包括DDOS拒绝服务、服务器失陷。
- 对系统保密性的影响、如有无数据泄露风险。
- 对系统完整性的影响、例如是否能够对网络传输进行篡改或破坏。
- 在全球的安装量、1000+、10000+等不同等级,一款蠕虫的安装量越大,对系统的威胁就越高。
- 补丁情况、是否已有补丁,如目前尚无补丁是否有缓解措施。
站在资产维度:
- 攻击面的暴露情况、相关进程是否启动、端口是否处于监听状态、网络是否开放访问等。
- 资产的重要程度、对于测试环境和生产环境可采取不同的安全防范措施,对核心、普通、边缘系统也可采取不同等级的安全防护手段。
猪猪侠提出了一个更有效的漏洞管理方法:
- 从漏洞发现开始,通过巡检、扫描、被动通知对漏洞进行捕获。
- 对漏洞进行优先级排序,评估对业务的影响、整合外部的安全威胁情报,结合自身的网络情况对暴露面进行分析。
- 提出缓解措施,优先修复风险最大的漏洞,找到最佳哦的修复方案。
- 跟踪监督,持续监控攻击活动,以及黑客的利用趋势,确保修复完成,确保成功阻断攻击。
- 继续下轮的循环
最后,猪猪侠给出了五点有关漏洞管理的建议:
- 关注真实威胁,不要将注意力集中在媒体备受关注的威胁上,大多数威胁与漏洞及其利用密切相关。
- 将有限的资源集中在对组织最重要的漏洞上。
- 关注最可能在攻击中使用的漏洞。
- 开始了解资产情况(核心组件、框架、供应链)
- 开始了解暴露面(进程、端口、网络)
云安全峰会的最后一个Session是安全厂商安恒站在阿里云合作生态的角度进行的题为《如果利用云的优势构建安全防护体系》的分享。
大规模云计算基础设施智能运维
大规模云计算基础设施智能运维分会场的第一场演讲的标题叫做《阿里巴巴基础设施智能运维》,正好呼应了本次大会的两个主题“数”和“智”。
明天就是双11了,对于天猫、淘宝、蚂蚁、菜鸟这一天都是一年中最重要的日子。而这些业务的稳定运行统统都离不开阿里云飞天基础设施智能运维的支持。随着业务对基础设施运维的要求不断提高,阿里云飞天基础设施的运维技术演进可以分成三个阶段:
- 自动化、实现所有操作线上化;通过规范化的运维体系实现总体效率的提升,并通过数据的积累为后续的提升改进提供基础。
- 数字化、过程结果数字化;实现运维操作的完全透明,对客户授权的后台运维操作也要进行记录,在建立客户信任的同时为智能化提供数据基础。
- 智能化、分析决策智能化;通过智能技术实现准确、高效、全局优化的智能化运维。最后介绍了在集群智能化修复上进行的一些探索。
《运维》专场第二个Session的题目是《阿里巴巴网络智能变更验证》。演讲人首先提了一个问题:造成云故障的主要根因是什么?
自然是变更!
阿里云使用了变更智能验证来应对如下的技术风险:
- 变更形式化验证来高效,精确的校验方案的逻辑正确性?就是通过网络模型和验证算法来验证变更方案。
- 变更仿真测试来高保真且低成本的实现变更灰度校验?就是通过建立完整的线上网络模拟环境并注入真实的流量来仿真变更导致的一系列网络变化。
- 变更实时验证确保在变更过程中可以实时校验所有可能存在的风险。这一措施保证了在实际变更的过程中出现的风险可以在第一时间被发现。
第三个Session是有关应用的运维,题目叫做《阿里巴巴运维大脑》,这里提出一个概念叫分层运维以区别通常的运维分层。所谓的运维分层就是通过统一的一站式指挥中心来协调服务器硬件、操作系统与集群、应用软件层的运维,这种方式的好处是侧重于故障协同,应急响应,但边界相对模糊,组织见容易出现“甩锅”行为。阿里提出的分层运维是每一层都有完整的组织保障,各层之间通过建立完善的SLA约定来进行协同工作,也就是服务器硬件团队向操作系统与集群团队提供SLA保证、操作系统与集群团队再向应用运维团队提供SLA保证。
聚焦到阿里巴巴的应用运维平台,包括三部分:
- 运维平台、主要职责是建设主机及应用运维所需的工具平台,如资源生命周期、应用部署、基线、通道、弹性、流程工单等能力和工具。
- 监控平台、主要职责是除基本的系统性能指标、业务指标、稳定性大盘等常用监控能力建设外,回答核心问题:“应用是否正常”。
- 安全平台、主要职责是在运维与监控平台之外建设第三方控制环,针对运维安全建设相关的审计、风控、拦截、熔断、等保等系统能力。针对所有运维对象的操作都要进行通过安全平台的审计,所有操作都会被记录审计,不合规的操作将被实时阻断。
目前,智能运维平台只在阿里内部使用,未来将向大中型专有云的用户开放。
《运维》分会场后面的三个Session分别是有关阿里云监控、基础设施能耗管控优化、Intel云数据中心管理优化技术的内容。其中阿里云监控在未来要支持混合云并在智能化和自动化方面加大投入力度。在能源管控方面,阿里巴巴通过电力控制中心与业务控制中心进行实时协作来更好的优化业务需求和电力供给之间的矛盾,根据业务特征来精确的管控电力供应和性能。Intel带来了机柜峰值功耗动态管控和远程诊断和调试的技术分享。