用好云平台,做好安全监控与审计

本文将重点阐述:运营在阿里云上的中小企业,应如何充分利用平台资源,做好安全监控和审计。

如同今年5月我在 VSRC 会议上所说:云计算和企业上云是大势所趋,今天人们讨论的不再是“什么是云,要不要云?”的话题,而是“用什么样的云,怎么用好云,以及如何做好云上企业信息安全的运营?”。

[TOC]

用好云平台,做好安全监控与审计

1. 现实需求

如果您目前正从事企业信息安全相关工作,或是对云上企业的信息安全工作感兴趣,那么安全监控和审计是绕不开的话题。无论是为了应对合规检查,满足行业标准还是加速安全事件发现和处置的效率,一个数据完整,功能可靠的安全监控审计系统是必不可少的。

云上安全监控和审计在本质上与传统 IDC 环境是一样的。但又因为云计算特别是公有云自身的特殊性,具体开展工作时方式方法还需要调整。如果您的企业正打算或已经迁移到的云平台,那么安全监控和审计对象必然会发生变化,例如:

  • 新增了控制台(典型云平台 Console),以及围绕控制台的用户身份认证和操作行为
  • 云平台庞大丰富的产品功能也带来了监控审计上的挑战
  • 云平台上没有传统的 IDS,你很难直接拿到主机间的流量数据

2. 有什么值得监控的

可以说,上云后企业的身家性命就都在云上了,在安全监控上投入再多都不为过。当然,具体要对哪些信息或事件做监控,这个需要安全团队结合企业自身云平台的使用深度和现实需求开展。本文重点关注的是,基于阿里云品台和云平台上的产品/服务的监控审计。传统的基于操作系统日志、业务系统日志的安全监控审计不在本文讨论范围内。

以下,是笔者认为需要重点关注的监控项目。

2.1 控制台用户账号

企业用户购买云平台服务后,一般会通过主账号为不同的员工创建 RAM 子账号,同时指定是否开启 Web Console 登录权限。控制台用户账号可在自身权限范围内,访问和使用云平台产品功能。

用好云平台,做好安全监控与审计

用户账号监控重点需要覆盖如下内容:

  • 账号登录成功或失败行为
  • 账号异地登录行为
  • 登录过程是否使用了双因素身份认证
  • 离职员工账号登录行为

企业应重点关注账号共享、账号破解、关键账号未启动双因素认证、离职员工账号未及时禁用等安全事件。

2.2 RAM 子账号AccessKey

管理员可以为RAM子账号设置是否启用AccessKey。一旦开启该功能,则该 RAM 账号可以通过AccessKey/AccessSecret调用阿里云 API 接口,以程序的方式访问云上资源,如:服务购买、信息查询、设备实例启动或终止、策略发布、配置变更等。

用好云平台,做好安全监控与审计

关于RAM 子账号AccessKey的安全监控, 需要重点关注如下内容:

  • AccessKey访问资源时的读写行为和频次
  • AccessKey访问的来路(内网或外网)
  • AccessKey访问资源时的成功或失败行为
  • 作废AccessKey的访问行为

    由于 AccessKey 支持程序方式访问,因此一旦对应的AccessSecret 有变更,相关程序没有及时更新,极有可能导致服务不可用。此外AccessKey/AccessSecret 作为程序鉴权认证的标识,容易出现泄露的情况,企业应及时发现并终止那些访问行为异常的AccessKey/AccessSecret组合。

2.3 云上资源的配置变化

创建云主机、修改SLB端口转发、调整安全组策等行为在日常运维工作过程是经常发生的。每一次调整都会带来资源配置或系统状态发生变化,势必影响当前系统整体安全风险。

基于笔者所在安全团队在云上的安全运营经验,建议重点监控下述内容:

  • SLB 端口转发发生变化(新增、删除、修改等)
  • VPC 路由策略变化
  • 安全组策略调整
  • 云主机创建、启动、停止和销毁
  • EIP 资源启用、销毁
  • RAM 账号新增、修改
  • 密码、密钥修改或充值
  • RDS、OSS 资源开通及变更

2.4 有效期相关的监控

云上产品通常有按量付费和包年包月等付费形式。企业运营遇到一定规模后,必然出现资源有效期管控方面的问题。从安全的角度看,资源或服务一旦到达有效期未能及时续费,很有可能会导致现有服务不可用,严重影响到到业务连续性。

有效期通常包括:资源、服务、配置、状态和规则等属性,所以应重点监控系列内容

  • 云资源的有效期,如 ECS、RDS 的到期时间
  • 云安全产品的有效期,如:WAF、态势感知、安骑士、云防火墙、应用安全 SDK、堡垒机等
  • 域名、证书的有效期

用好云平台,做好安全监控与审计

曾经出现过这样的案例:某知名企业因缺乏对自家域名的监控,域名过期后没能及时发现且被他人注册,导致重大业务故障和声誉受损。
对于正常到期且释放的资源,原则上也应该从主监控清单(也包括各类白名单)中移除,特别是 EIP等共用资源。

2.5 安全产品的输出

为保障绝大多数云租户的信息网络安全,平台及云市场提供了各种形式的安全产品。但此类产品往往以产品形式孤立运行,企业还需要对各类事件进行关联和分析。

对安全产品的监控内容包括:

  • 产品本身的可用性
  • 安全产品的高优先级告警,如:Webshell 检测、异常进程、异常登录等。

如果企业安全团队没有专职人员持续在云厂商产品上进行事件响应和运营,那么集中收集和监控分析安全产品的基础事件是很有必要的。企业还可以部署类似 SIEM 相关的产品对各类监控数据进行关联和分析。

3. 有什么值得审计的

企业安全团队除了要在第一时间对各类安全事件进行监控和响应,还要定期对已发生的各类系统安全问题、安全事件处置进行审计。审计内容至少包括如下:

3.1 账户行为

云上主账号、子账号的所有活动记录应该被审计。除了安全监控要对登录事件进行实时分析,后期的安全日志审计也要跟上。应定期重审:所有账号的权限,账号活动与其所有权限是否一直,权限是否在有效期内等。

3.2 事件处置

云平台安全产品每天触发的安全事件都应被处置。因此审计系统应对安全事件进行收集,对安全事件的处置过程和处置结果进行审计,定期提供审计报表,以督促安全团队开展安全工作。

3.3 变更记录

应重点审计所有对云上资源进行操作的行为,包括:云主机开通和释放,安全区创建、配置和删除,SLB 应用配置和节点摘除,高防 IP 服务配置、WAF 参数调整、OSS 资源配置、财务信息变更等。变更是生产环境故障的万恶之源,做好变更审计能有效协助故障响应和操作审计。

4. 如何实现监控审计

针对阿里云平台上的各类安全监控和审计要求,企业应采取符合自身需求的技术手段完成功能实现。总的来说,就是数据采集、存储和分析。如果对实时性要求比较高,企业还可以定制自己的安全监控系统。要获取到云平台上的相关事件或日志,有多种方法,以下是部分实现思路。

4.1 阿里云自带:ActionTrial to OSS

阿里云平台控制台的【ActionTrial-操作审计】默认支持30天内的事件日志。如果企业需要更长时间的审计日志,可以通过【创建跟踪】将操作审计的日志持续投递到指定的OSS 存储空间。

用好云平台,做好安全监控与审计

下图是 OSS 存储空间中看到的按日期存放的操作审计日志文件。

用好云平台,做好安全监控与审计

4.2 阿里云自带:部分日志投递到SLS

企业可以通过客户服务渠道与阿里云后端协商,将部分云产品的事件日志投递到云平台日志服务 SLS 中。作为阿里云重要合作伙伴,笔者所在企业有机会优先体验到了态势感知 DNS 日志投递到 SLS 的功能。使用体验非常良好,日志收集和分析更加方便。

事实上,SLS 自带强大的搜索和统计功能,能够完成单一云产品自身数据分析和展现上的不足。如有可能,应尽量多地使用 SLS 完成日志收集,毕竟都是平台维护的,内部打通也非常方便。

4.3 阿里云接口-获取操作审计日志

针对操作审计,除了通过 OSS 的方式获取审计文件外,企业还可以调用 ActionTrial 的 API 进行审计事件的实时收集,为安全监控提供最新的数据。操作方法是:通过阿里云RAM服务,创建子账户并授权其ActionTrail的操作权限。为了遵循最佳安全实践,强烈建议使用子用户来操作ActionTrail。

RAM中可授权的ActionTrail的操作(Action)如下:

  • CreateTrail
  • UpdateTrail
  • DeleteTrail
  • DescribeTrails
  • GetTrailStatus
  • StartLogging
  • StopLogging
  • LookupEvents

4.4 自定义网页爬虫

和很多用户一样,我们对阿里云默认提供的事件收集和转发不是非常满意。因此,针对那些实时性较高,又不能通过平台自身功能开展快速监控和响应的事件,我们开发了专用的阿里云控制台安全事件爬虫。

安全事件爬虫,模拟用户登录到阿里云控制台,对各类安全产品的基础告警事件进行抽取,并在第一时间对高危安全事件进行高级。

5. 能不能让我看点效果?

5.1 高防 IP 服务流量长期统计

以高防 DDoS 为例,模式系统只能查询最近一周的流量。企业如果需要统计和分析长周期(季度级别)内高防 IP 服务的流量趋势,为高防续费或采购提供决策,那就需要通过爬虫对报表数据持续收集。

用好云平台,做好安全监控与审计

笔者所在安全团队,对上述数据进行了自动化采集和重绘制,结果如下。通过该数据,企业可以动态评估业务带宽对高防服务的阈值挑战,以及为高防 IP服务 的年度采购提供重要参考依据。

用好云平台,做好安全监控与审计

5.2 安骑士告警信息发钉钉

针对安骑士产品的重要告警信息,企业可以在事件收集完成后,通过自定义的告警信息发送给安全人员。产品默认只有邮件和短信,且有发送抑制功能(一天不超多 XX 条)。通过独立的告警系统筛选,可以对安全事件进行高定制话的判断和推送。下图是典型的云平台安全事件推送到办公 IM 的应用场景。

用好云平台,做好安全监控与审计

集成告警到钉钉,这个功能太赞了。如果我没猜错,很快阿里云会就会默认支持了,期待吧。

6. 总结

以上是笔者所在安全团队针对阿里云平台上开展安全监控审计的一些技术总结,希望能为有需要的朋友提供帮助。总的来说,阿里云平台在完成基础云计算服务的同时,还为客户提供了一系列的增值产品和服务,如:基础产品、高级安全服务、日志审计、SLS服务、API 接口、大数据计算等。作为越来越依赖云计算的的中小企业,既然挡不住云计算的大势所趋,那就要及时适应和用好云计算平台,尽早制定您的安全监控和审计方案。未来,也期待你的分享!

上一篇:阿里云VPC流日志——又一款安全日志分析的新利器


下一篇:大数据处理也要安全--关于MaxCompute的安全科普