————————
验证 “人是人”
数据爬取、秒杀、盗号、薅羊毛、刷票、灌水、垃圾注册、虚假投票、虚假点击、虚假下单……
相信你对各类验证码并不陌生,在访问网站或应用时,我们常要证明自己不是机器。
————————
为了更好帮助云上用户规避此类业务安全风险,1月27日,阿里云Web应用防火墙(WAF)爬虫风险管理功能升级,一方面通过算法升级提升防护效果,另一方面通过向导式操作指引降低运维负担,帮助用户快速打造适合自身业务特点的智能防爬系统。
阿里云WAF爬虫风险管理功能覆盖网页、H5、原生APP、API、公众号、小程序等全场景Web应用防护,支持公共云反向代理接入、ECS/SLB一键透明接入、混合云/多云部署、独享集群部署、CDN一键开启等多种接入方式。阿里云用户可在WAF控制台中选择对抗策略,识别并管控Bot流量。
核心能力升级,好用、易用的防爬工具
在阿里云安全团队的长期观察中,爬虫这类代替或模拟人类用户自动化、快速、大批量执行特定任务的自动化程序,背后有着明确的变现思路与产业链分工,已具备明显的趋利性与强对抗特征,开始走向专业化与产业化,防护难度日趋增高。
因此,在进行防控时识别维度的丰富性和处置方式的灵活性是核心能力。同时,由于防爬多数时候是个持续对抗的过程,在针对不同场景的防控方案上,专家经验非常重要。
面对长期实践中总结的用户痛点,阿里云爬虫风险管理做了智能算法和用户体验两个维度的针对性升级,将防爬功能做到真正好用、易用。
智能算法提升防护能力
机器学习和深度学习构建了阿里云通用、智能的AI安全防护模型体系。应用神经网络构造多模态特征表示,基于5大类9000+行为和环境指纹特征,对用户流量进行多维度刻画、分析,通过意图分析智能引擎区分正常流量和恶意流量,并且根据场景特征自动生成防护策略。
实时和离线双联路联合决策方案,通过持续学习和模型优化缓解防爬场景对抗问题。实时检测模型对线上流量进行实时刻画,离线模型进行“增量学习”,时刻保留模型重要特征,当对抗发生时能通过自动更新模型策略进行变异风险的自主对抗。
用户视角改进产品体验
- 场景化防护,专注业务风险
根据下单、注册、登录、查票等场景定义防护目标,推荐防护策略;基于页面与接口展示防控效果,可视化呈现机器流量比例与拦截分析。
- 向导式配置,快速Get最佳实践
分步进行场景定义、策略配置、防护效果验证,搭配灵活的自定义策略,轻松构建专家级防护。
- 灰度验证机制,远离变更故障
策略正式发布前提供防护效果灰度验证,无需担心因策略配置不当、防护兼容性问题等原因导致的大规模误拦截。
实战场景验证,显著提升业务安全水平
阿里云WAF爬虫风险管理,帮助用户解决细粒度、丰富场景下的业务安全问题。
《The Forrester New WaveTM : Bot Management, Q1 2020》报告中,阿里云安全作为唯一中国厂商入选,防爬能力获得认可。
1. 大量、复杂的API数据接口处置
某航空公司以XHR数据接口提供航班查询服务,长期以来遭受黑灰产及各种旅行公司爬取。之前的安全管理,为了减少正常业务流量误伤采用宽松策略,存在大量漏防。
阿里云WAF的JS无感人机识别,在不产生任何客户投诉和业务影响的情况下,漏防流量较原本方案降低了99%。采集网页环境中的操作行为、设备硬件、指纹等特征,防爬策略判断请求是否来自于自动化工具,并实现XHR接口的浏览器校验、验证码等验证手段,过滤约70%的攻击流量,并对剩余30%的攻击流量使用Browser Driver识别,通过验证码方式的唤醒行为进行拦截。
2. 自动化算法模型
某招聘网站的候选人简历与岗位信息厂商被各种猎头机构与竞品爬取。面临对精心构造的低频、离散IP,单一规则防护易被绕过。
阿里云WAF对客户相关数据接口上的所有流量进行Bot属性打标,并根据不同访问特征进行UBA(User Behavior Analytics)建模。在部署完成后的十数次攻防对抗中,模型均能自动化监控并快速学习攻击流量特征,针对攻击流量唤起处置,无需客户与运营介入。
3.SDK接入APP环境
某交易网站以APP作为主要用户访问平台,低价商品常在上线瞬间被恶意秒杀。为了逃避检测机制,攻击者采用真机攻击,通过改机框架与ADB远控等方式,利用脚本操作手机进行恶意行为,识别难度大。
集成爬虫风险管理SDK后,阿里云WAF直接在流量层面针对各种异常的设备访问方式(如Root、Debugger、进程注入、改机Hook等)进行识别和拦截,多维度刻画过滤,恶意秒杀的情况被遏制。
**4. 非对抗解决方案
**
某金融网站信息常被第三方网站爬取,并在数据加工后提供售卖。由于客户本身的业务系统复杂,以及面向金融类敏感信息的高强度攻防对抗,直接拦截的方式并不是最优解。
阿里云WAF采用了异步处置回源打标的方式,在网关层标记异常流量,并对被打标的请求返回虚假数据,以此干扰了第三方网站的数据准确性,与客户的风控能力耦合,为业务安全赋能。
————————
好的爬虫风险管理工具应当好用、易用,且体现运维价值。
阿里云安全团队致力于打造一套尽可能灵活的工具,帮助用户跳过繁琐的实现细节,同时利用云上海量的数据和计算能力、弹性扩容能力以及威胁情报,实现最适合自身业务特点的防爬能力构建。