小红书反作弊的策略和算法负责人 汪浩然
本文主要会分享三个方面的内容,首先我会讲讲我和阿里风控的故事,接着我会讲一下阿里云的风控产品赋能以及阿里的机器学习平台赋能,最后我会介绍一下智能风控以及智能风控依靠的云计算能力。
首先我想介绍一下我和阿里风控的故事,总的来说,我从一个主动的赋能者参与者,逐渐到今天成为了阿里的校友,成为了一个合作者和一个被赋能者。一开始我最早是在蚂蚁大安全参与了蚁盾的这样一个产品,以及 rain score 这样一个东西来赋能到生态圈,我从那个时候开始入门风控,然后知道了有赋能这样一件事情,后来我又参与了集团的供应链风控以及供应链金融的事情,我开始理解到风控它是一个链路上的问题,从前面的营销、交易到供应链、物流,它是一个完整的链路,然后以至于到今天能帮助我更好的从全局角度去把握这样的一件事情。
现在我在小红书成为了阿里的校友,那么我一开始就有一个非常朴素的情怀,就是说阿里的好东西我们该用上,所以现在是被阿里赋能着,所以这也是非常有趣的一个故事。
然后我想介绍一下阿里云风控服务的风险识别的环节,就是大家都知道阿里巴巴集团和蚂蚁金服的风控体系,他们这么多年实际上沉淀了很多的能力,不管是对特定风险pattern的识别,还是对一些风险对象的识别,那么这些东西其实输出来了以后,大家可以一同来营造一个真实美好多元的互联网商业和社交的环境。
另外阿里云风控服务一个重要的赋能的方向,就是它的决策引擎。大家都知道在风控中是有一个策略的体系,它就是一个类似于决策树一样的东西,在不同的场景下,不同的条件下,你使用什么样的规则和算法来产生一个风险的决策?这个东西它本身是有一定的复杂度的,因为策略的部署运维以及后续的管理等一系列问题是非常复杂的。而阿里巴巴集团,尤其是阿里云,把阿里内部的能力进行输出,对生态也是有非常大的帮助。
其次就是阿里云机器学习的赋能,就是业界可能有的人会觉得阿里的工程师,尤其是一线的算法工程师,他的代码能力没有那么强,但是我们怎么去看待这样一种代码能力,其实不管国内还是国外,很多一线的算法工程师,很多时候他写的都是数据处理的代码或者部署代码,或者是一些胶水代码,很多时候只是做标准化算法的搬运工,既然是这个样子,为什么不能很好的通过这种机器学习的平台来插件化、模块化,拖拽式的来完成这样的工作,然后把一线的算法工程师解放出来,能够更专注于业务问题的解决以及建模。尤其是风控面对大量的不确定性的问题,在建模和模型的评估环节都需要大量的时间,好的机器学习平台就能让一线的算法工程师更多的专注在这些地方,而不是很多时候搬运代码或者不断的重复一些代码的拷贝和粘贴。
接下来讲一下智能风控的策略体系,风控的策略它一般来说主要包括规则和算法两大部分,最近我也是在内部培训的时候也总结出来,规则简单的来说就是剑未佩妥出门已是江湖,而算法更多的时候是10年磨一剑,今日把示君。
为什么说剑未佩妥,就很多时候,比如说你上一个新的业务,它会出现很多新的情况,我是有很多业务的底线要去遵守,我有不能承担的资损,我又有不能容忍的用户行为,所以这时候需要用规则来做一个业务的兜底,而很多时候风险它又是突发的,我们如何能够快速的止损,这时候必然要通过一些有效的规则来实现,因为这时候等你去做一个算法,那是来不及的。那么从特征上来说,规则很多时候他就是用的一些非常强的特征去直接的做判断和识别,而且规则非常依赖专家的经验,就是人对于业务的理解和对于数据的理解。
算法很多时候是随着你业务的发展,你就会有很多的油水、有很多的羊毛,那么别人自然会想办法去绕过你的那些规则来获得利益。所以这时候算法承担的角色更多地是一个非常深度的对抗。其次算法它是一个慢工细活,因为大家都知道,为什么要用这个算法,不用那个算法,为什么用这一个参数的组合这样调参不用那样,为什么你最后是这么去使用这个算法,那都是有非常大的很细致的工作要去做,这个周期也是比较长,可能有时候一两个月两三个月一个算法才完成从它的设计到最终上线发挥作用。从特征上来说,算法更多的时候,它是一个强弱特征共用的过程,算法其实也就是大家常说的人工智能。
另外我想介绍一下智能风控中一些代表性的算法,我在内部给算法的项目起了个名字叫七剑下天山,因为小红书目前我们团队还比较年轻,不像阿里有那样一个层次化的梯队和分工,很多同事他既要每天处理日常的一个风险,像一个分集的剧情,然后他又要去做一个长线的算法,就像一个长线的剧情那样去开展自己的工作。我们觉得七剑下天山这个名字是非常的贴切,就是我们先练好七把剑,然后下山斩妖除魔来进行这样一个风险的对抗。
比较有代表性的就是第一把剑莫问剑图神经网络的学习,因为这几年集GCN也是非常的火,小红书作为一个社区,它有用户和笔记的关系,也有用户和用户之间的关系,那么组成了这样的一个社交网络。那么我们使用GCN去训练的时候,就自然会拿到用户笔记作为点上的一些特征,以及他们的各种交互interaction之间的一些特征来进行学习,那么事实证明确实能学到很好的东西,很有意思的一些结论。
然后还有一个就是图上的社区发现,因为图上的社区发现在风控领域也热了很多年了,小红书作为一个社区,其中有人喜欢美妆,有人喜欢汽车,本身就是一个天然的兴趣的社区。那么其次作为黑产来说,它会有很多的团伙特性的出现,那也可以看作是一种社区。所以我们把这个名字起做游龙剑,因为图上的社区发现背后的数学原理很多都用的是随机游走的思想,然后目前我们也是一个麻省数学系的同学在做这样的一个算法,接下来还有标签传播算法,因为风控有很多很经典的场景就是说我们能很轻易的拿到一些肯定是有把握的黑样本或者白样本,但这时候它的数量是不够的,我们怎么办?标签传播算法在业界也热了几年了,它可以作为一个经典的场景,通过这种相似关系把黑白样本给扩充出来,获得一个更大的黑白样本集合和我们需要的一些信息。
最早我在蚂蚁金服就开始了标签传播算法的工作,做到现在其实也是希望通过这个项目能做些新意出来,在一些新的社区上达到一个旧书常读出新意的一个人生追求。然后另外还有一个迁移学习,就是说很多时候风控也会对特定的文本或者特定的图像去识别某种特定的风险pattern。但是作为一个风控的算法团队,你很难说我去训练一个base的bert,或者base的ImageNet这样的一个模型,我肯定是要进行一些迁移学习来快速识别我想识别的那些风险pattern,所以其实叫日月剑也是蛮贴切的,最终完成一个乾坤大挪移,不同的倒面之间的知识进行迁移,不同的future领域进行迁移,不同的label空间进行迁移这样的一个效果。当然我们还有更多的剑在路上。
然后想讲一下智能风控依靠的云计算能力,就是说其实很多的公司一开始肯定追求的是这种业务的成功或者是算法的成功,没有办法像阿里这样沉淀一个非常大的中台、后台。缺少这些东西的时候,你怎么来开始你的工作?比如说你很多新业务刚上来,你本身的风险积累就比较少,你怎么来做?这时候其实就可以考虑引入一些云风控的服务。
其次大家想做人工智能,很多时候会缺乏人工智能硬件管理的平台,以及你怎么去完成模型的训练,这时候云上的资源、云上的平台都是非常好的一种选择,尤其是当我们从一开始的一些建议已经配妥了以后,开始要做一些模型和算法的工作的时候,会发现模型的运维成本是很高的,因为模型不是简单的说我们训练了一个模型文件,然后跑了个预测就好了的,我们要持续的观察模型的表现以及新的模型文件的替换,这样的流量测试还有等等一系列的问题,这时候肯定是需要一个自动化的平台来工作的。
其次还有一个绕不开的问题就是说一线的算法工程师很多时候是缺乏开发能力的,比如说图神经网络这个东西,你让一般的算法工程师用PyTorch或者Tensorflow去实现一个多卡的分布式训练,然后再实现一个高效的预测,基本上是一个很难的任务,至少在我认识人当中很少有人能胜任这样的工作,这时候怎么办?我们只能专业的事情找专业的人,使用一些进一步封装的专业化的计算库,寻求生态圈内的合作伙伴来解决这个问题。
最后我想展望一下未来,其实我觉得未来有几个非常重要的关键词,人工智能中的人工,还有君子不器。随着人工智能的发展,智能虽然越来越强了,但是还是有很多种标注的任务,以及说你随着新业务往往是伴随着新的风险,专家知识依然是要为风险去把关的。
其次很多标注的任务它是跟你的生态,比如说小红书的调性,什么是小红书的调性?那是随着业务的理解去打标的,而不是随便就能够打出来的,这时候都非常需要人的专家知识,还有说君子不器,就是论语中说君子不器就是说君子不能只成为某个领域的专才,因为风控要面对的对象是很多的,有图像的、有文本的、有视频的、有关系的、有行为的,就是我们对各个领域的算法都要有了解,都能够应用它去进行风控,而不能陷入那种门派之争,就像倚天屠龙记当中的杨逍说的一个人的武功,有了门派就是落了下乘,其实我们希望有这样一个开放的心态,最终能做到君子不器。
其实技术上也有很多的东西需要攻克,比如说反例攻击,因为随着神经网络的使用,越来越多的神经网络本身就很容易被反例攻击,我们也观察到了很多有意无意被反例攻击的一些案例。其次还有联邦学习,就生态圈中如何能更好的赋能和被赋能,我觉得联邦学习是一个探索的方向,这样的话就不单纯只是一个结果之间的赋能,其次还有大量的技术要突破的,比如说图神经网络,我们真正用多GPU去训练的时候,目前还遇到就是每个GPU的利用率是比较低的,如果这个问题不能够很好的解决的话,花那么多钱你去买GPU,最后利用率很低,财务就会来找你。还有包括我们在使用图数据库等等方面,尤其风控对时间的要求是非常的严的,可能在特定的时间就一定要出结果的,所以不管是training的效果还是一个influence,时间上的提升都是非常重要的,所以这些在未来还是有很多技术的突破,但是我觉得不管技术如何发展,时代如何发展,那么决定战争胜负的还是人的因素。
谢谢大家!
更多大数据客户实战案例:https://developer.aliyun.com/article/772449