机器学习技术如何打击网络零售欺诈行为

Amazon Prime会员日取得了巨大的成功。据称今年的销售总额较2016年提升了60%,总收入达到近20亿美元,称其为成功确实并不为过。

机器学习技术如何打击网络零售欺诈行为

但同样着眼于数字,很多朋友可能并不清楚,Amazon公司有近5%的收入因欺诈行为而损失,总额达1亿美元。对于企业来说,这绝不是笔小钱。而且不仅仅是Amazon Prime会员日,事实上每一家网络零售商在每一天的运营当中都面临着网络欺诈的威胁。

而圣诞节等标志性零售高潮期的到来则会令事情变得更糟。有鉴于此,我们该如何阻止此类状况?至顶网与Fraugster与Riskified两家欺诈预防初创企业就机器学习技术在这一领域中的作用展开了交流。

欺诈行为解析

根据零售行业博客平台Retail Minded发布的文章,目前主要存在两种欺诈类型,即退款欺诈与信用卡欺诈。退款欺诈主要体现为以未发货为理由进行退款申请,而信用卡欺诈则是买家违约而导致发卡方向商家收回货款。

信用卡欺诈在本质上由恶意人士利用被盗卡号在各电商网站当中尝试购买商品,直到找出能够顺利使用的卡号为止。在此之后,他们会利用同一卡号在其它商店进行欺诈性采购。

此类欺诈行为能够依靠专业知识与资源被及时发现。像Amazon这样的电商巨头可能会选择内部处理,但大多数零售商并不具备这样的能力。总而言之,任何零售商都不希望把资源浪费在这样的工作身上。

根据2016年发布的一份报告,零售商因欺诈承受的损失约占其年度全渠道营收总额的7.6%,包括线上与线下销售。其中7%来自退款欺诈; 74%用于欺诈管理软件、硬件及员工的相关支出; 19%则来自误报问题--即正常交易被错误地识别为欺诈行为。

而这一切都在我们身边持续发生。单以AMD产品为例,相关商品在Amazon之上的欺诈尝试活动出现150%的快速增长。而将退款欺诈与误报问题另以结合,我们可以计算出这部分损失将占整体营收的5%,即前文提到的Amazon Prime会员日1亿美元损失这项结论。

当然,零售商在欺诈管理软件、硬件以及员工方面的支出早已有之。对其而言,这部分开销已经被视为尽可能降低欺诈损失所带来的必要成本。

很明显,这一行业需要耗费相当规模的资源、时间与精力,且以大量数据作为判断指导。而与任何其它拥有类似情况的行业一样,机器学习技术似乎为其指明了新的解决思路。而这也正是Fraugster与Riskified得出的结论。

不再误报,我们主动出击

Riskified公司专门为企业级网络零售商提供欺诈管理解决方案,且由Eido Gal与Assaf Feldman创立于2012年。Assaf为麻省理工学院毕业生,拥有长达15年的机器学习算法开发经验; 而Gal则一直效力于各类风险与身份解决方案初创企业,包括已经被PayPal收购的Fraud Sciences公司。

Gal解释称,他们意识到电子商务行业在风险管理方面存在短板。"虽然大多数零售商都依赖于第三方解决方案部署在线业务,例如付款处理与网站创建,但每位商家却都希望能够内部搞定欺诈问题。当时市场上提供的欺诈预防工具主要负责为零售商提供每笔交易的风险评分,而零售商的内部团队则借此决定是否接受该笔订单。"

Gal指出,这类评分工具能够标出一切在统计学意义上存在风险的交易,而欺诈团队则专注于防止相关损失。

这样的结合意味着零售商有可能因涉嫌欺诈而最终流失大量合法客户,进而引发营收降低。面对这一挑战,Riskified公司的思路在于将欺诈检测工作外包给专家处理,而零售商则可继续专注于能够切实提升营收并改进客户服务的事务。

该公司构建起一套基于机器学习技术的欺诈检测系统,同时尽可能确保其商业模式与零售商的目标保持一致,即为客户提供更好的销售体验,同时避免欺诈问题。Riskified公司并非为每笔交易提供风险评分并收取固定费用,而是直接向零售商提交交易的批准或者拒绝结论。

Riskified公司最初专注于发现误报问题,但随后亦逐步将业务扩大到其它欺诈方向。公司仅向实际涉及退款欺诈的相关批准订单收取费用。Gal指出,这能够激励Riskified方面尽可能多地批准正常交易,而其恳求承诺则意味着其需要为批准的每项交易承担责任--这意味着其必须尽可能准确地发现各类欺诈行为。

为了实现这项目标,Riskified公司的算法必须既不太过挑剔、又不过于宽松。Gal解释称,在原有系统当中,每个数据元素都会带来一项分数,而最终交易风险正是以这样的积累分数所表现。

举例来说,任何涉及中间转发人或者通过代理服务器下达的订单都会受到评分"惩罚"--因为这些正是欺诈活动中的常见指标。

"Riskified公司的机器学习模型则要复杂得多,其会考虑引入更多能够提供订单上下文信息的数据点。在本示例当中,归功于丰富的自动数据体系,我们的系统能够利用种种迹象证明商品的最终交付地为中国。"

"我们都知道,从统计学角度来看,中国的消费者能够会使用代理服务器进行在线购物; 另外为了避免高昂的运输成本,很多中国消费者亦会使用中间人转寄服务。这些结论都会作为特征被纳入到我们的算法当中。"

"不过我们的机器学习模型还需要纳入更多其它数据点,例如购物者的在线行为、访问足迹以及以往与其它商家之间的交易等等。只有在对这些相关数据进行评估之后,模型才能够做出最终的交易批准或者拒绝决定。"

"在我们刚刚建立Riskified公司时,我们的整体服务在于帮助各零售商判断正常的交易订单。但在此之后,我们不断扩大业务范畴,如今大多数零售商如今都开始利用Riskified方案处理其整体在线业务。"

无为而治

在应对欺诈活动方面,Fraugster这家建立于2014年的德国-以色列支付安全厂商则有着自己的办法。Fraugster公司由Max Laemmle与Chen Zamir建立。Laemmle曾强调称,在经过多年的支付行业工作之后,他们切实体会到电子商务欺诈行为所带来的严峻挑战。

他将自己的愿景描述为"设计并构建一套有助于建立无欺诈世界的反欺诈技术方案"。Laemmle指出,他们发现全部现有反欺诈解决方案都是利用过时技术构建而成,且无法应对水平高超的网络犯罪分子。

"现有基于规则的系统以及经典的机器学习解决方案存在昂贵与速度缓慢两大弊端,其无法实时适应新的欺诈模式,因此不能提供准确的结果。我们的情报与支付专家团队近年来一直在努力设计专有技术,而最终打造出的先进人工智能(简称AI)技术不仅能够消除支付欺诈问题,还能够降低误报数量以最大限度提高企业收益。"

Laemmle针对其解决思路作出了以下解析:

"将源自人类自规则或流程总结出的直觉转化为机器推理能力。如此一来,原本需要大量人力工作的任务即可由机器学习技术所取代--其并非取代原有规则或流程,而是直接充当人类的直觉判断。最终的结果是,机器经过训练后能够提供一套具备良好确定性的精准判断系统。我们的引擎需要丰富的词汇作为基础,且能够将这些独立词汇与描述性语句乃至段落正确结合。我们需要扩充词汇量、持续训练引擎并选择正确的词汇以描述正确的情景。"

Laemmle指出,其立足Amazon进行电商销售的客户将AMD相关产品的欺诈行为发现率提升了150%。

"由于交易数量增长以及相关资源分配量的降低,如今欺诈活动往往能够轻易逃脱人力审查系统或者经典机器学习系统的检测。"

"这并不是由于准确性不足,而是因为这些系统往往缺乏可扩展性与必要的速度以适应新的欺诈模式。网络犯罪分子通常并不关注销售本身(因为其根本不打算实际支付款项),而只是考虑在销售期间如何逃过安全系统的法眼。"

"其一,由于交易数量更大,因此人工审查往往难以与之匹配,因此在售商品可能会交由另一套专门负责查询低价商品并遵循审查规则的系统处理。我们的技术方案拥有极强的可扩展性与自我学习能力,因此其能够实时发现各类前所未有的欺诈模式。"

"一切机器学习厂商都需要考虑数据无法实时处理的情况,这意境丰其必须对数据进行预先分段。其解决方案不具备充分的自动化/无摩擦特性。相比之下,Fraugster公司没有使用任何人类分析师、规则或者模型。我们的引擎完全自主运行,且不会在退款流程当中出现任何冲突。"

黑匣子中的判断流程

每家企业都拥有自己的实践思路与业务优势,这一点不在本文的讨论范围之内。关键在于,对于大数据创新成果在现实生活当中最具影响力的应用方向,即使我们大多数人都并不关注甚至无法理解其运作原理,但其确实会在多种层面上带来深远影响。

同样重要的是,技术解决方案的透明度与合规性同样需要得到严格保障。就这一话题,Assaf解释称:

"尽管最近欧盟法律要求各依赖于机器学习技术以制定用户相关决策的组织机构充分解释这类决策当中涉及的具体数据,但从另一个角度来讲,机器学习决策流程当中的透明度本身就是一种商业需求。在我们这个行业当中,零售商需要明确了解特定买家的采购订单为何被视为欺诈活动并遭到拒绝。"

"如果发生了导致极高退款额度的连环性欺诈攻击,那么在线商家必须要接受支付网关/处理人员的问责,同时需要解释这些欺诈性采购活动为何会被算法认定为合法,以及其曾经采取哪些举措以确保案例的正确识别。"

"这长久以来一直是科技领域的一大盲点,也正是众多企业不愿使用基于机器学习技术相关工具的一大关键性原因。他们认为这些工具属于'黑匣子'类解决方案。面对这样的困扰,Riskified公司投入了大量资源,希望帮助零售商以透明化方式了解我们的机器学习决策过程及其合理性。"

"这一切皆已经由Riskified公司的数据科学家们经过努力而实现。在利用机器学习决策方案进行判断时,数据科学家们会将这一流程进行可视化处理,从而连贯地传达决策模型背后所遵循的判断逻辑。"

正如我们在前文中所提到,目前市场产品中的透明度与机器学习表现存在巨大差异。这种对透明度的要求不仅源自监管框架,同时亦来自大多数商业用户。而正如众多从业者所强调的,尽管目前各方已经提出多种方法以解决此类问题,但真正完美的解决办法尚未真正出现。






原文发布时间为:2017年7月17日 
本文作者:刘新萍
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
上一篇:C#调用C函数(DLL)传递参数问题


下一篇:飞天大数据平台2020-4月刊