涂子沛:数据外部性这把“大数据之剑”

“大数据”早已是个大众耳熟能详的概念,但在它的研究者看来,“大数据时代”其实刚刚开始。将大数据概念带入中国人视野的信息专家、《大数据》《数据之巅》的作者涂子沛,近日出任阿里巴巴副总裁,主导数据新商业模式的研究与应用实践,身在大数据现场的他,将为澎湃新闻撰写一系列他对大数据前沿话题的思考。本文是第一篇。


2007年,微软的工程师阿尔卡斯(Blaise Agueray Arcas)有过一个创举,他利用Flickr网站上的照片重建了一座虚拟的巴黎圣母院大教堂,通过点击,人们可以在网上从不同的角度感受这座教堂,甚至可以放大、细赏其建筑外墙上的一个具体部位,而这些照片,却是成千上万普通人拍摄的,阿尔卡斯在演讲中说,这是“从每个人那里得到数据——从人类对地球的集体视觉记忆中得到数据——然后把它们联结在一起”。


阿尔卡斯的创举并不是孤例。2014年10月8日,世界多地出现月全食,全球无数台手机对准天空的月亮,随着咔咔声响,成千上万张照片奔涌到云上。这些照片从不同的地点、不同的角度记录了同一个物体,天文研究者已经认识到,如果整合起来,其对研究工作的意义可能比一台超级天文望远镜还要重大。


这两个例子中的照片,可谓异曲同工。人们之所以拍照,是为了娱乐、分享。但这些照片被整合起来之后,我们很容易发现,它们产生了新的效用。这些效用,远远超出了拍照人最初的目的。这种现象,我称之为“数据的外部性”。


“外部性”并不是一个新的概念,经济学家在这个领域的研究,已经有上百年的历史。他们发现,一个普通个体为了自身利益而做出的“利己行为”,也可能让其他人或者整个社会受益,并且受益者无须为此支付费用。


我借用这个概念,想指出的是,数据的作用完全可能超出其最初收集者的想象、也完全可能超越其最初信息系统设计的目的,即同一组数据可以在不同的维度上产生不同的价值和效用,如果我们能不断发现、开拓新的使用维度,数据的能量和价值就将层层放大。


研究数据的外部性,对我们正在迈进的新经济、数据经济具有非常重要的意义。

阿里巴巴之所以能够不断成长、扩张,其中的一个重要原因,就是用好了“数据外部性“。由于拥有淘宝、天猫、支付宝、B2B等电商平台,阿里巴巴积聚了大量的商家交易和支付数据。阿里巴巴收集这些数据,一开始仅仅是为了完成网上交易的流水记录。

2010年开始,阿里巴巴逐渐意识到了这笔记录的潜在价值,现任阿里云总裁胡晓明先生率队开始研究如何利用这些数据,判断商家的资信,从而为其发放贷款。这就是“阿里小贷”的发源,2014年,胡晓明总结说,阿里小贷已经为70多万小微企业提供了贷款,其单笔信贷的成本为2.3元、客户3分钟获贷、不良率低于1%,这些指标都远远低于传统的银行。

阿里小贷是中国互联网金融领域开拓性的标本项目,也是日后阿里巴巴扩张、拆分出一个新的集团——蚂蚁金服的重要基础,分家不分“数”,蚂蚁金服集团的诸多业务,还必须依赖于阿里集团的数据。在这个成功的基础上,今天的阿里巴巴进而提出“一切数据都要业务化”,就是要把所有已经拥有的数据都用起来,挖掘其外部性,让他们产生新的商业价值。这当然是一个大数据公司应该具备的商业使命。

类似的例子国外也有。Kabbage是一家成立于2008年的网络贷款公司,其运作机理和阿里小贷类似,为了评估贷款人的信用,Kabbage不仅高效地整合了eBay、Amazon等电子交易平台上的数据,还分析这些企业在物流公司如UPS的配送数据、在PayPal、Square、QuickBook等财务系统的账面流水,以及在社交平台Facebook 、Twitter上与客户互动的数据。就挖掘数据的外部性而言,Kabbage比阿里小贷做得更广、更好,其中的原因,是因为美国社会对数据的所有权、使用权、收入权和转让权有更为清晰的界定,数据共享、交易的机制更为成熟。

如果把这两家公司和传统的银行进行对比,我们就更能发现数据外部性之于大数据的关键意义。

传统的银行要给一家企业贷款,必须针对这项贷款申请去访谈调查、收集数据,而被调查的企业在提出贷款申请之前,已经有所准备,他们可能采取相应的措施迎合、糊弄银行的调查,也就是说,这个过程是“先有目的、后有数据”,可能因为既定的目的,数据在收集的过程中遭遇扭曲;而阿里小贷所利用的流水数据,其最初收集的目的是记录交易过程,完全和贷款申请无关,其数据遭到扭曲的可能性几乎为零。

也就是说,数据外部性是“先有数据,再应用于不同的场景和目的”,数据的可信度因此更高。

除了推动经济发展,数据外部性还可以应用到社会管理领域。2014年8月24日,旧金山地区发生了6.0级地震,次日,可穿戴式设备运营商Jawbone发布了其数据分析。

数据表明,在距离震中较近的地区,有93%的手环用户在地震发生之时3:20分被惊醒,其中45%在地震之后就没有再睡着,惊醒用户的比例随着距离震源的远近而呈现清晰的规律。可穿戴式设备收集数据的原始目的是为了监测、改善个体的健康情况,但这些数据加总到一起,新的效用产生了,社会学家可以用它们掌握一个地区的人是否集体在失眠、焦虑,甚至一个晚上总共翻了多少次身,从而可以更好地解释人际互动乃至社会分层机制,交通部门可以解释为什么第二天交通事故增多,保险公司可以利用这些数据制定更加个性化的保单价格……这些前所未有的可能性,都是数据外部性带来的。

随着传感器和智能手机的普及,数据还在大规模的爆炸,人体的生理活动、自然环境的状态、工厂的机器运行、城市的生活将被广泛的记录,未来的每一组数据,都具备各种外部性的潜在价值。挖掘利用这种外部性,将给全世界的科学研究、经济发展和社会治理带来巨大的机遇。当然,要注意的是,数据外部性也有正、负之分,负的外部性可能会危及国家安全、侵犯公民隐私。这又说明,要用好数据的外部性,我们还亟须建章立制。



原文发布时间为:2015-01-05

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

上一篇:CEPH状态查询命令汇总


下一篇:【2022年二级Python】⑧Python计算生态