大数据:泛滥信息中的预测性

信息革命:让一切事物都数据化

所有可计算的都要计算,所有可测量的都要测量,对那些不可测量的,要想办法让其变得可测量。

——伽利略

某些历史学家称,人类正在经历农业革命和工业革命后的第三次革命,即信息革命。IBM著名预测分析科学家科林·席勒形象地表示,信息革命的关键就是“让一切事物都数据化”。在信息时代,你所做的每个在线甚至线下动作都会被记录再案,无论是商业交易、访问网站、点击链接、观看电影、给朋友打电话……都会被有记录。每天,你的四周都充斥着信息传递装置。移动终端、自动机器以及海运集装箱,它们会记录位移信息、交互作用、库存盘点以及辐射水平。 个人健康系统会记录你的脉搏以及日常锻炼情况。现在,大量的桌面应用程序都更新为“云计算”,这使得你在电脑上的每一步操作都被记录下来。

数据中蕴含着人类行为的基本信息。诚然,数字编码从深度和广度上完全捕捉人类经验,但这并不是问题。企业会记录那些与其经验紧密相关的人类行为,因此尽管了解人类日常生活是一项艰巨的任务,但企业界早已率先为预测分析提供了宝贵的原始素材,那就是:从无穷复杂的日常生活中总结规律,然后确定生活中哪些细节最显著。

世界打开了一个全新的窗口。美国麻省理工学院的经济学家埃里克·布林约尔松教授将这种对人类行为的大规模记录、观察与历史上另一种具有划时代意义的观测工具的问世联系在一起,“几百年前,人类发明了显微镜,由此可以观测此前从来不能看到的细胞层面的活动”。《纽约时报》这样解释布林约尔松教授的观点。“这是观测史上的革命。数据观测技术就是现代的显微镜。”但与用显微镜来观测细小事物不同,我们通过数据观测来看清此前人类无法统观的宏大图景。

数据泛滥

现在,世界上的照片数量超过了板砖数量。

——现代艺术博物馆摄影部主任约翰·萨科夫斯基,1976年

现在,YouTube上每秒钟都会有1小时的视频内容上传,而万维网目前预计有83.2亿个网页。 每小时都有数百个网络交易。现在,世界上每小时拍摄的照片都要超过照相技术发明之后100年内的照片数量总和,每两分钟拍的照片数量要超过19世纪所拍摄的照片数量总和;每天, Facebook上都有超过2亿张照片上传。飞秒摄影技术每秒钟可拍摄数万亿张图片,以记录这个世界(有关每个例子的出处,请登录网站www.PredictiveNotes.com)。捕捉用户数据的移动设备超过70亿台。每秒钟有超过 100 个装置接入互联网,而且这个数字还在增长。 思科预测,到2020年,“万联网”(Internetof Everything)会连接500亿个装置。

总而言之,数据正在以难以想象的速度膨胀,现在每天新产生的数据量高达 2.5 个艾字节。 一个艾字节是1后面加18个0。1986年,如果把电脑里储存的所有数据双面打印出来,其面积将足以覆盖地球陆地表面这种增长是呈几何级的,现在,数据总量每三年就会翻一番。

你应该承认,现在,大数据最具权威性。在每篇新闻报道中,在每次科学演示中,在每个分析解决方案的广告词中,大数据都是关键词。这是危机,是机遇,是机遇的危机,危机的机遇!

大数据不是真实的存在。数据最激动人心的不是其数量,而是其增长速度。我们会永远敬畏数据的庞大数量,因为有一点永远不会变,那就是:今天的数据必然比昨天多。规模是相对的,而不是绝对的。如果我们今天使用“大”,那么很快,我们的形容词就会不够用了:“大数据”、“更大数据”、“再大数据” 以及“最大数据”。其实,早在 1975 年,一个名为“国际超大型数据库大会” 的组织就已成立。在海量数据面前,我们的词汇量显得如此匮乏。

那么,接下来的问题是,我们要如何处理这些数据才能获得最大的价值?

数据效应:数据天生具有预测性

小腿骨连着膝盖骨

膝盖骨连着大腿骨

大腿骨连着你的骨盆

——《小骨头之歌》歌词

数据简直铺天盖地,但这又如何?谁又能保证这堆企业机构经营的副产品能创造价值呢?这些只不过是无穷无尽的记录列表,是对过去发生的事物进行的强迫性的记忆堆积。

世上万物均有关联,只不过有些是间接关系,这在数据中也有所反映。例如:

? 你的购买行为与你的消费历史、 在线习惯、 支付方式以及社会交往人群相关。 数据能从这些因素中预测出消费者的行为。

? 你的身体健康状况与选择和环境有关, 因此数据能通过小区以及家庭规模等信息来预测你的健康状态。

? 你对工作的满意程度与你的工资水平、 表现评定以及升职情况相关, 而数据能反映这些现实。

? 经济行为与人类情感相关, 正如下文所述, 数据也将反映这种关系。

预测常常从小处入手。预测分析是从预测变量开始的,这是对个人单一值的评测。近期性就是一个常见的变量,表示某人最近一次购物、最近一次犯罪或最近一次发病到现在的时间,越接近现在,观察对象再次采取行动的概率就越高。许多模型的应用都是从近期表现最活跃的人群开始的,无论是试图建立联系、开展犯罪调查还是进行医疗诊断。

与此相似,频率—描述某人做出相同行为的次数也是常见且富有成效的指标。如果有人此前经常做某事,那么他再次做这件事的概率就会很高。实际上,预测就是根据人的过去行为来预见其未来行为。因此,预测分析模型不仅要靠那些枯燥的基本人口数据,例如住址、性别等,也要涵盖近期性、频率、购买行为、经济行为以及电话和上网等产品使用习惯之类的行为预测变量。这些行为通常是最有价值的,因为我们要预测的就是未来是否还会出现这些行为,这就是通过行为来预测行为的过程。正如哲学家萨特所言:“人的自我由其行为决定。”

预测分析系统会综合考虑数十项甚至数百项预测变量。 你要把个人的全部已知数据都输入系统, 然后等着系统运转。系统内综合考量这些因素的核心学习技术正是科学的魔力所在。

本文转自d1net(转载)

上一篇:《开源运营技术精髓》之负载均衡


下一篇:Windows上的单个进程所能访问的最大内存量是多少?它与系统的最大虚拟内存一样吗?这对于系统设计有什么影响?