“大数据”无疑是当下的热门术语,提及数据分析必谈大数据,这是对大数据和数据分析的双重误解,面对一个流行概念本身所许诺的前景和它所代表的商业利益,学界应保持高度的真诚和怀疑。本文发表于《广告大观(理论版)》2013年03期,作者结合多年的数据分析经验,就大数据面临的风险和现存问题做一个说明,并希望从大数据本身的特性出发讨论它对业界和科学研究的影响,希望能引发更多思考和讨论。——刘德寰[1] 李雪莲[2]
“大数据”成为2012年的关键词汇,被认为将会带来生活、工作与思维的重大变革。谷歌、亚马逊等互联网企业在利用大数据方面所做的工作使数据行业看到了新的发展路径。大数据在教育、医疗、汽车、服务性行业的应用所彰显的能量使企业、研究者对大数据的未来充满信心。《连线》杂志主编克里斯·安德森甚至早在2008年就断言数据洪流将会带来理论的终结,科学方法将会过时,其原话是“面对大规模数据,科学家“假设、模型、检验”的方法变得过时了”。[3]
技术的变迁在任何行业都是值得欢欣鼓舞的,但不妨在此处借用苏珊·朗格在《哲学新视野》中的论述表达一点谨慎:
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速的抓住它们,作为进入某种新实证科学的法宝,作为可用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把所有东西都挤到了一边。[4][5]
苏珊·朗格认为这是由于“所有敏感而活跃的人都立即致力于对它进行开发这个事实造成的”,这一论述放置在今日对大数据的*崇拜之中也极为恰当,大数据的流行并不意味着其它的理解与思考方式就不再适合存在,正如微软的Mundie先生所说,“以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它的技术上的、基础结构的、甚至商业模型的影响还没有被完全理解。”但不可否认的是人们确实将更多的学术兴趣转移到这一领域,而一旦人们能够以审慎的思路开始清晰的阐述它们,即便一时不能提供完美的解决方案,至少也是能让人有所获益的途径。
人们在谈论大数据的美好图景时当然没有完全忘记它可能带来的风险,但担忧多集中于大数据的后果,如信息安全,而没有集中于如何看待大数据本身。本文将就当前尤其国内技术环境下,进入大数据时代所面临的风险和存在的问题做简要分析,以希望能厘清概念,澄清一些误解。
大数据的面临的风险主要表现在以下几方面:
一、海量数据的计算速度
零售业巨头沃尔玛每小时处理超过一百万客户交易,输入数据库中的数据预计超过2.5PB(拍字节,2的50次方)——相当于美国国会图书馆书籍存量的167倍,通信系统制造商思科预计,到2013年因特网上流动的数据量每年将达到667EB(艾字节,2的60次方)[6],数据增长的速度将持续超过承载其传送的网络发展速度。
来自淘宝的数据统计显示,他们一天产生的数据量即可达到甚至超过30TB,这仅仅是一家互联网公司一日之内的数据量,处理如此体量的数据,首先面临的就是技术方面的问题。海量的交易数据、交互数据使得大数据在规模和复杂程度上超出了常用技术按照合理的成本和时限抓取、存储及分析这些数据集的能力。
现在谈到大数据,难以避免言必称美国的倾向,那么美国究竟如何应对这这方面的问题呢?
美国*六个部门启动的大数据研究计划中,包括:
• DARPA的大数据研究项目:多尺度异常检测项目,旨在解决大规模数据集的异常检测和特征化;网络内部威胁计划,旨在通过分析传感器和其他来源的信息,进行网络威胁和非常规战争行为的自动识别; Machine Reading项目,旨在实现人工智能的应用和发展学习系统,对自然文本进行知识插入。
• NSF的大数据研究内容:从大量、多样、分散和异构的数据集中提取有用信息的核心技术;开发一种以统一的理论框架为原则的统计方法和可伸缩的网络模型算法,以区别适合随机性网络的方法。
• 国家人文基金会(NEH)项目包括:分析大数据的变化对人文社会科学的影响,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。
• 能源部(DOE)的大数据研究项目包括:机器学习、数据流的实时分析、非线性随机的数据缩减技术和可扩展的统计分析技术。[7]
从这份研究计划可以看出,绝大多数研究项目都是应对大数据带来的技术挑战,目前我们所使用的数据库技术诞生于上世纪70年代,大数据时代首先需要解决的是整个IT结构的重新架构,提升对不断增长的海量数据的存储、处理能力。
笔者最早进入数据分析领域是在1986年,使用的机器是长城,520,小的IBM机器,在完成数据输入、问卷输入之后,做一个最简单的命令操作,需要等三个小时之后才能出结果,我们现在面对大数据时的处理能力,形象化来讲就是当年PC机对小数据的处理能力。
这也就是大数据常和云计算联系在一起的原因,实时的大型数据集分析至少需要使用像MapReduce和hadoop那样的分析技术并有数千台电脑同时工作,因为想做到实时分析,需要在数据库中空出分析工作空间,控制对资源和数据的访问,同时不影响生产系统。[8]在现有的技术条件下谈大数据需要充分考虑到硬件设施和分析技术的不足,因为这是前提,这也正是数据中心成为谷歌、亚马逊最高机密的原因,Facebook的开源硬件计划得到众多企业包括国内的腾讯响应的积极响应也是基于这方面的现实需要。
二、海量数据带来的风险是处处都是假规律
“如果只就人类的认识是零星、细小的而言,小之中蕴含着智慧,因为人类的认识更多的是依靠实验,而不是依靠了解。最大的危险必然是不顾后果的运用局部知识。”舒马赫在《小的是美好的》一书中用这段话来表达对核能、农业化学物、运输技术大规模运用的担忧,也适用于今日调查行业、企业、研究者对全数据的迷信、忽视抽样所带来的风险。
对于海量数据数据的计算能力随着分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等新技术的普及可以解决,但这只是关于数据处理的第一步(甚至这种处理方式本身都存在很大风险),还并不是最大的风险,大数据最为严重的风险存在于数据分析层面。
(一)数据量的增大,会带来规律的丧失和严重失真
维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也指出这一点,“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,”[9]此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为假设、检验、验证的科学方法已经过时的论调,正是出于面对大数据时的混乱与迷茫,因为无法处理非结构化的海量数据,从中找出确定性的结论,索性拥抱凯文凯利所称的混乱。这种想法在某些领域是有效地,比如它可以解释生物的选择性,东非草原上植物的选择过程,但是未必能解释人,解释事件过程和背后的规律。
大数据意味着更多的信息,但同时也意味着更多的虚假关系信息,斯坦福大学Trevor Hastie教授用‘在一堆稻草里面找一根针’来比喻大数据时代的数据挖掘,问题是很多稻草长得像针一样,‘如何找到一根针’是现在数据挖掘的问题上面临的最大问题,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。
我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:
表1 数据量增大之后带来的显著性检验问题
上表是关于2006年网络游戏历程扩散的回归分析,当样本量是5241个的时候,你会发现用一个简单的线性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量增加到10482个的时候,发现独生子女和女性开始显著,增加到20964个的时候,*外这个变量也开始显著,当样本增加到33万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。那么在这个时候,如果说上亿个人呢?样本大到一定程度的时候,很多结果自然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假关系随着数据量的增长而增长,我们将很难再接触到真相。
事实上,真实的规律是这样的:
*外
*内
图1 2006年网络游戏扩散的Logistic回归
(数据来源:第一象限)
这是网络游戏2006年历程扩散的结果,实际模型是这样的,通过这个模型我们可以看到:
1. 分文化程度、*内外不同年龄的人群在游戏使用上存在显著差异,可以清晰的看到在2006年网络游戏呈现出文化程度主导下的创新扩散规律。
2.在高文化程度人群中,开始向34岁-40岁扩散,呈现大幅增长,并形成一个峰值。
3.在低文化程度群体中,比如高中、初中在年轻群体中迅速扩散,形成一个峰值。
4.在2006年,网络游戏从文化程度的几个角度开始扩散,年龄不再只是高低之分,而是与文化程度变量综合形成的效果[10]。我们看到网络游戏这种波浪式的扩散过程,不仅可以找到2006年是谁在使用网络游戏,也可以用生命周期、家庭周期来解释原因,而通过对*内与*外人群的使用差异分析,又可以展现出工作空间不同所带来的人的行为差异。当我们把2006年的结果放回网络游戏的整个扩散历程中时,所能看到就已经不再是网络游戏本身,而是新技术带来的社会变迁过程。
对一个社会现象进行客观深刻准确的分析,对事物的理解需要数据,但更需要分析思维,在大数据时代,理论并非不重要,而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。
(二)抽样分析+全数据验证的分析思路
维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,其中之一是:分析所有的数据,而不再仅仅依靠一小部分数据。全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据,以至于再谈抽样都似乎带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足,而一个风行的词汇恰恰对于从事这项活动的人来说意味着什么才是及其重要的,如果认为大数据就是收集所有样本的信息,让数据自己说话,那么在方法论上就是狭隘的,而这种狭隘却因为其闪烁着开放、客观、全面的光芒而被忽视。
这种观点面临的第一个风险就是“全数据”在哪里?数据量达到何种程度时,可以认为是“全”数据?
这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话,当人们开始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病毒的关系,能够成功的预测一场流感)[11]数据确实能看到变化,通过变化作出“预测”,但无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要相关性,不要因果关系。这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。
维克托·迈尔·舍恩伯格认为可以允许不精确而使用大数据的简单算法解决问题,而1936年《文学文摘》和盖洛普在总统选举预测中的不同表现,至今仍然向我们表明科学、严谨抽样的重要性。《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据,而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。
没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻,毕竟不是所有的社会事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题:在与传统的流感监测数据比较之后,根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法,例如基于Twitter的流感跟踪只包含真正病人的帖子,而不是转载的流感新闻报道。[12]
三、封闭数据与断裂数据
封闭数据和断裂数据所带来的问题在第二部分已经提到,它们会产生虚假的统计学关系,影响分析结果的准确性和可检验性,下面具体对这两方面的问题做一个分析。
(一)封闭数据使数据缺乏多样化
“数据增值的关键在于整合,但*整合的前提是数据的开放。开放数据是指将原始的数据及其相关元数据以可以下载的电子格式放在互联网上,让其他方*使用。开放数据和公开数据是两个不同的概念,公开是信息层面的,开放是数据库层面的。开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料数据*地流动起来,以催生创新,推动知识经济和网络经济的发展。”[13]
开放是大数据的题中之义,也是我国*、企业在大数据时代必须适应的转变,而我们目前面临的情况仍然是一个平台一个数据,数据壁垒造成的局面是:有所有数据,同时又什么数都缺。
比如在医疗领域,大数据被认为为医疗领域带来希望 —计算机可以在模仿人类专家在直觉方面更进一步,而不必依赖EBM这样的小数据集了。医疗信息体系仍在使用陈旧的数据屏障,在这个体系中,只有通过审核的、标准的、被编辑过的数据才能被接收,由于缺乏一致性,许多可用的数据被拒之门外。这个屏障创造了同质化的数据,而排除了能使系统真正有用的多样性。[14]
再以新浪、搜狐、网易、腾讯四大微博的数据平台为例,四家公司的数据各自为阵,相互独立,关于微博用户行为分析都是基于对自己现有用户的分析,这种封闭的数据环境下,很多层面的具体分析都将受到很大的局限,比如重叠用户的分析,什么特征的人群会只在一个平台上开设账号,什么特征的人会在不同平台上都开设账号,在不同平台上使用风格是否相同,在不同账号下活跃度是否相同,影响因素是什么?这是在封闭的数据环境下无法进行分析的。
数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。
(二)断裂数据使数据缺乏结构化
封闭数据使我们无法看到多样化的数据,断裂数据则使数据缺乏结构化。来自IDC的报告显示,2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据[15],缺乏结构化本身是可以通过新技术解决的问题,正因为如此才使这个问题变得棘手。对新技术的过分追逐,一方面会使得数据本身的真实性、完整性遭到破坏,另一方面会使对数据背后的人和生活意义的分析得不到充分重视。
1.行为背后看不见人,缺失生活意义。
以淘宝为例,当淘宝想研究“究竟是什么人”在淘宝上开店的时候,他们发现并不像想象中的那么容易。
在淘宝公司的实时地图上,可以利用GPS系统清晰的知道每一秒全国各地正在发生的交易,但是对于这些人的族群特征,实时地图并不能告诉他们更多。[16]同样的问题出现在腾讯游戏部门的用户研究中,他们并不能从实时的监测中知道是谁在玩他们的游戏,他们有什么爱好、是什么性格、为什么喜欢一款游戏?他们知道的只是一个ID账号,这就是断裂数据带来的问题:表面上全面,实际上都是片段式的数据。全数据确实可以在一定程度上掌握人的行为,但是无法知道是什么样的人的行为。明白这一点,就可以理解为什么谷歌会推出Google+,以获取具体的用户信息,包括姓名、爱好、朋友、身份等具体数据。任何一个平台都有其数据收集方面的优势,也有其短板,表面上拥有海量数据,但其实都只是一个片段,缺乏连续性和可识别性。
巴拉巴西在《爆发》中介绍了一个网站LifeLinear,用户通过在搜索框中输入自己的名字就可以查到自己一天任何时间任何地点的监控录像,无论在哪儿,你的行踪都会被网站记录下来。这是作者虚拟的一个网站,但信以为真并输入网站名字进行搜索的人不在少数,因为理论上它是可以实现的,一是借助城市中的无线监视系统,反馈数据到单条检索数据库中,指示计算机追踪所有的人。二是,也是最为关键的是每个人都有固定的生活习惯、行为规律,系统可以据此为每个人建立行为模型,然后预测你可能出现的地方,并在那儿等你。[17]
这样一个系统的建立依靠技术系统,但更主要的是对每一个个体的全面了解和分析,假设、模型、检验缺一不可。在这本书中巴拉巴西介绍的另一位数据公开者,他把自己的位置数据、财产信息都传到网上,但是关于这个人你一无所知,因为没有任何关于他性格、喜好等个性化信息,是“什么都有,但什么都缺”的典型案例。
2.大量的非结构化数据颠覆原来分析的基本范式。
在大数据时代,需要处理的数据不再是传统意义上的数据,而是文字、图片、音频视频等种类多样的数据,大量的非机构化数据对数据分析提出了新的挑战,因为只有能被定义的数据才是有价值的信息。
使用人人网的用户大概不会陌生,在个人主页上会出现好友推荐,这很简单,只需要分析用户的好友,找到朋友之间的关联,就可以找到这一点。但是当人人网需要决定在广告位上投放何种广告时,则需要对大量的由用户产生的文字、照片、分享内容与好友的互动进行分析。海量的非结构化、半结构化数据如何加以结构化并从中找出规律,这需要新的算法、新的分析思维。
四、缺失数据
奥斯卡·王尔德在1894年说,“如今几乎没有无用的信息,这真悲哀。”严格的说,他一半都没有说对。只有有价值的数据才称得上信息,从数据中获得尽量多的信息并非易事,随着数据量的扩大,缺失数据产生的比例也会相应扩大,尤其当一个样本中出现多项缺失时,会加大处理的难度,除了构造模型失之准确之外,还有时间复杂度方面的问题。
对所有大数据来讲,分析哪个问题数据量都不够大,对于所有人来讲,数据都是缺失多于正常数。在数据收集和整合过程中采用新技术手段避免这一问题将使这一问题在分析上带来的分险变得更突出,比如BI公司为了避免数据的不完整性采用快速修复技术整合分散数据,这将使我们失去最原始的真实数据,这使得研究者很容易舍弃与假设不符合的数据,也使验证结论变得不再可能。
比如雀巢在200个国家出售超过十万种产品有55万家供应商,但由于数据库一团糟它并未形成强大的采购议价优势。在一次检查中它发现,在900万条供应商、客户和原材料记录中有差不多一半是过期或重复的,剩下的有三分之一不准确或有缺失。供应商名称有的简写有的不简写,产生了重复记录。[18]这一个案例中就包含了封闭、断裂、缺失数据的问题。
固然缺失数据可以尝试通过模糊数据集理论得到解决,但许多研究情境对数据的要求是有确定性的。大数据时代需要的不只是全数据、海量数据、实时数据,而是真正的开放、更可能接近精确、着眼于人和社会的分析方法和思路。封闭的数据平台,对断裂数据、缺失数据在分析上构成的风险的忽视会使我们仍然停留在小数据时代,更糟糕的是,数据还在小数据时代,方法上却已经在单纯鼓吹各种应对大数据的新技术,这种不匹配造成的混乱比大数据本身带来的混乱还要危险。
在一定意义上,我们可以运用已收集的数据,先来了解如何把事情做得更好。从这个角度上,我们再来考虑创新和大数据应用。毕竟,大数据产生影响的不只是通过协同过滤技术来预测你需要什么产品,也不只是什么时候买机票会更划算一些,这只是使人类和商业变得更聪明有趣的一个方面而已,纽约大学商务教授Sinan Aral说:“科学革命之前通常是测量工具的革命”,[19]大数据如此汹涌的发展之势和席卷一切的雄心势必将会影响到科学理论研究领域,这也是为什么我们需要保持一点冷静和审慎判断的原因。此外,大数据在推动信息共享,促进社会进步方面显示出来的潜力也值得我们为更完美的解决方案努力。
诚如格尔兹所说:“热力学第二原理、自然选择原理、无意识动机概念,或生产方式的组织并没有说明所有的东西,甚至连人的事情都没有一一说明,但他们毕竟解释了某些事物;认识到这一点,我们的注意力也就转向确定这些事物到底是什么,转向使我们摆脱这些观念在其最盛极一时之际导致的大量伪科学的缠绕。”在文章的最后,借用格尔兹在《文化的解释》提出的观点,表达对大数据研究的看法,因为时至今日,大数据这个概念的模糊之处仍多于其所昭示的,可待完善与研究之处仍然很多,我们的工作才刚开始。
本文作者:佚名
来源:51CTO