祝建华:一个文科教授眼中的大数据

大数据正是大热。我做了个小统计,SCI/SSCI期刊上已发表270篇有关大数据的研究论文,大部分是最近一两年内出现的。其中来自计算机科学和工程技术的最多,分别占了27%;其次是医学生物化学(20%)和基础研究的数学、物理等(11%);最少的是工商管理(8%)和社会科学(7%)。我涉及的就是最后这15%的研究。


用现在的网络语言,我是一个文科男。最近莫言在接受诺贝尔奖时说了一句话,文学不是科学,文学是做无用的东西。我想说明一下文学不等于文科,文科的面更广,可以进一步分为人文学科和社会科学。社会科学研究历来与数据打交道,当然以前用的都是小数据,数量少、速度慢、耗工时,但是质量好、也省资源,符合现在的绿色理念。我根据长年研究小数据的经验出发,讲讲对大数据的一些看法,其实也是社会科学界的一些共识。读者看完后也许会同意,文科(或者社会科学)与科学一样,做的东西也是有用的。


眼下大数据正是大热。我做了个小统计,SCI/SSCI期刊上已发表270篇有关大数据的研究论文,大部分是最近一两年内出现的。其中来自计算机科学和工程技术的最多,分别占了27%;其次是医学生物化学(20%)和基础研究的数学、物理等(11%);最少的是工商管理(8%)和社会科学(7%)。我涉及的就是最后这15%的研究。


我有幸加入了中国计算机学会最近成立的大数据专家委员会,也参与了委员会对大数据研究的一些热点问题和发展趋势的评选工作。按照我的理解,最近委员会发布的对大数据研究的八个热点问题和十大趋势,应该是全球范围内至今最系统的一些看法和表述。当然美国和欧洲的各个机构、商业、学术团体都有一些非常精辟、精彩的看法,但从全面性讲这可能是第一个文件。


大数据这个概念在受到关注的同时,也出现了很多批评的意见。也许大家都见过这一条报道,Sybase的技术总裁Irfan Khan认为,“大数据是一个大谎话”。Sybase是做一家数据库的公司,长期为企业做BI应用工具。他们一直在做大数据的工作,所以觉得现在讲的大数据中的所有东西早已有之,不是什么新的东西。他从这个角度讲大数据有点泡沫,有点夸张。当然,我们做实证研究的人并不完全认同他的说法,大数据的宣传中确实有些地方有点夸大,但没有夸大到虚假谎言的地步。


什么是大数据?最流行的定义是4个V: Volume,Velocity, Variety, Value。我觉得这4个V大致与中文里的“多、快、好、省”四个字相对应。这四个字当中,有些是理论上应该实现的、有些实际上已经展现出来了、但有些现在还有差距。大数据是不是真的多、快、好、省?我下面逐一谈谈。


大数据之“多”


大数据首先就是数据多。这一点大家讲的很多,似乎没有什么分歧。其实不尽然。关键在于我们用的是总体数据、样本数据、还是局部数据。什么是总体数据?大家都明白。最直观的例子就是每10年中国和其他很多国家都要对全体居民进行人口普查,其结果就是总体数据。中国最近一次的人口普查在2010年,发现有13.8亿人。样本数据也不难理解,通过抽样获得。如人口统计,除了每10年的普查,国家人口中心每年还要做千分之二的抽样调查,用得到的样本数据来估计每10年两次人口普查之间中国人口增长的变化。局部数据呢,则是总体数据的一个子集,但不是通过随机方法从总体中抽出来的,而是用各种便利或现存的方法得到的。局部数据往往比样本数据大很多,但两者有严格的区别。


这些都是常识。我们来看看大数据的情况。理论上讲大数据指的应该就是总体数据。但实际上,由于技术、商业、保密和其它原因,除了少数大数据的原始拥有者(例如淘宝、新浪微博、国家电网、教育网等,他们也许是真正掌握了总体数据的),对于绝大多数的第三方来讲,现在大家讲的大数据,基本上都不是总体数据而是局部数据。注意,这种局部数据,哪怕占了总体的很大一个百分比(70%、80%),既不是总体数据、也不是抽样数据。因为哪怕是缺了10%、20%的个案,局部数据跟总体也许就有很大的差别。


三种数据中,如果只考虑质量、不计成本、效率等其它因素,总体数据最靠谱,其次是样本数据、最不靠谱的是局部数据。我相信很多工科男并不认同最后这句话。在我们看来,样本数据虽然规模要小很多,但实际上在很多情况下比局部数据要更有价值,更可靠。图一是我做的一个模拟,随机产生了一万个数值(蓝色),姑且把它当作是总体。我从中随机抽了500个值(红色),这个样本看上去很稀疏(即误差大、不够精确),但是它对总体的代表是很好的,即在X和Y轴上的平均数都与总体相同,都在原点上。我再抽8000个值(即总体80%)的局部数据(绿色),人为的设定一些限制,使得正面数值更容易出现,结果紧密的多(即误差小了),但其平均数往右上方向偏,即精确但不准确。如果依靠局部数据,被局部数据的海量规模所迷惑,其实是害死人的。


历史上有过很多案例,显示了局部数据大而无当。社会科学研究方法中,一般都会讲到是美国1936年的总统选举。当时有两家公司在做选举预测。一家是《文学摘要》杂志,随着杂志给读者寄问卷,回收了250万份问卷。当时全美选民大概是1亿左右,250万已经是相当大的一个局部数据了。他们经过分析,预测共和党蓝顿比*党罗斯福领先14%,以绝对优势当选。另外有一家是盖洛普民意测验中心,那时只是刚起步的一个小公司,用随机抽样的方法调查了5万人,预测将是罗斯福以56%的得票率当选。最后选举结果罗斯福战胜蓝顿,也即盖洛普的小样本战胜了《文学摘要》的大局部数据。因为当时订购杂志的人更有钱,所以对共和党更支持。数据只是大而不具有代表性,后果更差。


数据的信息量,一方面是由个案多少决定的,另一方面是由变量(即个案的特征值)多少觉得的。社会科学家们用的数据是个案少、变量多。理想中的大数据,不仅要个案多,而且要变量多。我了解的现实生活中的大数据仅仅是个案多,变量并不多,与我们社会科学家的小数据正好相反。个案多、变量少的数据结构是我们面临的大数据的基本现实。造成的原因之一就是每人只掌握了一小部分变量,也就是所谓的数据孤岛。只有通过分享、整合才能产生多个案、多变量的真正的大数据。


大数据之“快”


现在对大数据的处理方法,以单位速度计,肯定是快。但是,光讲效率不讲效果是没有意思的。我还是用社会科学研究作为慢的例子和现在的大数据的一些基本方法来做比较。我们做的都是手工标注,大数据主要是自动分类。从规模上是没办法比的,我们一般一个样本只有几千个,现在几百万是小数据的,成百上千亿才是常态的。从准确率来讲,人工永远超过机器的。有人统计过,我自己观察到,机器学习的准确率平均差不多在80%左右,当然也有些做自然语言处理、人工智能的会说某一个特定的项目能做到90%。但是如果把所有的研究都拿来平均一下,80%也许是比较乐观的记录。人工情况下基本能做到90%、95%,一般社会科学的学术期刊不接受准确率低于95%的论文。


另一个问题是你怎么知道准确率?我们的一般方法是对同样的内容有两个或者更多的人分别独立(即背靠背、互不知情)的进行标注,最后计算相互的相似度,来估计准确率。而大数据的处理,如果是全自动无监督的学习,其结果的准确率其实是无法知道的。现在大家都在抓网上内容做预测,到底预测准不准,也许永远是一个未知数。从误差来讲,人工判断有误差,但这些误差都是个人误差,如果有几个人同时做的话,其误差可以互相抵消。机器学习的误差是系统性的,如果你知道偏在哪儿,可以很容易的就把它改过来,但误差偏在什么地方一般是不知道。这就是我刚才讲的,局部数据问题在系统误差,到底是往左偏,还是往右偏,偏高了还是偏低了并不知道。所以,按照我们的看法,人工处理的小样本数据,研究结果是准确的,但是不够精确,即不够稳定。机器学习的方法倒过来,因为你有海量的数据,非常精准。其实精准这个词从英文里面是precision,只有精确的意思而没有准确(correct或accurate)的意思。精而不准是目前大数据的一个问题。大家很自然的会想到,我们需要把人工标注和自动分类结合起来,做有监督的机器学习。机器学习的质量是由训练集的质量、训练集的规模和学习的算法三方面决定的,而这三者的重要性就是按照这个顺序排的,最重要的是训练集的质量,也即人工标注的质量。


大数据之“省”


这里的问题是省了人工,还是省了能源?大数据肯定省了人工,但同时在耗能。这是一个环保的大问题,我不展开讲,实际上大数据是惊人的耗电。如果现在才开始规划,不注意的话,也许几年以后大数据就成为一个新的污染重工业。我听说某些地方在建大数据中心,搞几百万台服务器。我们可以想象得到其所耗用的能源和所产生的辐射,是非常可怕的。实际上现在的各种数据每年递增的速度远远超过我们现在存储能力的递增速度。在这种情况下,除非我们的存储材料有突破,不然我们必须要想好一个问题,真的能够把总体数据保存下来吗?中国联通的数据只能保存4个月,然后必须删除以保存新数据。我认为出路还是在抽样,把大数据变小。


大数据之“好”


大数据一定比小数据好吗?这个问题是所有问题的核心,现在还没有答案的。我认为以下几个问题值得考虑。第一,大数据是好,但是大数据在哪里?如果我们拿不到大数据,就是一个橱窗里面的蛋糕,只能在外面观赏。我们可以把大数据分成几种,小规模、中型规模、巨型规模。小规模的数据非常多,免费就可以得到。中规模数据在大部分情况下也是免费的或者是低成本的。真正巨型规模的大数据其实是得不到的。做应用也好,做工具服务的也好,都必须面对这一现实。


第二是我们真的有处理和分析大数据的能力吗?我认为现在的大数据分析工具并不发达,现在所用到的绝大部分工具都是用来解决小数据问题的,用来解决常态数据的。对异态数据的统计工具,现在基本上没有。最近《科学》杂志发表的一篇文章中报告了用于大数据两元相关分析的一种方法。学过统计的都知道,小数据的两元相关分析是一百多年前就有了的。也就是说,我们处理大数据的能力还是处在起步的阶段,相当于19世纪80年代的小数据水平。当然,我们肯定不需要再用120年的时间才能使大数据分析能力达到今天小数据的水平。但是,我们必须对大数据分析能力的现状有客观和足够的认识。


总之,我对大数据的看法即不是完全乐观的,也不是完全悲观的。大数据肯定代表了一个新世纪、新纪元的到来。大数据的潜在价值也是客观存在的。但是数据的应用、数据的分享,其实还是有很多问题的。数据的存储与分析,其实还是刚刚开始。现在是商业和社会应用远远走在了科学研究的前面。有志于大数据研究的科学家、社会科学家们要努力赶上。

本文来源于"中国人工智能学会",原文发表时间"2014-09-26"

上一篇:阿里云发布边缘容器,云边端一体化时代来临


下一篇:MS-CRT的malloc以及MS的HeapAlloc--本质基础上的改进