《大数据原理:复杂信息的准备、共享和分析》一一第0章 引  言 这是数据。 ―Jim Gray

**第0章
引  言
这是数据。
―Jim Gray**

回到20世纪60年代,我的高中学校在重要比赛之前都会召开动员大会。在一次动员大会中,橄榄球队的教练扛着一大箱的电脑纸走到舞台*,每张纸折叠着与下一张相接,并打上孔串了起来。这位教练宣布校队所有成员的竞技能力已经被存储到学校的电脑中(很幸运,当时我们有自己的IBM-360主机),同样,竞争对手的数据也被存储到这台计算机中。我们指示这台计算机消化这些信息,并给出能赢下当年感恩节比赛的队名。于是这台计算机就吐出了前面提到的那一箱电脑纸,最后一张纸显示我们将赢得比赛。第二天,我们遭遇了在年复一年的竞争中的又一次可耻的失败。
让时间快进到大约50年前,马里兰州贝塞斯达国家癌症研究中心会议室,我正在听取一位女性*科学管理员讲述过去十年癌症研究的快速发展。她表明,当时最好的研究计划是多机构的和数据密集型的。那些受到资助的研究人员当时使用高通量分子方法,在短短几分钟内就能为每个组织样本产生堆积如山的数据,而当时能想到的只有一种解决方法,就是依靠超级计算机和一批聪明的程序员,他们可以分析这些数据并告诉我们这些数据背后的含义。
与我高中那位教练想的一样,美国国家健康研究院(NIH)的领导们认为,只要计算机足够“大”,无论输入多少信息量,它都能够输出结果。
然而在大约2003年的一天,在美国国家健康研究院的一间会议室里,我表明了自己的想法,指出不能只是单纯地向计算机输入数据,然后等待给出预期的结果。从古至今,任何一门科学都是一个约简的过程,即从复杂的、描述性的数据集到简化的概括。让那种昂贵的超级计算机来处理数据量越来越大、越来越复杂的生物数据几乎是不现实的,也没这个必要(见术语表,Supercomputer)。那天,我的想法没有被接受,研制高性能超级计算机当时仍是一个非常热门的课题,当然现在仍然是。
自基于超级计算机的癌症诊断方法提出以来已过去十年之久,那台诊断用的超级计算机设备仍没有制造出来。医院实验室用的诊断工具还是1590年研制出来的微电子显微镜。如今,我们从报刊中了解到科学家能够通过窥探组成我们基因的DNA的全部序列来给出重要的诊断结果。尽管如此,医生很少能对全基因组扫描排列,也没有人知道如何有效地使用基因数据。你也许会说医院和诊所有很多计算机,但这些计算机并非用来“计算”你的诊断结果。在医疗场所的计算机大部分仍是收集、存储、检索数据和传送医疗记录的工具。
在我们能够充分利用大量且复杂的数据资源之前,需要深入思考大数据的意义和命运。

上一篇:SpringCloud之Zuul网关


下一篇:试水Nutanix超融合架构,中通信息经验分享