本节书摘来自华章社区《大数据导论》一书中的第1章理解大数据,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章社区”公众号查看
第1章
理解大数据
大数据是一门专注于对大量的、频繁产生于不同信息源的数据进行存储、处理和分析的学科。当传统的数据分析、处理和存储技术手段无法满足当前需求的时候,大数据的实践解决方案就显得尤为重要。具体地说,大数据能满足许多不同的需求,例如,将多个没有联系的数据集结合在一起,或是处理大量非结构化的数据,抑或是从时间敏感的行为中获取隐藏的信息等。
虽然大数据看起来像是一门新兴的学科,却已有多年的发展历史。对大型数据集的管理与分析是一个存在已久的问题—从利用劳动密集方法进行早期人口普查的工作,到计算保险收费背后的精算学科,都涉及这个方面的问题,大数据就由此发展起来。
作为对传统的基于统计学分析方法的优化,大数据加入了更加新的技术,利用计算资源和方法的优势来执行分析算法。在当今数据集持续地扩大化、扩宽化、复杂化和数据流化的背景之下,这种优化十分重要。自《圣经》时代以来,统计学方法一直在告诉我们通过抽样调查的手段能够粗略地测量人口。但计算机科学目前的发展使我们完全有能力处理那样庞大的数据集,因此抽样调查的手法正在逐渐“失宠”。
对于大数据的数据集的分析是一项综合数学、统计学、计算机科学等多项专业学科的跨学科工作。这种多学科、多观点的混合,常常会使人对大数据及大数据分析这门学科所涵盖的内容产生疑问,每个人都会有不同的见解。大数据问题所涵盖的内容范围也会随着软硬件技术的更新而变化。这是因为我们在定义大数据的时候考虑了数据特征对于数据解决方案本身的影响。比如30年前,1GB的数据就称得上是大数据,而且我们还会为这份数据专门申请计算资源,而如今,1GB的数据十分常见,面向消费者的设备就能对其进行快速的存储、转移、复制或者其他处理。
大数据时代下的企业数据,常常通过各种应用、传感器以及外部资源聚集到企业的数据集中。这些数据经过大数据解决方案的处理后,能够直接应用于企业,或者添加到数据仓库中丰富现有的数据。这种大数据解决方案处理的结果,将会给我们带来许多深层知识和益处,例如:
运营优化
可实践的知识
新市场的发现
精确的预测
故障和欺诈的检测
详细的信息记录
优化的决策
科学的新发现
显然,大数据的应用面和潜在优势十分广阔。然而,在何时选用大数据分析手段的问题上,还有大量的问题需要考虑。当然,我们需要去理解这些存在的问题,并与大数据的优势进行权衡,最终才能做出一个合理的决策并提出合适的解决方案。这些内容我们将在第二部分单独讨论。