到底什么才是大数据?
我们每天都能听到有人说“大数据”,但是大数据到底是什么,又代表着怎样的发展趋势,貌似有不少人会有这样的误解:
- 在大数据中数据越多越好,数据够多就可以有更多的价值;
- 我们是小公司,所以跟大数据没关系;
- 大数据就是 Hadoop;
- ……
其实不然,大数据并不是数据越多越好,数据也有好坏之分,只有挖掘出数据背后的关系和价值,才是真正的大数据之道。另外,是否需要做大数据是由公司业务决定的,并不是小公司就与大数据没关系。而 Hadoop 绝对不等于大数据,虽然 Hadoop 已经成为大数据领域的标准工具,但该领域还存在很多其他类型的处理系统。
之所以我们对大数据有各种各样的误解,主要是因为大数据本身是一个很庞杂的体系。作为一个火热概念,很多人在宣讲自己的成果时都把“大数据”挂在嘴边,以至于很多公司以为只要搭建起大数据体系,一股脑地把数据收集起来,就能够提升公司的业绩,发现新的商机。
为什么大数据会被广泛应用
大数据系统能够得到广泛应用,主要得益于以下两方面的进展。
底层硬件的支撑
1997 年,我拿到的第一台电脑内存只有 16 MB,硬盘只有 2 GB。放现在来看,这样的配置就是一个“笑话”,但在当时,这已经算是一个中等偏上的个人电脑配置了。而就是这样一台电脑,在那个年代竟然要花 7000 元,这个价格在今天随随便便都可以配一个 16 GB 内存、2 TB 硬盘的机器,内存和硬盘的容量增加了 1000 倍!更别说,虽然都是 7000 元,但是二十多年前一元钱的购买力是明显超过现在的。
我记得当时用电脑玩《三国群英传》的游戏,100+ MB 的存储大小还需要我对硬盘各种清理才能有空间容纳,而现在一个游戏动辄几十个 GB,我们的电脑存储起来都不在话下。
可见,我们的数据存储成本比起二十多年前已经极低极低了。
也正是这样,在气象相关的数据收集上,不再是只能保存重要数据,而是可以保存更多更完整的数据,到需要用到的时候,就可以取出来进行挖掘分析。
当然,除了存储以外,计算性能、网络带宽,这些年都在快速地发展,这些都为大数据的运算处理以及大数据集群的构建提供了有力的硬件支撑,在这方面我想你也有非常深刻的感受。
数据生产方式
在硬件发展利好的基础上,数据生产的方式也随之发生了巨大的改变。
随着网络、手机、电脑等设备的普及,越来越多的人成了内容的生产者,也就是我们现在所说的自媒体。微信公众号、今日头条,以及今天盛极一时的抖音、快手,都是依赖大家自发地去制作和上传内容,在这些平台上,每天发布的内容数量要以千万甚至亿级来进行计算。
在我们的生活中,除了这种主观创造的内容数据,被动数据的生产则更加迅速:
- 手机会时刻记录下你停留的位置、你行走的步数;
- 路口的摄像头不停地记录着每天在这里发生的事情;
- 气象站的传感器 24 小时都在上传各种气象指标。
这些数据的生产是源源不断的,所以,每天都会有大量的数据产生并且被存储下来。
大数据的4个重要特点
基于以上两方面的发展,大数据系统才得以广泛应用,从中我们不难看出大数据的一些特征。
同样如果在网上搜索“大数据”,可能大家对它的定义不尽相同,但总体而言,都有着一些共同的特征。这些特征不外乎 4 点:数量多(Volume)、种类多(Variety)、速度快(Velocity)及数据价值(Value)。
大量数据
要说大数据数量多,这是无可争议的。正如我们上面所说的,硬件的发展及数据生产方式的变化,使得数据的数量急剧膨胀。使原本散落的信息变得连贯起来,并不停地生产,不停地交换。有一种说法是,最近两年所产生的数据量与过去人类产生的数据总量基本一致,而且在接下来的一段时间里,仍将继续保持这样快速的增长速度。
种类繁多
现在的数据不再局限于一些精密的数字,你写的一段话、拍下的一张照片、录制的一段音频或者视频,都是大数据的组成部分。这些主要源于我们的视觉、听觉,在不久的将来,我们的触觉、味觉、嗅觉等数据也会进入机器获取的范畴,从而形成完整的数据获取体系。
高速
在大数据的背景下,所有环节都变得更快了。这里的高速不单单指数据的生产速度,还有数据的交换速度、处理速度等。比如,当你在京东商城浏览商品的时候,你的每一次点击都会以毫秒级的时延传输到服务器上,而服务器集群又会根据你的这些行为,迅速地为你推荐出新的商品,在你下一秒的浏览内容中展示出来。显然,如果这个过程太慢,可能还没等后台的数据计算完成,你就已经关掉了京东转头去了淘宝,那岂不是会损失客户?所以,高速也是大数据体系一直不懈追求的目标。
数据价值
我们拥有了大量数据,一定是期望这些数据能给我们带来一些价值。显然,大数据是有价值的,但是大数据价值有一个特色——价值密度低。
比如,危险品生产车间的监控摄像头在 24 小时不间断地记录并回传着数据,但是这些数据通常都是毫无变化的,它日复一日地记录着,每隔一段时间就需要删除一些,以便腾出存储空间。当出现异常的时候,比如说在视频中发现了高温点,可能是车间中存在火苗,这个时候需要立即调用消防系统对火苗进行扑灭,从而防止危险发生。像这种存在价值的数据可能只是摄像头记录的一个微小片段,所以说数据的价值密度较低。
以上就是大数据的一些重要特点。也就是说,符合这些特征的数据,我们基本可以认为是“大数据”。
大数据的工作环节
数据的采集
各式各样的数据生产方式都需要我们配备完整的数据采集方案,譬如你想要在 App 上收集用户的行为信息,就需要进行各种数据埋点。
数据的存储
虽然说存储的硬件成本降低了,但是终归还是有成本的,同时数据也不可能杂乱无章地堆放在存储设备上,所以对应的数据库和文件存储方案,需要经过精密的设计来支撑这种巨量的数据存取。
数据的计算
目前主流的就是批处理和流处理两种方式,而针对这些方式,又有多种计算框架被研制出来,比如当前应用广泛的 Spark、Flink 等。
数据挖掘与分析
鉴于大量的数据和低密度的价值,我们期望能够使用一些巧妙的方案,从中找到那些有用的信息甚至是结论,于是各种算法与工具层出不穷。
数据的应用
从数据中挖掘到的有价值的信息正在我们的身边发挥着巨大的经济价值,内容推荐、气象预测,乃至疫情控制,都是在大数据的指导之下进行的。
数据安全
大数据有着重要的价值,而这些数据一旦泄露也会成为不法分子危害我们权益的帮手。所以,如何保障数据安全也是一个重要的问题。