这些年,“大数据”一词已成为当下最热门的词汇之一。对于很多人来说,都不太理解什么是大数据?它比想象中复杂。大数据不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。更进一步来说,大数据是一种全新的思维方式和商业模式。
今天就让我们深入了解一下,到底什么是大数据。
大数据的定义
首先,还是要重新审视大数据的定义。行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。
广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
■ 要做什么?——获取数据、存储数据、分析数据
■ 对谁做?——大容量数据
■ 目的是什么?——挖掘价值
大数据,到底有多大?
传统的个人电脑,处理的数据,是GB/TB级别。
■ 1 GB = 1024 MB (GB - gigabyte)
■ 1 TB = 1024 GB (TB - terabyte)
而大数据是什么级别呢?PB/EB级别。
■ 1 PB = 1024 TB (PB - petabyte)
■ 1 EB = 1024 PB (EB - exabyte)
只是看这几个字母的话,似乎不是很直观。
举个例子:
1TB,只需要一块硬盘可以存储。容量大约是20万张图片或20万首音乐,或者是671部小说。
1PB,需要大约2个机柜的存储设备。容量大约是2亿张图片或2亿首音乐。如果一个人不停地听这些音乐,可以听1900年。
1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.3公里。如果摆放在机房里,大约需要21个标准篮球场,才能放得下。
阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。
EB还不是最大的。目前全人类的数据量,是ZB级。
而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。
1 ZB = 1024 EB (ZB - zettabyte)
大数据的特点4Vs
行业里对大数据的特点,概括为4个V。除了Volume(海量化)之外,剩下三个,分别是Variety、Velocity、Value。
Variety(多样化)
01
数据又分为结构化数据和非结构化数据。
从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。
在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。
大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。
Velocity(时效性)
02
从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。
我们还是用数字来说话:
就在刚刚过去的这一分钟,数据世界里发生了什么?
■ Email:2.04亿封被发出
■ Google:200万次搜索请求被提交
■ Youtube:2880分钟的视频被上传
■ Facebook:69.5万条状态被更新
■ 12306:1840张车票被卖出
■ ……
怎么样?是不是瞬息万变?
Value(价值密度)
03
大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。
2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。
大数据的价值
人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。大数据,究竟有什么价值?
早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。
■ 第一次浪潮:农业阶段,约1万年前开始
■ 第二次浪潮:工业阶段,17世纪末开始
■ 第三次浪潮:信息化阶段,20世纪50年代后期开始
进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。
2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。
如今,大数据应用开始走进我们的生活,影响我们的衣食住行。
之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。
归纳来说,大数据的价值主要来自于两个方面:
- 帮助企业了解用户
大数据通过相关性分析,将客户和产品、服务进行关系串联。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。通过数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。
除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。
- 帮助企业了解自己
大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。
大数据的挑战
大数据时代下,大部分人对于信息安全的意识不够,对相关数据的使用不当,造成敏感、隐私数据的泄露,尤其是具有一定关联性的多组数据同时泄漏,引发的连锁反应会让问题加重。
大数据时代下信息安全面对极大的挑战,信息安全技术也面临很大的考验,互联网信息安全有着无限的发展趋势,将会是大数据时代下最值得关注的问题。在未来互联网行业里,信息安全技术将是重中之重。
在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。除了安全之外,大数据还要面临能耗等方面的问题。
换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。