本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.1节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.1 大数据时代
什么是“大数据”?一篇名为“互联网上一天”的文章告诉我们:一天之中,互联网上产生的全部内容可以刻满1.68亿张DVD,发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量),发出的社区帖子达200万个(相当于《时代》杂志770年的文字量),卖出的手机数量为37.8万台,比全球每天出生的婴儿数量高出37.1万名。
随着信息爆炸性的增长,“大数据”成为当前时代最为流行的一个新词汇,其不仅作为IT行业的一个通用词汇在日常工作中使用,并且广泛渗透到商业、金融、教育等一系列与数据相关的领域中。并且,随着大数据的普及以及对其进行分析和挖掘处理技术的提高,大数据越来越被人们重视。围绕大数据获得的商业价值逐渐成为行业人士争相追捧的利润焦点。
正如人们常说的一句话,“冰山只露出它的一角”。大数据也是如此,“人们看到的只是其露出水面的那一部分,而更多的则是隐藏在水面下”。简单地掌握海量的数据资料是不够的。大数据时代的强者并不是那些看服务器中存放有多少数据的人,而是那些懂得如何让庞大的数据实现真正的实用化和获取其中包含的庞大数据信息的人,是那些懂得如何对这些数据信息进行有意义的针对性处理的人,换句话说,就是如何使用手中的工具来对数据进行二次加工和获取,通过这种深加工实现数据的增值与增产,从而实现大数据为我所用。