本节书摘来自华章计算机《大数据分析原理与实践》一书中的第1章,第1.2节,作者:王宏志 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.2 哪里有大数据
大数据是无处不在的。
大数据包括那些数目极庞大的网络数据。有自媒体数据(比如社交网络),有日志数据(比如用户在搜索引擎上留下的大数据),还有流量最大的富媒体数据(比如视频、音频)等。例如,淘宝每天的数据量就超过50 TB;新浪微博晚高峰时每秒要接受100万次以上的请求;美国YouTube网站一分钟有100小时的视频被上传。
大数据包括企事业单位数据和*数据。一家医院一年能收集包括医疗影像、患者信息在内的500 TB数据,用于预测、预防、改善等;中国联通每秒记录用户上网条数近百万条,一个月大概是300 TB;国家电网信息中心目前累计收集了2 PB的数据。
大数据包括我们身边的一些公用设施所记录的数据。就监控而言,很多城市的交通摄像头多达几十万个,一个月的数据就达到数十PB,还有基本上所有的超市都覆盖着摄像头,这些都可以是大数据的基本来源并进行挖掘利用;在北京,每天用公交一卡通的乘客有4000万刷卡记录,而每天地铁刷卡的乘客也有1000万,这些数据可以用来改善北京的交通状况,优化交通路线。
大数据还包括国家大型公用设备和科研设备等产生的数据。例如,波音787每飞一个来回可产生TB级的数据,美国每个月收集360万次飞行记录;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒就要测量一次,数据汇集用于检测叶片、变速箱、变频器等的磨损程度;一个具有风机的风场一年会产生2 PB的数据,这些数据用于预防维护,可使风机寿命延长3年,极大地降低了风机的成本。
工业领域也产生了大量的数据,GE能源监测和诊断(M&D)中心每天从客户处收集10千兆字节的数据;长虹集团有限公司等离子显示板制造中生产流程数据涉及75条组装线,279个主要生产设备,超过10 000个参数,每天3000万条记录,大约10 GB;杭州西奥电梯有限公司的数字化车间监控超过500个参数,每天产生约50万条记录;浙江雅莹服装有限公司数字化生产线由15个子系统组成,超过1000个参数,每天产生约80万条记录,约1 GB。
大数据甚至还包括一些地理位置、基因图谱、天体运动轨迹的数据。总之,任何可以利用数据分析来达到目的的地方就会有大数据的存在。