大数据导论
1.1 数据
1.1.1 数据的概念
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号
数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
1.1.2 数据类型
文本图片音频视频
1.1.3 数据组织形式
计算机系统中的数据组织形式主要有两种,即文件和数据库。
(1)文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等等
(2)数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,今天,数据库已经成为计算机软件开发的基础和核心
1.1.4 数据的使用
1.数据清洗2.数据管理3.数据分析 使用实例:数据仓库(数据源,数据存储和管理,分析和挖掘引擎,应用)
1.1.5数据的价值性
数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值,数据的潜在价值
各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值
1.1.6数据爆炸
1.2大数据时代
1.2.1 第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革
第一次浪潮:1980年前后,标志为个人计算机,解决信息处理问题,代表企业inter,AMD,IBM,苹果,微软,联想,戴尔惠普等
第二次浪潮:1995年前后,标志为互联网,解决信息传输问题,代表企业雅虎,谷歌,阿里巴巴,百度,腾讯等
第三次浪潮:2010年前后,标志为物联网,云计算和大数据,解决信息爆炸问题,将会涌现出一批新的市场标杆企业
1.2.2 信息科技为大数据时代提供技术支撑
近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。
1. 存储设备容量不断增加2. CPU处理能力大幅提升 3. 网络带宽不断增加
1.2.3 数据产生方式的变革促成大数据时代的来临
运营式系统阶段(上世纪90年代至本世纪初,萌芽期,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。)
用户原创内容阶段(本世纪前十年,成熟期,Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道)
感知式系统阶段(2010年以后,大规模应用期,大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高)
1.3大数据的发展历程
1.4世界各国的大数据发展战略
1.4.1 美国:稳步实施“三步走”战略,打造面向未来的大数据创新生态,美国是率先将大数据从商业概念上升至国家战略的国家,通过稳步实施“三步走”战略,在大数据技术研发、商业应用以及保障国家安全等方面已全面构筑起全球领先优势。
第一步是快速部署大数据核心技术研究,并在部分领域积极开发大数据应用。
第二步是调整政策框架与法律规章,积极应对大数据发展带来的隐私保护等问题。
第三步是强化数据驱动的体系和能力建设,为提升国家整体竞争力提供长远保障。
1.4.2 英国:紧抓大数据产业机遇,应对脱欧后的经济挑战,英国*于2010上线*数据网站Data.gov.uk,同美国的Data.gov平台功能类似,但主要侧重于大数据信息挖掘和获取能力的提升
在2012年发布了新的*数字化战略,实现大数据驱动的社会经济增长
2013年英国*加大了对大数据领域研究的资金支持
1.4.3 法国:通过发展创新性解决方案并应用于实践来促进大数据发展,2011年7月,法国启动了开放数据项目,通过实现公共数据在移动终端上的使用,最大限度地挖掘数据的应用价值。项目内容涉及交通、文化、旅游和环境等领域。
2013年12月,法国*发布《数字化路线图》,明确了大数据是未来要大力支持的战略性高新技术。
此外,法国中小企业、创新和数字经济部推出大数据规划,在2013年至2018年在法国巴黎等地创建大数据孵化器
1.4.4 韩国:以大数据等技术为核心应对第四次工业革命,韩国的智能终端普及率以及移动互联网接入速度一直位居世界前列,这使得其数据产出量也达到了世界先进水平
在朴槿惠*倡导的“创意经济”国家发展方针指导下,韩国多个部门提出了具体的大数据发展计划
2016年年底,韩国发布以大数据等技术为基础的《智能信息社会中长期综合对策》,以积极应对第四次工业革命的挑战
1.4.5 日本:开放公共数据,夯实应用开发,2010年5月,日本发达信息通信网络社会推进战略本部发布了以实现国民本位的电子*、加强地区间的互助关系等为目标的《信息通信技术新战略》。
2012年6月,日本IT战略本部发布电子政务开放数据战略草案
2012年7月,日本*推出了《面向2020年的ICT综合战略》,大数据成为发展的重点
2013年6月,日本公布新IT战略——创新最尖端IT国家宣言,明确了2013-2020年期间以发展开放公共数据为核心的日本新IT国家战略
1.4.6 中国:实施国家大数据战略,加快建设数字中国,2015年8月,国务院印发了《促进大数据发展行动纲要》。党的十八届五中全会将大数据上升为国家战略。在党的十九大报告中,明确指出:“推动互联网、大数据、人工智能和实体经济深度融合”。
2018年4月22日-24日,首届“数字中国”建设峰会在福建省福州市举行
1.5大数据的概念
1.5.1数据量大
根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
人类在最近两年产生的数据量相当于之前产生的全部数据量
预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
TB(十的十二次方) PB(十的十五次方) EB(十的十八次方,2000个机柜,占一个街区的4层数据中心) ZB(十的二十一次方,1000个数据中心,纽约曼哈顿的五分之一区域) YB(十的二十四次方,一百万个数据中心,20个曼哈顿)
1.5.2数据类型繁多
大数据是由结构化和非结构化数据组成的
10%的结构化数据,存储在数据库中
90%的非结构化数据,它们与人类信息密切相关
1.5.3处理速度快
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
1.5.4价值密度低,商业价值高
1.6大数据的影响
1.6.1大数据对科学研究的影响
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
1.6.2大数据对社会发展的影响
大数据决策逐渐成为一种新的决策方式
大数据成为提升国家治理能力的新途径
大数据应用有力促进了信息技术与各行业的深度融合
大数据开发大大推动了新技术和新应用的不断涌现
1.6.3大数据对就业市场的影响
具有深入分析能力的人才,可以利用大数据分析来做出有效决策的经理和分析师
1.6.4大数据对人才培养的影响
大数据时代到底需要什么样的人才?
一是计算机技术相关人才,包括平台搭建和应用开发
二是统计学相关人才,包括数学、建模、算法
三是业务人才,就是要有一定的专业领域知识,只有明白目标领域知识的人才能了解数据的意义以及指导数据分析的方向并判断数据分析结果的可信性
1.7大数据的应用
就企业而言,对大数据的掌握程度可以转化为经济价值的源泉
就*而言,大数据的发展将会提高*科学决策水平,改变*传统“拍脑袋”式决策,变为用数据说话,利用大数据分析社会、经济、人文生活等规律,从而为国家宏观调控、战略决策、产业布局等夯实根基
在医疗领域,大数据也有不俗表现
大数据也悄然地影响着绿茵场上强弱的较量
1.8大数据产业
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
IT基础设施层:包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据源层:大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(*部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源
数据管理层:包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
数据分析层:包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等
数据平台层:包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等
数据应用层:提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或*部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等