第一节:数据
一、概念
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频…….
二、分类
1、按照结构分
结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。
非结构化数据:没有任何结构的数据,视频、图片、音频 ……。二进制存储的。
半结构化数据:有结构,没有严格的二维表结构。html 、css 、xml、json,标签进行划分结构的。
2、产生的时间分
离线数据:数据已经存在的,静态的。
实时数据:实时产生的数据,动态的。
近实时数据
第二节:大数据
一、概念
概念大而复杂的数据集,传统的手段无法处理(存储|计算)
二、数据单位
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes(普通用户数据级别) 文本
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB(企业级数据级别)
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB(全球数据总量级别)
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
注意:企业数据量一般为TB 或PB
三、大数据的特点
容量大:数据量大,现在的数据产生快,数据类型复杂(视频)
种类多:结构、半结构、非结构化
速度快:随时随地都在产生数据,互联网没有秘密的
价值高:整体价值高,单条数据价值低,价值密度低
真实性
四、大数据的价值
用户画像:根据用户的所有的商业行为给用户打的标签。
利用用户网络商业活动、消费习惯、搜索关注点、人际关系制定人物的标签图。用于精准营销,千人千面。
五、大数据核心概念
1、集群
一个任务(存储|计算)需要多个服务器(节点)共同完成,这个多个服务器组成的一个集体叫做集群。集群中的每一个服务器就叫做一个节点(网络不同,同一局域网的ip地址不同)。
2、分布式
(1)概念
一个任务需要多个节点共同完成,这个任务的执行方式就是分布式的。
(2)分布式存储
分布式文件系统:一个大的文件被切分成多个小文件每一个小文件被存储在一个节点上,最终这个大文件被存储在多个节点上。
分布式数据库:一个大表被切分成多个小表存储在多个节点上。
(3)分布式计算
一个计算任务很大,一个节点计算不了,将这个计算任务进行拆分,分别运行在不同的节点上进行计算。
3、负载均衡
集群中的每一个节点存储的数据量的占比相当的。
六、处理数据的流程
1、简介
数据采集----数据存储----数据清洗(ETL)---数据计算---数据存储结果-----web可视化展示
2、数据采集(数据来源)
(1)业务数据
自己的业务数据库、自己网站产生的日志
(2)爬虫
例如:分析互联网行业的从业者的平均薪资,到招聘网站去爬数据。有反爬虫、反反爬虫技术
(3)数据买卖
3、数据的处理
(1)缺失字段的数据
1)不影响最终分析结果:删除,例如网站浏览日志数据。
2)对于一些和金钱相关的数据:需要通过各种计算补充上,要求精准。
3)要求精密的数据:例如工业大数据、传感器数据,根据经验值补充。
(2)敏感数据
例如手机号、身份证号要进行脱敏处理,将敏感字段进行加密(MD5、uuid)。