一、实验题目
基于所学的大数据处理知识,结合阿里云大数据相关产品,分组完成一个大数据分析项目,数据集可以使用开源数据集或自行爬取,最终完成一个完整的实验报告
二、实验目的
分析全国各个地区php岗位工资之间的关系,为实习生、应届生、以及正在找工作的程序员提供便利。
三、实验难点
在阿里云产品中的sql语句与Mysql并不兼容,无法建立varchar类型的字段,也无法用中文作为字段显示的名称,在处理PAI的预测时,没有相对应的模板,并且对于预测值的选择上比较难以抉择,数据量较大,在PAI的运行流程中需要长时间的等待。
四、实验过程
数据集的描述:共12431条数据
DataIDE:
代码:
CREATE TABLE IF NOT EXISTS php
(
work STRING COMMENT '职位名称',
company STRING COMMENT '公司名称',
min STRING COMMENT '最低工资',
max STRING COMMENT '最高工资',
city STRING COMMENT '地点',
type STRING COMMENT '类别'
) ;
将数据上传到阿里云大数据开发平台(Data IDE)
表的建立
字段映射
选择节点
节点显示
Maxcompute:
利用maxcompute进行统计计算
首先将搜集好的数据按字段上传到t_php表中
统计各城市的平均薪资并按降序排列:
代码:
SELECT
city,round(avg(min+max)/2,2)
AS
mid
FROM
t_php
GROUP BY
city
ORDER BY
mid DESC
平均薪资前十名城市的可视化柱状图:
统计各城市的岗位数量并按降序排列:
代码:
SELECT
city,count(city)
AS
sum
FROM
t_php
GROUP BY
city
ORDER BY
sum DESC
各城市的岗位数量降序排列的可视化柱状图:
统计自定义最高工资区间的岗位数量:
代码:
SELECT
COUNT(CASE WHEN max BETWEEN 0 AND 6000 THEN max END) AS '0k_6k',
COUNT(CASE WHEN max BETWEEN 6000 AND 12000 THEN max END) AS '6k_12k',
COUNT(CASE WHEN max BETWEEN 12000 AND 48000 THEN max END) AS '12k~48k',
COUNT(CASE WHEN max BETWEEN 48000 AND 100000 THEN max END) AS '48k~100k',
COUNT(CASE WHEN max BETWEEN 100000 AND 500000 THEN max END) AS '100k~500k'
FROM
t_php
自定义最高工资区间的岗位数量可视化饼状图:
PAI:
代码:
SELECT city,
(case when min<3000 then 1 when max<6000 then 1 else 0 end) as lowest,
(case when min<6000 then 1 when max<10000 then 1 else 0 end) as low,
(case when min>10000 then 1 when max>15000 then 1 else 0 end) as high,
(case when max>20000 then 1 when min>15000 then 1 else 0 end) as highest
FROM ${t1};
利用机器学习进行预测分析
归一化数据探查
预测数据探查
混淆矩阵
比例矩阵
统计信息
QuickBI:
通过quickBI展示可视化成果
上图显示了全国各个地点与php最高工资的关系,可以更直观的看出各个地区给出的最高薪资是多少
上图显示了全国各个地点与php最低工资的关系,可以更直观的看出各个地区给出的最低薪资是多少
上图显示出了各个公司的php岗位数量的关系
上图可以看出php岗位最低工资在各个地区的占比
上图显示出了全国各个地区php的最高工资分布,可以给所有php开发师提供帮助
结论:阿里的各种产品可以为各行各业提供非常有价值的帮助,例如这次分析,无论是对php实习生应届生也好,还是没有工作的php开发工程师也好,都可以提供很大的帮助。