基于阿里云平台进行游戏数据分析(三)

在对游戏数据完成了数据导入与预处理、绘制散点图,建立回归模型,检测变量之间的线性关系等环节以后,下面我们将对这些数据进行相关性分析和对比分析,并得出结论。

首先,在阿里云平台的操作界面中点击Dataworks在工作空间下的“进入数据开发”, 在DataWorks页面左侧的工具栏中点击“临时查询”,然后选择新建“ODPS SQL”,输入节点名称为“相关性分析”,选择目标文件夹为临时查询,点击提交,提交之后,在脚本文件中输入如下建表语句,点击“运行”按钮:
DROP TABLE IF EXISTS pokemon;
CREATE TABLE IF NOT EXISTS pokemon (
attack BIGINT ,
base_egg_steps DOUBLE ,
base_happiness DOUBLE ,
base_total DOUBLE ,
capture_rate DOUBLE ,
defense DOUBLE ,
experience_growth DOUBLE ,
height_m DOUBLE ,
hp DOUBLE ,
percentage_male DOUBLE ,
pokedex_number DOUBLE ,
sp_attack DOUBLE ,
sp_defense DOUBLE ,
weight_kg DOUBLE ,
generation DOUBLE );
基于阿里云平台进行游戏数据分析(三)

然后运行这些SQL语句,如果出现log-END-EOF 说明运行成功。点击页面左侧的“表管理”,刷新后能看到创建好的pokemon表。
基于阿里云平台进行游戏数据分析(三)

下一步,在临时查询“相关性分析”中输入下列代码:
create table pokemon1 (
generation string,
capture_rate string,
base_total double );

然后我们选中这些SQL语句后点击运行按钮,如下图所示:
基于阿里云平台进行游戏数据分析(三)

然后我们分别导入这些表格的数据。导入成功以后,我们点击机器学习页面左侧的实验按钮,然后点击下方的新建实验,在名称一栏输入“对比分析”, 在左侧点击“数据源”, 绘制相关矩阵图,实验流程如下所示:
基于阿里云平台进行游戏数据分析(三)

然后我们右键点击“相关系数矩阵”,选择“查看分析报告”,报告如下所示:
基于阿里云平台进行游戏数据分析(三)

一般来说,取绝对值后,相关系数在(0,0.09)范围内为没有相关性,(0.1,0.3)范围内为弱相关,(0.3,0.5)范围内为中等相关,(0.5,1.0)范围内为强相关。

在这张图中我们关注base_total所在的一行:各个变量与base_total之间的相关系数。如果与产量(base_total)的相关系数超过0.3,即可认为其对于产量的贡献是显著的。本次试验中。大部分变量对于base_total 的相关系数都大于0.3。因此,可以认为所有变量对产量的影响是显著的。

上一篇:德客易行帮你解析华为B2B战略


下一篇:rsync , rsync + ssh, rsync + lsyncd 多种同步方案与比较