基于阿里云平台进行游戏数据分析(二)

在对游戏数据完成了数据导入与预处理等环节以后,下面我们将基于这些数据绘制散点图,建立回归模型,检测变量之间的线性关系。

点击机器学习页面左侧的“实验”,然后点击页面下方的“新建实验”按钮,如下所示:在名称一栏输入“数据转换”,然后点击创建按钮,如下所示:
基于阿里云平台进行游戏数据分析(二)
创建完实验后,拖入“源/目标”中的“读数据表”组件,如下所示:
基于阿里云平台进行游戏数据分析(二)
点击“读数据表”组件,在右侧“表名”一栏中输入“pokemon”,并右键改表名:![image.png]
基于阿里云平台进行游戏数据分析(二)
拖入“统计分析”下的“散点图”组件,将“读数据表”组件与“散点图”组件相连接,即构建了一个从读数据表到散点图的数据流,如下图所示:
基于阿里云平台进行游戏数据分析(二)
单击散点图组件,在右侧属性栏中点击选择字段,选择base_total和capture_rate后点击确定
基于阿里云平台进行游戏数据分析(二)
右键单击散点图组件,选择执行到此处;执行完成之后,节点右侧会出现绿色的勾,如下图所示:
基于阿里云平台进行游戏数据分析(二)
此时可以右键点击组件,选择查看日志:
基于阿里云平台进行游戏数据分析(二)
然后回到机器学习PAI页面,右键点击散点图,查看分析报告,如图:
基于阿里云平台进行游戏数据分析(二)
弹出窗口的左上角,即是base_total和capture_rate的散点图(剩下三张图是base_tota和本身,capture_rate和本身,base_total和capture_rate的散点图)

一般情况下,可以通过观察散点图,发现自变量和因变量之间的关系模式,以便于后续决定使用哪种转换方法。

然后关闭散点图,拖入线性回归,预测,回归模型评估这三个组件,
【1】机器学习-回归-线性回归:用于建立因变量与多个自变量之间的线性关系
【2】机器学习-预测:用于模型预测
【3】机器学习-评估-回归模型评估:基于预测结果和原始结果,评价回归算法的优劣,
构建如下数据流:
基于阿里云平台进行游戏数据分析(二)

在线性回归中,选择属性设置
字段设置-选择特征列:capture_rate
字段设置-选择标签列:base_total
基于阿里云平台进行游戏数据分析(二)
参数设置:
基于阿里云平台进行游戏数据分析(二)

在预测中进行属性设置
字段设置:特征列选择capture_rate,原样输出列选择择generation 和base_total
基于阿里云平台进行游戏数据分析(二)
在回归模型评估进行属性设置
字段设置:原回归值选择base_total
基于阿里云平台进行游戏数据分析(二)
右键点击回归模型评估组件,选择执行到此处
基于阿里云平台进行游戏数据分析(二)
执行完成后,右击回归模型评估组件,选择“查看分析报告”,如下所示:
基于阿里云平台进行游戏数据分析(二)
在弹出的窗口中可以看到,由于模型评估组件给出的是残差的直方图,不能用于
判断线性与否,所以之后我们将会单独生成一个残差图。

接着点击指标数据标签,可以看到对base_total和capture_rate线性回归出来的R2≈0.4438867655729208
基于阿里云平台进行游戏数据分析(二)

关闭回归评估,拖入一个SQL脚本组件和一个散点图组件,工具-SQL脚本。
构建如下数据流:
基于阿里云平台进行游戏数据分析(二)

将代码输入SQL脚本编辑器,然后点击“保存”按钮。右击“SQL脚本”,选择执行该节点,如下所示:
基于阿里云平台进行游戏数据分析(二)

执行完成后,点击散点图组件,然后选择residual 和capture_rate 为特征列,如下所示:
基于阿里云平台进行游戏数据分析(二)

右击散点图,选择“执行该节点”,执行完成后,右击散点图组件,然后选择“查看分析报告”,如下所示:
基于阿里云平台进行游戏数据分析(二)

残差图中的点如果是随机分布,说明数据是线性的,否则是非线性。观察capture_rate的残差图,发现capture_rate的残差包含了斜向上的模式,说明base_total和capture_rate的线性关系不是很强。

上一篇:基于阿里云大数据平台开发大数据应用(二):MaxCompute 初体验


下一篇:基于阿里云大数据平台开发大数据应用(三):基于MaxCompute 的慕课网站数据仓库