基于阿里云平台进行游戏数据分析(一)

最近,我们基于阿里云大数据平台进行了游戏数据的分析。项目利用精灵宝可梦数据,进行数据转换,然后分析水属性宝可梦的总数(base_total)X与捕捉几率(capture_rate)Y的关系。项目利用的平台是阿里云大数据平台Maxcompute、 DataWorks及机器学习PAI平台。

一、项目环境配置
进入阿里云平台,创建工作空间,选择使用Maxcompute和PAI Studio
基于阿里云平台进行游戏数据分析(一)

然后填写实例名称,创建工作空间。最后检查是否已经开通两个引擎,否则需要在引擎配置里重新添加。
基于阿里云平台进行游戏数据分析(一)

二、导入数据
查看数据文件,其中包含以下变量:
基础攻击属性、宝可梦孵化阶段、活跃指数、基本总数、捕捉几率、基础防御属性、成长经历、身高、血量、男性比率、图鉴ID、特殊攻击属性、特殊防御属性、宝可梦体重、第几代等。

点击“进入数据开发”,并选择DataWorks页面左侧的“临时查询”--新建ODPS SQL,如下所示:
基于阿里云平台进行游戏数据分析(一)

在节点名称中输入“数据转换”,选择目标文件夹为“临时查询”,点击提交如下所示:
基于阿里云平台进行游戏数据分析(一)

提交之后,在编辑器中输入如下建表语句,选中后点击运行按钮,如下所示:
DROP TABLE IF EXISTS pokemon;
CREATE TABLE IF NOT EXISTS pokemon (
attack BIGINT
,base_egg_steps DOUBLE
,base_happiness DOUBLE
,base_total DOUBLE
,capture_rate DOUBLE
,defense DOUBLE
,experience_growth DOUBLE
,height_m DOUBLE
,hp DOUBLE
,percentage_male DOUBLE
,pokedex_number DOUBLE
,sp_attack DOUBLE
,sp_defense DOUBLE
,weight_kg DOUBLE
,generation DOUBLE
);
等待运行,如果日志中出现log-END-EOF说明运行成功
基于阿里云平台进行游戏数据分析(一)

在DataWorks页面左侧点击“数据开发”,然后点击“导入”按钮,选择从附件下载到本地的pokemon.csv,然后点击“打开”:
基于阿里云平台进行游戏数据分析(一)

选择本地文件后会弹出如下对话框。原始字符集设为“UTF-8”,其他保持不变:
基于阿里云平台进行游戏数据分析(一)

在导入至表的对话框中输入“pokemon”,观察目标字段与源字段是否一一对应,确认无误后点击导入:
如果右上角出现“文件上传成功”,则说明数据导入成功
基于阿里云平台进行游戏数据分析(一)

点击页面左侧的“表管理”,刷新之后就能看到新建的数据表“pokemon”,如下图所示:
基于阿里云平台进行游戏数据分析(一)

可以通过运行下列代码查询数据表“pokemon”中的数据,如下所示:
select *from pokemon;
查询结果如下:
基于阿里云平台进行游戏数据分析(一)

三、查找缺失值&离散值
检查各个变量的缺失数:
在临时查询“数据质量的检验”中输入检查各个变量的缺失数代码,选中后点击运行按钮:
基于阿里云平台进行游戏数据分析(一)

从运行结果可以看出:数据非常干净,变量不存在缺失值。

上一篇:python学习--文件基本操作


下一篇:K8S数据保护工具比较