事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

5月5日当天,印度新增新冠确诊病例41万,又刷新了单日确诊的新记录。自4月份以来,印度的疫情持续蔓延,从4月初的单日确诊2万多人,到现在已经突破了单日40万人,印度医疗系统已经濒临崩溃,医院病床、医护人员、呼吸机、氧气和药品已经严重匮乏,供不应求。就连火葬场也是不堪重负,很多公园、停车场、广场都被改造成露天焚烧场,遍地的尸体等着焚烧。一时间,印度已俨然成为了众人眼中的人间炼狱。

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

相信有不少人对印度的疫情也是非常关心的,为此我对印度疫情的数据进行了整理和分析,希望从数据分析的角度来观察印度的疫情,并把分析的过程分享给大家。下面开始教大家如何去对疫情数据进行分析。

一、数据源

做数据分析第一步,必不可少的当然是要有一份数据源。关于疫情的的数据源大家可以在github.com这个网站上找到,这个网站上有很多开源的数据源,都可以免费下载。在以下这个界面里可以找到关于新冠疫情的数据源,我们找到全球每日新冠确诊的这一份数据源下载即可:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

数据源下载后,是一份CSV文件,由于都是英文,我们看起来会有点不方便,但是也不会太难,第一列是省份,第二列是国家名,第三、第四列是经纬度,后面剩下的就是日期。由于这份数据源是包括全球各个国家的数据,而且表格样式不是标准的数据源样式,所以我们要对数据源进行进一步的加工:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

二、数据清洗

做数据清洗我们常用的工具有EXCEL、ETL或者编程软件,这里我推荐大家用ETL工具,因为ETL比较傻瓜式,而且功能十分强大,对于没有编程基础的同学非常适合。我这里选用的是智分析的ETL工具,是为数不多的ETL处理神器:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

第一步:在ETL界面里找到EXCEL文件的组件,把组件拖拽到界面中:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

在右边的上传文件界面里上传你的本地EXCEL文件,上传成功后选择“执行到此处”:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

执行完程序后,对输出后的数据进行预览:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

第二步:由于本地数据源包含了两个SHEET,我们可以利用“读取EXCEL SHEET”这个组件进行筛选:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

第三步:数据源包含了世界上所有国家的数据,我们要先对国家的名字进行过滤,对行数据选择印度即可。我们把“行选择”这个组件拖拽进去,并与上面的组件进行相连:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

执行后效果如下,印度这一行的数据被成功提取出来了:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

第四步:数据源中省份以及经纬度这两列数据我们是不需要的,我们可以通过“列选择”这个组件把这几列给过滤掉:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

执行后效果如下,把省份以及经纬度的列字段给过滤掉了:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

第五步:由于日期分布在列字段里,我们需要对列字段进行逆透视的操作,把“列转行”的组件拖拽进去:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

执行后效果如下:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

第六步:因为确诊值这列的值是实时累计的数据,并非是新增的值,所以这里我们要新增一个派生列,取每一天的环比值:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

派生列里输入函数语句,便可以得到以下的结果,新增了一列“环比昨天”的字段,也就是每天新增的值:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

完成了数据清洗的工作后,把最终输出的结果保存在智分析的数据库中即可。

三、数据可视化

如要要对清洗后的数据源完成可视化的操作,需要用到仪表盘的功能,但是不能够直接在仪表盘里读取数据源,还需要进行数据集的加工。点击数据准备里的自助数据集,读取您的数据源文件,可对数据的字段属性进行修改或者调整,如无需调整直接保存为数据集文件即可:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

打开分析展现里的自助仪表盘,读取刚刚保存好的数据集文件,把数据集中的字段拖拽到行、列里,再对配图进行设置,便可以制作出一个还不错的图形。例如下面,我把日期的字段拉拽到列区,行区是环比昨天(新增)的数据,搭配的图形是趋势图,通过鼠标的拉拽,便可以快速在仪表盘里得到分析结果:

事实胜于雄辩,以数据说话,手把手教你做疫情数据分析

以上便是疫情数据的一个简单的分析过程,当然分析维度还有很多,因篇幅有限这里就不多做介绍,有兴趣的同学可以根据以上的步骤去对疫情数据进行提取、清洗和可视化的操作,相信对你的数据工具的学习会有很大的提升。

上一篇:你需要知道的ETL基础知识


下一篇:数仓ETL系统:给强大的“心脏”配上“超级流水线”