作者:DataWorks产品经理 张华蕊
一、什么是数据分析
什么是数据分析?如下图所示,该图描述了数据、信息与情报的关系。我们从外界环境中采集数据,环境可能是软件环境,比如业务系统中的日志数据,也可能是硬件环境,比如采集传感器数据。采集来的原始数据的价值密度通常是比较低的,通过加工、处理、萃取后会得到更有价值的信息,对这个信息进一步的分析与生产,就得到了情报。
总的来说,数据分析是以挖掘有价值的信息并用结论支撑决策为目的,对数据进行探查、清洗、转换和建模的过程。数据分析能够使决策更科学,并帮助企业实现更有效的运营。
数据分析包含以下几个步骤:
首先是需求分析。先明确需求,比如业务的核心问题是什么,需要做什么决策,为了支撑这个决策需要拿到什么信息等。
第二步是数据采集。明确了需求后,可以进行数据采集,但这个环节可能会遇到几个问题。首先是期望的数据可能在技术层面是没有存储的,或是有存储但分散在数据仓库的不同位置,数据采集需要先解决这些问题。
第三步是数据清洗。采集上来的数据往往是不完整、有重复、有错值、有空值的,数据清洗就是防止和纠正这些错误的过程。
第四步是探索分析。探索分析是借助分析工具对数据完成分析,这个过程中还可能包含机器学习算法的应用。
第五步可视化呈现。当数据分析之后,将会以可视化的方式呈现给需求方。
数据分析包括本地数据分析和在线数据分析。
本地数据分析最常见的是用Excel来做数据分析。但是由于数据分析师需要每周、每月或每个季度去重复分析,所以Excel做数据分析的第一个问题就是效率比较低。 而且用Excel做数据分析,也有性能差的问题,当所需要分析的数据量比较大的时候,性能就成了瓶颈,一个是因为Excel能够显示的数据行是有限的,另一个也受制于个人电脑的性能。用Excel做数据分析还有数据孤立的问题,针对单一数据表的分析价值是有限的,而企业更看重把各个业务系统数据拉通的分析结果。最后的问题就是安全风险问题。企业的数据放在本地某个员工的个人电脑上,是很难做到分享和下载过程中的权限控制。
在线数据分析就可以很好的解决上述问题。在线数据分析工具可以做到数据刷新,从而避免重复操作。例如在DataWorks的数据分析模块中有一张用户画像的分区表,如果9月份对这个分区表进行了透视操作,若10月还想做这个操作,只要把9月的配置直接复制到10月的分区上就可以高效实现数据更新。
另外,借助计算引擎强大的计算能力,在线数据分析还能对海量的数据进行高效的数据分析。同时可以从不同业务系统的数据库进行取数分析,打破数据之间的壁垒。DataWorks数据分析模块还支持将分析结果导出成一张MaxCompute表,或是直接将分析结果分享给其他人,这样数据就在不同系统和人之间流动起来了。
非常重要的是,使用在线数据分析模块,用户不需要把数据下载到本地就可以完成数据分析 ,并且做到分享。这个过程中权限可控,保证了数据的安全。
二、DataWorks数据分析
DataWorks用户经常会有以下这些疑问:
- 问题一:我有一张表存在MaxCompute/EMR/RDS/…里,我想对查询结果做进一步的统计分析,我该怎么做?
- 问题二:拿到一张别人的表,我怎么知道里面有没有脏数据?只能跑SQL吗?DataWorks能做透视分析吗?
- 问题三:我想手动编辑一张维表,可我不会写SQL,我该怎么办?
这些问题都可以通过DataWorks分析模块解决。
(一)DataWorks数据分析模块
以下这张图展示了DataWorks各个模块之间是怎么配合完成数据分析需求的。
首先做数据采集,通过在数据地图中搜索本次数据分析所需要的表,并通过表详情、数据预览、数据血缘查看理解数据。然后申请这个表或某个字段的查询权限,然后用户就可以去DataStudio做进一步加工,或是选择去数据分析模块,使用数据分析中“从数据源查询”的功能,从数据源直接取数并放入表格里,然后以表格的形式进行数据探查和透视分析。
总的来说,数据分析适用于数据快速洞察分析,在线编辑和数据可视化模块;数据分析模块的三大功能包含电子表格、维表、报表。
(二)电子表格
电子表格是数据分析模块的核心功能,能够为用户提供进行取数、探索、分享的个人空间。它以电子表格为主体,可以支持常见的表格功能,让用户可以快速上手。
电子表格具有以下功能:
- 支持从本地/数据源导入数据
- 个人视角查询工作台
- 数据探查
- 数据透视
- 分析结果可固化为MaxCompute表,也可以分享
(三)电子表格-从数据源查询功能
从数据源查询功能支持丰富的数据源类型,当把某个数据源添加进来,可以查询字段结构或生成数据预览;通过双击或拖拽的方式可以快速生成查询语句,点击运行就能生成数据查询结果。它的编辑器是智能编辑器,可以智能地提供补全、高亮提示、智能纠错等功能;查询代码可以保存下来,并且运行历史也可以追溯。
(四)电子表格-数据探查功能
拿到数据后,可以借助数据探查功能来快速地洞察数据。这个功能对各个字段值的分布做统计,帮助用户快速掌握数据分布情况;并且支持概览模式和详细模式,并且支持数据筛选和多级下钻,能够帮助用户判断这些数据是否需要做数据清洗,明确清洗目的。
(五)电子表格-透视功能
透视功能是数据分析师常用的功能,电子表格支持本地透视和数据源透视两种,也就是说可以对电子表格里面的数据进行透视,也可以直接对数据源的全量数据进行透视。透视功能的维度支持自定义排序,数值类型可以分组,透视配置支持复制。
(六)电子表格-保存与分享
电子表格的保存与分享支持模板功能,意思是用户可以首先把电子表格保存成一个模板,再新建的时候就可以直接从这个保存的模板里新建。同时也可以把分析的结果固化成为一张MaxCompute表,直接生成建表语句,并且把数据插入到表里。当需要分享电子表格的时候,可以指定人或权限。
(七)维表
维表是一个简单高效的表编辑工具。在日常工作中,运营同学常常需要去维护一张线上的MaxCompute表,一般情况他需要找研发同事新建一张MaxCompute生产表来进行维护,而每一次数据更新都需要找研发同事重复这个新建生产表的过程,不仅涉及人员多,而且效率低。
使用维表后,运营同学就可以直接用可视化方式自己建一张MaxCompute生产表,对字段进行命名和描述,点击确认就能生成一张线上的表。表生成后,可以把本地数据导入到表里,也可以直接在表上写数据。无论是写数据还是修改,都可以直接在维表中进行,这样就缩短了整个操作链路,提高工作效率。
(八)报表
报表是可视化呈现的工具,它提供多种报表组件,用户可以通过拖拽组件来完成报表的搭建。搭建完成后,可以把整个报表分享给其他人。
数据分析介绍及实践请参考:https://developer.aliyun.com/learning/course/81/detail/1232
DataWorks官网:https://www.aliyun.com/product/bigdata/ide
大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm