第2章 数据分析方法论
2.1数据分析的基本方法
数据分析有法可循,在分析数据时使用分析方法可以快速有效地分析数据,从数据中获取信息。常用的分析方法有对比法、拆分法、交叉法、降维法、增维法、指标法和图形法,根据业务场景选择一种或一种以上的分析方法可以让分析更加高效。
2.1.1对比法
对比法是最基本的分析方法也是数据分析的“先锋军”,分析师在开展分析时首先使用对比法,可以快速发现问题。对比法分为横向和纵向两个方向。
横向对比是指跨维度的对比,比如在分析企业销售业绩的时候,将不同行业的企业销售业绩一起进行对比,这样可以知道某家企业在整个市场的地位。如中国的500强企业排行榜单,就是将不同行业的企业产值进行对比。
纵向对比是指在同一个维度的对比,比如基于行业为维度,钢铁行业的企业排行榜单;比如基于时间为维度,将今天的销售业绩和昨天、上个星期同一天进行对比,可以知道今天的销售业绩的情况。
例:小李是某天猫运营,刚接手一家新网店,欲确定该店铺的主营品类,已知该店铺经营A,B,C,D四个品类。
解:通过对比A,B,C,D四个品类的天花板,要做市场规模则选择天花板高的品类,要便于生存则选择天花板低的品类。
A品类 |
B品类 |
C品类 |
D品类 |
1580万元 |
780万元 |
605万元 |
1685万元 |
表2-1
图2-1
2.1.2拆分法
拆分法是最常用的分析方法之一,在许多领域应用非常广泛,杜邦分析法就是拆分法的经典应用。拆分法是将某个问题拆解成若干个子问题,通过研究该若干子问题从而解决问题。比如在研究销售业绩下降问题时,可以将销售业绩问题拆分成转化率、客单价和访客数这三个子问题,通过分析这三个子问题从而解决销售业绩问题。
例:某店铺的销售额大幅下降,运营欲找出销售额下降的原因。
日期 |
访客数 |
转化率 |
客单价 |
销售额 |
周一 |
1000 |
3.5% |
100 |
3500 |
周日 |
2000 |
3.4% |
100 |
6800 |
上周一 |
2500 |
3.5% |
100 |
8750 |
表2-2
解:销售额下降的问题可拆分成三个子问题,分别是转化率、客单价和访客数的变化,通过表2-2结合对比法发现主要是访客数的变化引起的销售额大幅下降。可再进一步拆分访客数,访客数可分为付费访客数和免费访客数,对问题的原因进一步剖析,直到找到问题的根源。
图2-2
2.1.3排序法
排序法是基于某一个度量值的大小,将观测值递增或递减的排列,每一次排列只能基于某一个度量值。排序法是从对比法中衍生的一种常用方法,百度搜索风云榜、淘宝排行榜等业内知名榜单就是重度采用排序法的产品,通过排序后的榜单,让用户快速获取目标价值信息。
例:某运营收集了数个品类的数据,如表2-3所示,通过排序法列出品类榜单。
品类 |
交易指数 |
在线产品数 |
T恤 |
20178 |
55135570 |
连衣裙 |
43551 |
21868084 |
裤子 |
22664 |
41053642 |
衬衫 |
19592 |
11556930 |
表2-3
解:排序法只能基于某一个度量进行排序,表3中有两个度量,因此可以做出两个表单。
表2-4为基于交易指数的榜单,排名越靠前代表该品类的市场规模越大。
排名 |
品类 |
交易指数 |
在线产品数 |
1 |
连衣裙 |
43551 |
21868084 |
2 |
裤子 |
22664 |
41053642 |
3 |
T恤 |
20178 |
55135570 |
4 |
衬衫 |
19592 |
11556930 |
表2-4
表2-5为基于产品数的榜单,排名越靠前代表该品类的市场竞争越大
排名 |
品类 |
交易指数 |
在线产品数 |
1 |
T恤 |
20178 |
55135570 |
2 |
裤子 |
22664 |
41053642 |
3 |
连衣裙 |
43551 |
21868084 |
4 |
衬衫 |
19592 |
11556930 |
表2-5
2.1.4交叉法
交叉法是对比法和拆分法的结合,是将有一定关联的两个或以上的维度和度量值排列在统计表内进行对比分析,在小于等于三维的情况下可以灵活使用图表进行展示。当维度大于三维时选用统计表展示,此时也称之为多维分析法。比如在研究市场定价时,经常将产品特征和定价作为维度,销售额作为度量值进行分析。
例:有以下数据,利用交叉法分析不同性别的差异
性别 |
品类 |
消费金额 |
男 |
零食 |
68 |
男 |
耳机 |
180 |
女 |
零食 |
155 |
女 |
耳机 |
42 |
表2-6
解:将表2-6转变成二维交叉表,如表2-7所示,通过表2-7可以直观地观察到男性和女性用户在消费偏好上的差异,男性更愿意在耳机上消费,女性则更愿意在零食上消费。
性别 品类 |
零食 |
耳机 |
男 |
68 |
180 |
女 |
155 |
42 |
表2-7
2.1.5降维法
降维法是在数据集字段过多时,分析干扰因素太多,通过找到并分析核心指标可以提高分析精度,或者通过主成分分析、因子分析等统计学方法将高维转变成低维。比如在分析店铺数据时,根据业务问题的核心提取主要的两到四个核心指标,进行分析。
例:根据以下字段评估店铺的综合情况
转化率 |
销售额 |
客单价 |
访客数 |
动销率 |
连带率 |
好评率 |
纠纷率 |
上新率 |
解:对指标进行分类,将店铺的评估分成产品运营能力、店铺获客能力和店铺服务能力。
反映店铺产品运营能力的指标有:
动销率 |
连带率 |
上新率 |
反映店铺获客能力的指标有:
转化率 |
销售额 |
客单价 |
访客数 |
反映店铺服务能力的指标有:
好评率 |
纠纷率 |
基于每个能力维度下的指标,综合评估出每个能力的分数。
可使用数据归一化[1]的方法或者熵值法[2]计算分数,达到综合评估的目的。
2.1.6增维法
增维法是在数据集的字段过少或信息量不足时,为了便于业务人员分析,通过计算衍生出更加直观的指标。比如在分析关键词时,将搜索人气除以商品数量得到一个新的指标,定义为关键词的竞争指数。
例:计算关键词的竞争度,基于业务经验,竞争度=搜索人气*点击率*支付转化率÷在线商品数,得到的指标为正指标,数值越大越好。
关键词 |
搜索人气 |
点击率 |
在线商品数 |
支付转化率 |
竞争度 |
A |
32,914 |
152.95% |
165,118 |
6.92% |
0.021 |
B |
11,736 |
132.03% |
3,199 |
3.99% |
0.193 |
C |
10,274 |
162.75% |
55,774 |
8.55% |
0.026 |
D |
9,245 |
222.64% |
4,198 |
3.71% |
0.182 |
E |
7,977 |
138.58% |
23,718 |
6.89% |
0.032 |
表2-8
2.1.7指标法
指标法是分析的基本方法之一,通过汇总值、平均值、标准差、等一系列的统计指标研究分析数据。指标法更适合用于多维的数据。
例:表2-9是淘宝搜索某关键词按人气排名前5的商品数据,通过指标法描述各个度量。
排名 |
售价 |
销售额 |
评价人数 |
DSR_物流分 |
DSR_描述分 |
DSR_服务分 |
1 |
680 |
115600 |
151 |
4.61 |
4.74 |
4.76 |
2 |
3680 |
629280 |
16 |
4.98 |
4.98 |
4.98 |
3 |
2180 |
372780 |
902 |
4.95 |
4.95 |
4.96 |
4 |
2180 |
374960 |
2363 |
4.92 |
4.93 |
4.94 |
5 |
2199 |
380427 |
958 |
4.95 |
4.97 |
4.95 |
表2-9
使用指标法描述度量后的结果,如表2-10所示。
排名 |
售价 |
销售额 |
评价人数 |
DSR_物流分 |
DSR_描述分 |
DSR_服务分 |
计数 |
5 |
5 |
5 |
5 |
5 |
5 |
缺失值 |
0 |
0 |
0 |
0 |
0 |
0 |
均值 |
2184 |
374609 |
878 |
4.88 |
4.91 |
4.92 |
汇总 |
10919 |
1873047 |
4390 |
24.41 |
24.57 |
24.59 |
标准差 |
949 |
162469 |
835 |
0.14 |
0.09 |
0.08 |
表2-10
2.1.8图形法
图形法是分析的基本方法之一,通过柱形图、折线图、散点图等一系列的统计图形直观地研究分析数据。图形法适合用于低维的数据。
例:表2-11淘宝搜索某关键词按人气排名前220的商品数据,通过图形法分析这些售价的分布
排名 |
售价 |
销售额 |
评价人数 |
DSR_物流分 |
DSR_描述分 |
DSR_服务分 |
1 |
680 |
115600 |
151 |
4.61 |
4.74 |
4.76 |
2 |
3680 |
629280 |
16 |
4.98 |
4.98 |
4.98 |
3 |
2180 |
372780 |
902 |
4.95 |
4.95 |
4.96 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
220 |
150 |
547800 |
33206 |
4.75 |
4.63 |
4.74 |
表2-11
图2-3是基于售价分组后绘制的直方图,可以直观地观察各个价格区间包含商品的个数,商品售价分布主要集中在[118,588],[1058,1998]两个区间。
图2-3
原文发布时间为:2018-08-23
本文作者:陈海城