数字时代到来之后,企业经营的各个阶段都可以被记录下来,产品销售的各个环节也被记录下来,客户的消费行为和网上行为都被采集下来。企业拥有了多维度的数据,包括产品销售数据、客户消费数据、客户行为数据、企业运营数据等。拥有数据之后,数据分析成为可能。典型的数据分析案例如沃尔玛啤酒和尿布、蛋挞和手电筒,Target的判断16岁少女怀孕都是这种关联关系的体现。
1.数据分析应用价值
一个是效率提升,帮助企业提升数据处理效率,降低数据存储成本。
另外一个是对业务作出指导,例如精准营销,反欺诈,风险管理以及业务提升。
2.团队与角色
数据分析团队应该属于独立的部门,为所有的业务部门提供服务,具有独立的技术团队,可以搭建独立的大数据计算和分析平台,利用最新的数据处理技术来建立模型进行分析。
另外数据分析团队的人应来源于业务部门,具有高度的数据商业敏感度,可以将业务部门的需求分解为数据需求,将业务场景同数据场景以及数据分析相结合起来。
DBA:为数据科学家和数据分析师提供加工好的原始数据,这些数据是数据分析和建模的基础
业务专家:数据建模来源于业务经验和业务知识,正是业务专家的专业分析找到了业务规律,从而找到了建模方向,并对建模工作给出建议和解释。
数据科学家:利用自己的专业技能帮助业务专家和数据分析人员进行建模和计算。
数据分析师:提出基于数据的结果和分析建议,完成数据从原始到商业化应用到关键一步
运营专家:实现商业决策。通过有计划的运营活动,将数据分析的结果应用到实际的商业活动之中。
3.数据分析之前的各项准备工作
数据源选择
数据抽样选择
数据类型选择
缺失值处理
异常值检测和处理
数据标准化
数据粗分类(Categorization)处理
变量选择
4.数据模型评价的方法
(1)AUC值判别法
AUC = 1,是完美分类器。
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
(2)KS 判别法
KS值大于0.2就表示具有较好的可预测性
参考文档: