数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

永洪深度分析模块集成了复杂的统计算法和机器学习技术,能够从海量数据中,挖掘具有潜在价值的关系、模式和趋势,构建数据模型,做出预测分析,但其仍然需要数理统计和数据挖掘的基础知识,使用门槛相对较高。

基于此,永洪BI推出了数据解释组件,将AI深度分析的能力以可视化组件的形式展示出来,使其可以在任意的报告中使用AI的能力探索和挖掘数据之间的相关性。

接下来的文章中,我们将介绍数据解释组件如何使用,以及是如何解释数据的。

01功能入口

制作报告拖拽右侧的组件面板的“小灯泡”到制作区域,绑定需要解释分析的数据集的字段。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

02功能介绍

分析(Analyze):将需要分析的字段放入其中,如天气的好坏、股票的涨跌、用户的评分、空气的质量等。

解释依据(Explainby):将可能导致出现分析字段的值的因素放入其中,如温度、湿度、地区、年龄、行业、日期、车流量等。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

03关键因素

绑定分析和解释依据之后,通过永洪BI的AI算法计算后,得到对分析字段的关键因素,其主要的场景是可以用来展示哪些解释依据会影响所分析的指标,以及对比这些解释依据的相对重要性。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

01分析字段的选择值:

分析字段的选择值:在此示例中,所选的值为“Low”。

02选项卡:

在视图之间进行切换。“关键因素”显示对所选分析字段影响较大的一些解释依据。“最佳组合”显示对所选分析字段影响较大的一些解释依据的组合。

03关键因素的阐述:

帮助解释左侧分析结果的图表。

04左侧分析结果:

在此情况下,显示关键影响因素列表。点击其中一个关键因素后,出现右侧分析结果。

05解释依据的相对重要性阐述:

帮助解释右侧分析结果的图表。

06右侧分析结果:

在此情况下,显示左侧中已选中关键因素“组织里面的角色”的所有值。

07平均线:

除“consumer”(即选中的解释依据)以外,计算了“组织里面的角色”的所有可能值的平均值。因此该计算适用于所有蓝色的值。它显示了其他低分“组织里面的角色”的百分比。

本例中,平均来看,除“consumer”的其他组织里面的角色约有13%打了低分(虚线所示)。

看到这里,有的小伙伴可能还是不知道具体是如何计算的。

就以上文的例子进行详细解释:此影响者的占比,即是consumer的计数占所有数据量的占比,141245/209503=67.42%,这是第5部分的数据量的占比的来源。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

组织里面的角色:administrator的low的比例是3840/13852=27.72%,consumer的low的比例是42287/141245=29.93%,publisher的low的比例是5013/54406=9.21%,这些值即是柱图的高度。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

除“consumer”(即选中的解释依据)以外,计算了“组织里面的角色”的所有可能值的平均值,即是下表中(3840+5013)/68258=12.96%,约为13%,这即是平均线的值。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

左侧的倍数2.31x,是由29.93%/12.96%得到的。

以该示例总结一下关键因素,选择以下情况影响客户评分为Low,可以分析出,导致客户评分为Low的因素从大到小主要有:

客户的有效期大于58个月、组织里面的角色是consumer、客户关注的主题是可用性、安全性、订阅类型是高级用户、国家地区是法国,这些因素会使得客户评分为Low的可能性增加。

如果对其中的某一个因素感兴趣,可以继续点击关键因素排名,右侧会展示此因素的详细解释,上方的文本展示了此因素的数据量占整个数据的百分比。

例如点击组织中的角色是consumer,上方的文本展示了角色为consumer的客户评分大概有67.42%的数据,下方的图表展示了各个角色在导致低评级上的影响的比较分析。

评价来看,13%的所有角色给出了Low的评分,30%的consumer给出了Low,与其他的客户角色相比,consumer给出低分的可能性高出2.31倍。

04最佳组合

使用“关键因素”选项卡分别评估每个解释依据,切换选项卡后使用“最佳组合”选项卡查看解释依据的组合,如何影响正在分析的指标。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

01分析字段的选择值:

在此示例中,所选的值为销售额的“提高”。

02选项卡:

在视图之间进行切换。“关键因素”显示对所选分析字段影响较大的一些解释依据。“最佳组合”显示对所选分析字段影响较大的一些解释依据的组合。

03最佳组合的分析结果:

在此情况下,显示最佳组合列表。点击其中一个最佳组合后,出现下侧和右侧分析结果。

04下侧分析结果:

点击其中一个最佳组合后,出现最佳组合的详细信息,在此示例中,组合2的详细信息为“边际利润大于114.50且利润小于等于337”。

05右侧分析结果:

在此情况下,显示左侧中已选中组合2中数据的平均值和整体中的平均值,并显示对比。

06最佳组合右下分析结果:

以环形图显示组合2中的详细数据量的占比。

数据分析时如何搞定深度分析?学会这套方案,分析门槛大大下降

以该示例总结一下最佳组合,影响销售额提高的因素的组合有:组合1~组合7,组合2中“边际利润大于114.50且利润小于等于337”的销售额的平均值为347.61,整体的销售额的平均值为192.99,在组合2中,包含了1236个数据点,占比29.1%。

注:

关键因素的数据集来源于[Moroet al., 2014] S. Moro, P. Cortez 和P.Rita. “一种预测银行电话营销成功的数据驱动方法。”DecisionSupport Systems, Elsevier, 62:22-31, June 2014。

最佳组合的数据集为永洪BI自带的咖啡中国市场销售数据。

上一篇:kafka原理与实操(一):初学者视角学kafka架构(详细、简洁、总结性长文)


下一篇:kafka 00000000000000000000.timeindex: 另一个程序正在使用此文件,进程无法访问。