永洪深度分析模块集成了复杂的统计算法和机器学习技术,能够从海量数据中,挖掘具有潜在价值的关系、模式和趋势,构建数据模型,做出预测分析,但其仍然需要数理统计和数据挖掘的基础知识,使用门槛相对较高。
基于此,永洪BI推出了数据解释组件,将AI深度分析的能力以可视化组件的形式展示出来,使其可以在任意的报告中使用AI的能力探索和挖掘数据之间的相关性。
接下来的文章中,我们将介绍数据解释组件如何使用,以及是如何解释数据的。
01功能入口
制作报告拖拽右侧的组件面板的“小灯泡”到制作区域,绑定需要解释分析的数据集的字段。
02功能介绍
分析(Analyze):将需要分析的字段放入其中,如天气的好坏、股票的涨跌、用户的评分、空气的质量等。
解释依据(Explainby):将可能导致出现分析字段的值的因素放入其中,如温度、湿度、地区、年龄、行业、日期、车流量等。
03关键因素
绑定分析和解释依据之后,通过永洪BI的AI算法计算后,得到对分析字段的关键因素,其主要的场景是可以用来展示哪些解释依据会影响所分析的指标,以及对比这些解释依据的相对重要性。
01分析字段的选择值:
分析字段的选择值:在此示例中,所选的值为“Low”。
02选项卡:
在视图之间进行切换。“关键因素”显示对所选分析字段影响较大的一些解释依据。“最佳组合”显示对所选分析字段影响较大的一些解释依据的组合。
03关键因素的阐述:
帮助解释左侧分析结果的图表。
04左侧分析结果:
在此情况下,显示关键影响因素列表。点击其中一个关键因素后,出现右侧分析结果。
05解释依据的相对重要性阐述:
帮助解释右侧分析结果的图表。
06右侧分析结果:
在此情况下,显示左侧中已选中关键因素“组织里面的角色”的所有值。
07平均线:
除“consumer”(即选中的解释依据)以外,计算了“组织里面的角色”的所有可能值的平均值。因此该计算适用于所有蓝色的值。它显示了其他低分“组织里面的角色”的百分比。
本例中,平均来看,除“consumer”的其他组织里面的角色约有13%打了低分(虚线所示)。
看到这里,有的小伙伴可能还是不知道具体是如何计算的。
就以上文的例子进行详细解释:此影响者的占比,即是consumer的计数占所有数据量的占比,141245/209503=67.42%,这是第5部分的数据量的占比的来源。
组织里面的角色:administrator的low的比例是3840/13852=27.72%,consumer的low的比例是42287/141245=29.93%,publisher的low的比例是5013/54406=9.21%,这些值即是柱图的高度。
除“consumer”(即选中的解释依据)以外,计算了“组织里面的角色”的所有可能值的平均值,即是下表中(3840+5013)/68258=12.96%,约为13%,这即是平均线的值。
左侧的倍数2.31x,是由29.93%/12.96%得到的。
以该示例总结一下关键因素,选择以下情况影响客户评分为Low,可以分析出,导致客户评分为Low的因素从大到小主要有:
客户的有效期大于58个月、组织里面的角色是consumer、客户关注的主题是可用性、安全性、订阅类型是高级用户、国家地区是法国,这些因素会使得客户评分为Low的可能性增加。
如果对其中的某一个因素感兴趣,可以继续点击关键因素排名,右侧会展示此因素的详细解释,上方的文本展示了此因素的数据量占整个数据的百分比。
例如点击组织中的角色是consumer,上方的文本展示了角色为consumer的客户评分大概有67.42%的数据,下方的图表展示了各个角色在导致低评级上的影响的比较分析。
评价来看,13%的所有角色给出了Low的评分,30%的consumer给出了Low,与其他的客户角色相比,consumer给出低分的可能性高出2.31倍。
04最佳组合
使用“关键因素”选项卡分别评估每个解释依据,切换选项卡后使用“最佳组合”选项卡查看解释依据的组合,如何影响正在分析的指标。
01分析字段的选择值:
在此示例中,所选的值为销售额的“提高”。
02选项卡:
在视图之间进行切换。“关键因素”显示对所选分析字段影响较大的一些解释依据。“最佳组合”显示对所选分析字段影响较大的一些解释依据的组合。
03最佳组合的分析结果:
在此情况下,显示最佳组合列表。点击其中一个最佳组合后,出现下侧和右侧分析结果。
04下侧分析结果:
点击其中一个最佳组合后,出现最佳组合的详细信息,在此示例中,组合2的详细信息为“边际利润大于114.50且利润小于等于337”。
05右侧分析结果:
在此情况下,显示左侧中已选中组合2中数据的平均值和整体中的平均值,并显示对比。
06最佳组合右下分析结果:
以环形图显示组合2中的详细数据量的占比。
以该示例总结一下最佳组合,影响销售额提高的因素的组合有:组合1~组合7,组合2中“边际利润大于114.50且利润小于等于337”的销售额的平均值为347.61,整体的销售额的平均值为192.99,在组合2中,包含了1236个数据点,占比29.1%。
注:
关键因素的数据集来源于[Moroet al., 2014] S. Moro, P. Cortez 和P.Rita. “一种预测银行电话营销成功的数据驱动方法。”DecisionSupport Systems, Elsevier, 62:22-31, June 2014。
最佳组合的数据集为永洪BI自带的咖啡中国市场销售数据。
1