因果和相关是数据分析中的两个重要概念。虽然两者经常被混淆,但它们之间存在本质的区别。在本文中,我们将通过生活中和数据分析工作中的案例来解释因果倒置和相关性,并探讨如何避免因果倒置以及如何推导出因果性。
01 什么是因果倒置? 因果倒置是指错误地认为两件事情之间的关系是因果关系,而实际上是因果关系倒置。在生活中,有一个常见的例子就是“鸡叫了才天亮”,然而实际上是“天亮了鸡才会叫”。在数据分析工作中,一个常见的例子是误认为用户的购买行为是由于广告的推送,而实际上用户的购买行为可能是由于对产品的需求。为了避免因果倒置,我们需要注意观察事件发生的顺序,并且考虑其他可能的解释。我们应该在寻找因果关系之前,首先确保观察到的事件顺序是正确的,并且排除其他可能的解释。
02 相关和因果的关系
虽然相关性和因果性经常被混淆,但它们之间存在本质的区别。 相关性是指两个变量之间的关系,而因果性则是指一个变量的变化引起另一个变量的变化。
在生活中,有一个经典的例子是喝咖啡是否真的能够延长寿命。尽管有一些研究表明喝咖啡可以降低死亡率,但这并不意味着喝咖啡能够延长寿命。喝咖啡和长寿之间可能存在其他因素,例如健康的饮食和充足的运动,这些因素可能更有可能解释死亡率的下降。在数据分析工作中,也存在类似的情况。例如,我们发现两个变量之间存在强烈的相关性,但是我们不能确定这种相关性是由于因果关系还是其他因素导致的。
03 相关性≠因果性
为什么相关性不能推导出因果性?在数据分析工作中,相关性不能推导出因果性的原因是因为可能存在因素遗漏和数据范围控制导致的误判。
3.1 因素遗漏的误判:伯克松悖论 对于伯克松悖论,它的实质是在随机样本中,某些子群体的比例变化可能会影响到整体的相关性。这种情况下,我们很容易被误导认为两个变量之间具有因果关系,但实际上只是因为我们没有考虑到所有可能的影响因素。例如,某研究发现,男性比女性更倾向于选择计算机专业,而女性更倾向于选择社会科学或人文专业。但如果我们只关注某一个特定的计算机专业,例如计算机科学,我们可能会发现女性的比例非常低,因此可能会得出错误的结论,即性别与计算机科学专业之间存在因果关系。但实际上,这种差异可能是由于其他因素的影响,例如文化、社会压力等等。因此,在进行数据分析时,我们需要注意避免因素遗漏导致的误判。我们需要采用合适的方法来控制变量,以便尽可能消除影响。另外,我们还可以通过收集更多的数据来更全面地考虑可能的影响因素,并使用统计学方法来分析和消除这些影响。
3.2 范围控制的误判:神枪手谬误 除了因素遗漏,数据范围的控制也可能导致相关性被错误地解释为因果性,这就是神枪手谬误(the sharpshooter fallacy)。
这个谬误的名字来自一个假想的神枪手,他在打出了一排子弹后,才把靶子画在其中一颗子弹周围,然后声称自己的射击技术非常高超。这个谬误是指当我们有一组数据时,如果我们先确定了关注的因变量,然后再根据数据选取与该因变量高度相关的自变量,这样会导致我们的分析结果存在偏差。例如,假设我们想要分析某广告活动对销售额的影响,我们首先收集了广告投放的时间、投放渠道、广告语言等信息,然后根据相关性选取了一个看起来最相关的变量,比如天气状况。如果在分析中我们忽略了其他可能影响销售额的因素,比如季节、假期等,那么我们就会得到一个看起来很强的因果关系,即广告活动能够显著影响销售额。但实际上,这个因果关系可能只是一个幻象,因为我们没有控制其他可能的影响因素。为了避免神枪手谬误,我们需要在收集数据和进行分析之前制定一个合理的研究设计。首先,我们应该尽可能收集到所有可能的影响因素,并在分析中对它们进行控制,以确保我们观察到的关系是真实的。其次,我们应该随机选取样本,以确保样本的代表性和可靠性,从而避免在样本选择上的偏差。
04 相关性如何变为因果性?
在数据分析中,我们可以采用实验或因果推断来推导出因果关系。实验法是通过设计控制实验,使得研究对象只受到所要求的一个变量的影响,从而判断变量间的因果关系。而因果推断是通过分析非实验数据,建立因果关系的推断。
在因果推断中,有一个重要的工具叫做因果图,它能帮助我们识别变量之间的因果关系。因果图是一种图形化的工具,它可以用来表示变量之间的因果关系,并且能够帮助我们找出变量间的直接和间接因果路径。这种工具在分析数据时非常有用,能够帮助我们找出因果关系中的潜在因素,以便更好地进行数据分析和决策。除了因果图,我们还可以使用一些因果推断的方法,如倾向得分匹配法、仪器变量法等,来推导出变量之间的因果关系。这些方法可以在不进行实验的情况下,利用已有的数据来推导出因果关系,但是需要在数据处理和模型选择上做出很多复杂的判断。
05 总结
本文介绍了因果和相关的概念,以及二者之间的区别和联系。同时,我们讲解了因果倒置的概念和避免方法,并通过生活和数据分析工作中的案例说明相关性不能推导出因果性的原因。我们还介绍了因素遗漏和数据范围控制所导致的误判,以及因果图和因果推断的方法如何帮助我们推导出因果关系。在进行数据分析时,我们需要认真考虑变量间的因果关系,避免简单地把相关性等同于因果性。只有理解并正确地应用这些方法和工具,才能更好地分析数据并做出正确的决策。
|