相关性与因果关系

相关性可以检验两个变量之间的关系。但是,两个变量一起变动并不一定意味着我们知道是不是一个变量引起了另一个变量的变动。因此我们常说,“相关性并不意味着因果关系”。

强相关性可能表示存在因果关系,但也很容易有其他解释:

  • 它可能是随机的偶然性结果,在这种情况下,变量看似相关,但并没有真正的深层关系。
  • 它可能是第 3 个潜在变量让关系看起来比实际关系更强(或更弱)。

对于观测的数据,相关性无法确认因果关系...

变量之间的相关性向我们揭示了数据中存在某种模式:变量倾向于一起变动。但相关性本身并不能向我们揭示数据一起变动是不是因为一个变量引起了另一个变量的变动

对于毫无因果关系的两个变量,可能会发现它们在统计上有显著且可靠的相关性。实际上,这种相关性很常见!这往往是因为两个变量都与另一个因果关系变量相关,而该变量往往会与我们要测量的数据同时出现。

示例:运动与皮肤癌

让我们通过一个例子来思考这个问题。假如您正在研究健康数据。您观测到,运动与皮肤癌病例在统计学上呈显著正相关,即运动较多的人往往容易罹患皮肤癌。这种相关性看起来强而有力,并且在多个患者群体中都有体现。在没有进一步探索的情况下,您可能会得出结论:运动在某种程度上会导致癌症!基于这些发现,您甚至可能会提出一个看似有道理的假设:运动产生的压力可能会让身体丧失一部分抵御阳光晒伤的能力。

但是,请想象一下,这种相关性存在于您的数据集中其实可能是因为常年生活在阳光充足地方的人,其日常生活要比常年生活在阳光不足地方的人活跃得多。这在数据中就表现为运动量增加。同时,每天暴露在阳光下的时间增多意味着有皮肤癌病例增多。运动率和皮肤癌这两个变量都受第 3 个因果关系变量(暴露在阳光下)的影响,但运动和皮肤癌之间并没有因果关系。

...但我们可以通过精心设计的实证研究来建立因果关系!

能够区分哪些数据能够提供因果关系证明,哪些无法提供证明,是一项重要的数据分析素养。在现实世界中,确定因果关系从来不会是完美的。但是,有许多实验、统计和研究设计方法都可以用于寻找因果关系,例如,有多个变量的随机对照实验以及预测模型。除了知道相关性检验的固有局限性(例如,相关性无法衡量三元变量和潜在的因果关系)外,还必须明白,因果关系的证明通常不是来自于单独的统计检验,而是来自于谨慎的实验设计。

示例:心脏病、饮食和运动

例如,假设我们是健康研究员,这次我们要用一个大型数据库来研究疾病发生率、饮食和其他健康行为。假如我们发现两种相关性:心脏病增加与高脂饮食相关(正相关),运动量增加与心脏病减少相关(负相关)。这两种相关性都很强,我们能够很明确地发现它们。这无疑提供了因果关系的线索,对不对?

在这个案例中,相关性可能暗示存在潜在的因果关系,但没有经过进一步的研究,就无法确定这种关系。假设在找到这些相关性之后,我们随即设计了一项生物学研究,了解身体吸收脂肪的方式及其对心脏的影响。也许我们发现一种机制,通过这种机制可储存更多摄入的脂肪,从而使心脏产生特定的负担。我们还可能进一步研究运动,并设计一个随机对照实验,该实验发现,运动会中断脂肪的储存,从而减少心脏的负担。

将所有这些证明结合在一起就可以说明:高脂饮食确实会导致心脏病。当我们更深入地研究这个问题时,原始相关性依然成立:高脂饮食与心脏病有关!

但是,在这个例子中,请注意,我们的因果关系证据并不是相关性检验本身提供的,相关性检验只是研究了观测数据(例如心脏病发生率与报告的饮食和运动)之间的关系。实际上,我们使用了实证研究调查来寻找这种关联性的证据。

那么,该如何探索因果关系呢?使用正确的调查!

弄清楚因果关系是个难题。在现实世界中,我们不可能获取所有可能需要的数据来映射变量之间每一种可能的关系。但有一些重要的策略可帮助我们分离和探索不同变量之间的机制。例如,在对照实验中,我们可以尝试仔细地匹配两个组,并仅对其中一个组随机进行治疗或干预。

随机化原则是实验设计中的关键因素,了解这个前提可以改变我们能从统计检验中推断出的结果。

让我们再来看看上面的第 1 个例子,它研究了运动与皮肤癌发病率之间的关系。假设我们能够以某种方式在全球范围内取得大量人群的样本并随机进行分配,让他们在 10 年中每周达到不同的运动水平。在这段时间结束时,我们还会收集这个群体的皮肤癌发病率。最终,我们会获得一个经过实验设计的数据集来验证运动与皮肤癌之间的关系!由于运动是以随机分配方式在实验中直接操作的,因此它不会与这两组之间任何其他变量有系统性地关联(假设研究的所有其他方面均有效)。这意味着,在这个案例中,由于我们的数据是通过可靠的实验设计推导出来的,因此运动与皮肤癌之间的正相关性将会成为因果关系的有力的证据。