相关性与因果关系
相关性可以检验两个变量之间的关系。但是,两个变量一起变动并不一定意味着我们知道是不是一个变量引起了另一个变量的变动。因此我们常说,“相关性并不意味着因果关系”。
强相关性 可能 表示存在因果关系,但也很容易有其他解释:
- 它可能是随机的偶然性结果,在这种情况下,变量看似相关,但并没有真正的深层关系。
- 它可能是第 3 个潜在变量让关系看起来比实际关系更强(或更弱)。
对于观测的数据,相关性无法确认因果关系...
变量之间的相关性向我们揭示了数据之间存在某种模式:我们正在查看的变量倾向于一起变动。但相关性本身并不能向我们揭示数据一起变动是不是因为一个变量引起了另一个变量的变动。
对于毫无因果关系的两个变量,我们可能会发现它们在统计上有显著且可靠的相关性。实际上,这种相关性很常见!这往往是因为两个变量都与另一个因果关系变量相关,而该变量往往会与我们要测量的数据同时出现。
示例:运动与皮肤癌
让我们通过一个例子来思考这个问题。假如您正在研究健康数据。您观测到,运动与皮肤癌病例在统计学上呈显著正相关,即运动较多的人往往容易罹患皮肤癌。这种相关性看起来强而有力,并且在多个患者群体中都有体现。在没有进一步探索的情况下,您可能会得出结论:运动在某种程度上会导致癌症!基于这些发现,您甚至可能会提出一个假设:运动产生的压力可能会让身体丧失一部分抵御这些类型癌症的能力。然而,人们普遍认为运动能降低患癌风险,因此这一结论和假设值得商榷。
这种相关性存在于您的数据集中其实可能是因为常年生活在阳光充足地方的人,要比常年生活在阳光不足地方的人有更多的户外休闲机会。这种情况在数据中就表现为运动量增加。同时,每天暴露在阳光下的时间增多意味着有皮肤癌病例增多。运动率和皮肤癌这两个变量都受第三个因果变量(日照量)的影响,但运动和皮肤癌之间并没有因果关系。
...但我们 可以 通过精心设计的实证研究来建立因果关系!
有能力区分哪些数据能够提供因果关系证明,哪些无法提供证明,是一项重要的数据素养。在现实世界中,确定因果关系从来不会是完美的。但是,有许多实验、统计和研究设计方法都可以用于寻找因果关系,例如,有多个变量的随机对照实验以及预测模型。除了知道相关性检验的固有局限性(例如,相关性仅衡量变量变换对两者之间的关系,因此无法解释潜在的第三变量的影响),更重要的是要明白,因果关系的证明通常不是来自于观察性数据,而是来自于谨慎的实验设计。
示例:心脏病、饮食和运动
例如,请再次设想我们是健康研究员,这次我们要用一个大型数据库来研究疾病发生率、饮食和其他健康行为。假设我们发现增加运动量与降低心脏病发病率相关(负相关)。这种相关性很强,而且我们发现这种相关性很可靠。这无疑提供了因果关系的线索,对不对?
在这个案例中,相关性可能暗示存在潜在的因果关系,但没有经过进一步的研究,就无法确定这种关系。试想一下,在发现这种相关性之后,下一步我们将进行一项生物学研究,调查体育锻炼是如何影响心脏和循环系统的。也许我们可以找到增加运动量会降低血压的生理机制:运动会增加一氧化氮的产生,从而使血管扩张。降低血压可以减少心血管疾病和其他健康风险。然后,我们可以设计一个随机对照实验,研究体育锻炼对一氧化氮水平的影响,并确定两者之间是否存在因果关系。
在此示例中,请注意,我们的因果关系证据并不是相关性检验本身提供的,相关性检验只是量化了来自观测数据(心脏病发病率和报告的运动量)的变量之间的关系。实际上,我们使用对照实验来寻找证据,证明体育锻炼可能 引起 一氧化氮水平的变化。
那么,该如何探索因果关系呢?使用正确的调查!
弄清楚因果关系是个难题。在现实世界中,我们永远无法获取所有可能需要的数据来映射变量之间每一种可能的关系。但有一些重要的策略可帮助我们分离和探索不同变量之间的机制。例如,在对照实验中,我们可以尝试仔细地匹配两个组,并仅对其中一个组随机进行治疗或干预。随机化原则是实验设计中的关键,因为它使我们能够推断一个变量对另一个变量的直接影响,而不必担心一些未测量的原因变量与我们正在研究的变量同时出现。
进行控制实验并不总是现实的,有时甚至是不可能的。不过,让我们回到上面第一个例子。这个例子描述了运动与皮肤癌发病率之间的显著关系。我们需要什么样的数据来推断因果关系?假设我们能够以某种方式在全球范围内取得大量人群的样本并随机进行分配,让他们在数十年中每周达到不同的室内运动水平。结束时,我们会记录每组锻炼者的皮肤癌发病率。最终,我们会获得一个经过实验设计的数据集来验证运动与皮肤癌之间的关系!由于运动是以随机分配方式在实验中直接操作的,因此它不会与这两组之间任何其他变量有系统性地关联(假设研究的所有其他方面均有效)。这意味着,在这个案例中,由于我们的数据是通过可靠的实验设计推导出来的,因此运动与皮肤癌之间的相关性(正相关或负相关!)将会成为因果关系有意义的证据。