相关性

什么是相关性?

相关性是一个统计指标,表示两个变量线性相关(即它们以固定的比率一起变化)的程度。它是一个用于描述简单关系而没有陈述因果关系的常用工具。

如何衡量相关性?

样本相关系数 r 可量化关系的强度。了解统计显著性时,也要检验相关性。

相关性分析有哪些局限性?

相关性无法告诉我们在所探索的两个变量之外是否存在其他变量,或这些变量有何影响。更重要的是,相关性不能告诉我们因果关系。此外,相关性也无法准确地描述曲线关系。

相关性描述同时变化的数据

相关性对描述数据中的简单关系来说非常有用。例如,假设您正在查看某山地公园露营地的数据集。您想知道露营地的海拔(山的高度)与夏季的平均高温是否存在关联。

对于每个露营地,您有两个测量维度:海拔和温度。将样本中的这两个变量进行相关性比较时,您会发现两者存在线性关系:随着海拔升高,温度会下降。它们呈负相关

相关性数值有何含义?

我们使用相关系数这个无单位的量度来描述相关性,其范围为 -1 至 +1,以 r 表示。统计显著性以 p 值表示。因此,相关性通常以两个关键数值来表示:r = 和 p =

  • r 越接近 0,线性关系越弱。
  • 正的 r 值表示正相关,在这种情况下,两个变量的值往往一起增加。
  • 负的 r 值表示负相关,在这种情况下,当一个变量的值增加时,另一个变量的值往往会减少。
  • p 值为我们提供了证据,帮助我们确定能否可以根据从样本中观测到的情况得出有意义的结论,即总体相关系数可能不等于零。
  • “无单位量度”意味着相关性有其自己的尺度:在我们的例子中,为 r 提供的数值与海拔或温度都不是同一尺度。这与其他汇总统计量不同。例如,海拔测量值的均值与其变量就是同一尺度。

什么是 p 值?

p 值可衡量假设检验所用的概率。

它表示在无效应(即原假设)的情况下,取得我们所查看数据的可能性。对于露营地数据,我们将假设海拔和温度之间没有线性关系。当使用 p 值将结果描述为具有统计显著性时,这就意味着它低于预定义的临界值(例如,p <0.05 或 p <0.01),此时我们会拒绝原假设,而支持备择假设(对露营地数据,即海拔与温度之间存在关系)。

取得显著相关性之后,我们还可以查看其强度。完美的正相关值是 1,完美的负相关值是 -1。但在现实世界中,我们永远不会期望看到完美的相关性,除非一个变量实际上是另一个变量的代理量度。事实上,看到完美的相关性数值时,您得当心数据中是否有错误!例如,如果您记录了每个露营地与海平面的距离,而不是温度时,您就会发现它与海拔完美相关。

另一个有用的信息是 N,即观测数。与大多数统计检验一样,知道样本的大小可以帮助我们判断样本的强度及其代表总体的程度。例如,如果我们仅测量了 5 个露营地的海拔和温度,但公园里有 2000 个露营地,我们就需要在样本中添加更多的露营地。

使用散点图直观地显示相关性

回到我们上面的例子:随着露营地海拔升高,温度会下降。我们可以通过散点图直观地看到这个情况。假设我们已绘制了露营地数据:

  • 图中的每个点代表一个露营地,我们可以将其海拔和夏季高温分别放在 x 轴和 y 轴上。
  • 另外,相关系数 (r) 也可以展示后在散点图上。它以数值形式告诉我们,散点图中映射的点成线性相关的程度。关系越强或 r 值越大意味着点越接近拟合到数据的线条。

更复杂的关系是什么情况呢?

散点图对于确定我们的数据中是否存在可能破坏准确相关的因素也很有用,例如像曲线关系或极端离群值这样的异常模式。

相关性无法准确地描述曲线关系。在曲线关系中,变量在给定的方向上相关,直至关系发生变化的某个点。

例如,假设我们来看一下露营地的海拔以及露营者对每个露营地的总体评分。海拔与露营地评分一开始或许呈正相关,因为更高的露营地拥有更好的视野。但在某个点上,更高的海拔变得与露营地评分呈负相关,因为露营者晚上会觉得冷!

我们还可以向散点图添加以阴影表示的密度椭圆来获得更多的见解。密度椭圆代表了散点图中点最密集的区域,而这又有助于我们了解相关性的强度和方向。

密度椭圆可以是各种大小。检验相关性时常常会选择 95% 的密度椭圆,它能捕获大约 95% 的最密集观测值。如果两个变量一起变动,例如我们露营地的海拔和温度,我们会看到这个密度椭圆反映了线条的形状。而在曲线关系中,我们可以看到,密度椭圆呈圆形:相关性无法针对此关系给予我们有意义的描述。