相关系数

Style

section-padding-none

什么是相关系数？

相关系数是量化相关性分析中两个变量之间线性关系强度的特定测定。该系数在我们的相关性报表中以符号 r 表示。

如何使用相关系数？

对于两个变量，相关系数公式将比较每个数据点与变量均值的距离，并使用该信息来告诉我们变量之间的关系在多大程度上能通过数据绘制的假想线来表示。这就是我们所说的相关性也就是看线性关系。

需要考虑哪些局限性？

相关性仅仅会观测手头上的两个变量，不会深入揭示二元数据以外的关系。该检验不会检测数据中的离群值（以及随之而来的偏态），也无法正确地检测曲线关系。

left

blue

实践中，如何计算相关系数？

样本相关系数可以用公式表示：

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

查看带注释的公式

让我们使用一个含有少量简单数字的例子来逐步说明如何计算相关系数，以便简单地完成整个运算。

假如我们想知道，在炎热的夏天，城市的冰淇淋销售量是否有明显的增长。冰淇淋店在春季开始营业；夏天，人们倾向于在室外购买更多的冰淇淋。但另外一方面，人们也许只是因为很喜欢冰淇淋，所以以稳定的频次购买。

为了回答这个问题，我们首先收集有关冰淇淋日平均销售量和日最高温度的数据。因此，“冰淇淋销售量”和“温度”是两个变量，我们将使用这两个变量来计算相关系数。这类数据有时被称为二元数据，原因在于每个观测值（即我们同时衡量销售量和温度的时间点）都有两条可以用来描述它的信息。换句话说，我们将观察，“冰淇淋销售量”和“温度”是否会一起变动。

和前面一样，我们使用散点图来先睹为快：

另外，也可以在表中查看这些数据，这样可以方便地帮助我们追踪每个数据点的系数计算。讨论二元数据时，通常会将一个变量称为 X，将另一个变量称为 Y（这也有助我们在直观的平面上定位，例如图中的数轴上）。这里我们将“冰淇淋销售量”定义为 X，将“温度”定义为 Y。

请注意，每个数据点都是成对呈现的。请记住，我们实际上是在查看各个时间点，而每个时间点同时具有销售量和温度值的数据。

冰淇淋销售量 (X)

温度 °F (Y)

1. 首先寻找样本均值

现在我们已经得到数据，可以开始执行上面公式中的两个重要的子计算：样本均值以及每个数据点与该均值之间的差异（在这些步骤中，您还可以看到 标准差 的初始组成部分）。

样本均值以 x̅ 和 y̅ 表示，有时被称为“x bar”和“y bar”。“冰淇淋销售量”的均值 (x̅) 和“温度”的均值 (y̅) 可以简单地按以下公式计算：

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. 计算每个数据点与其均值的距离

有了两个变量的均值后，下一步就是从每个“销售量”数据点减去“冰淇淋销售量”的均值 (6)（公式中的 x_i），从每个“温度”数据点减去“温度”的均值 (75)（公式中的 y_i）。请注意，此运算有时会产生负数或 0！

冰淇淋 (X)

温度 °F (Y)

$x_i-\overline{x}$

$y_i-\overline{y}$

$3$

$70$

$3 - 6 = -3$

$70 - 75 = -5$

$6$

$75$

$6 - 6 = 0$

$75 - 75 = 0$

$9$

$80$

$9 - 6 = 3$

$80 - 75 = 5$

3. 完成系数方程式的上面部分

方程式的这部分被称为“乘积和”。乘积是在执行乘法运算后得到的数字。顾名思义，该公式其实就是：执行乘法运算后得到的数字之和。

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

从上表最后两列的每一行中取成对的数值，将它们相乘（请记住，负负得正！），然后将这些结果相加：

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

深入思考：

4. 完成系数方程式的下面部分

相关系数方程式的分母看起来像这样：

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

让我们分别处理此方程式中的表达式，然后代入“冰淇淋销售量”示例的数字：

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

将两个表达式的结果相乘后得到：

$$ 18\times50\ =\ 900 $$

方程式的下面部分即为：

$$ \sqrt{900}=30 $$

5. 完成计算，将计算结果与散点图进行比较

现在，我们再次列出完整的相关系数方程式：

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

代入在上面计算出的分子和分母值：

$$ r=\frac{30}{30}=1 $$

可以发现，冰淇淋销售量与炎热的夏天完美相关！当然，在现实世界中几乎不可能存在完美的相关性，因此，如果我们在处理真实数据时得到了完美的相关性时就需要思考下，是否哪里出了错。

不过，在我们的例子中，数据已进行了简化。由于只是简单地查看数据点，这个结果应该具有直观的意义。让我们再来看看散点图：

现在，请设想一下绘制一条通过该散点图的线条。看起来是不是像完美的线性拟合？