独立性卡方检验
什么是独立性卡方检验?
独立性卡方检验是一种统计学上的假设检验,用于确定两个分类型或名义型变量是否可能相关。
何时可以使用该检验?
当您有两个分类型变量的值计数时,您可以使用独立性卡方检验。
如果有一个频数计数表格,是否可以使用该检验?
是的。如果您只有一个表格,其中的值显示频数计数,您可以使用独立性卡方检验。
使用独立性卡方检验
独立性卡方检验检查两个变量是否可能相关。我们有两个分类型或名义型变量的计数。我们认为这两个变量是不相关的。可以通过检验来确定我们的想法是否合理。
下面我们将讨论需要哪些资源来执行检验,如何执行检验,了解结果,统计详情,以及了解 p 值。
需要哪些资源?
对于独立性卡方检验,我们需要两个变量。我们的想法是:这些变量不相关。以下是两个示例:
- 我们有一个电影类型的列表,这是第一个变量;第二个变量是,这些电影类型的观众是否在电影院购买零食。我们的想法(或者用统计学术语来说,我们的原假设)是:电影类型与观众是否购买零食无关。电影院的老板想估计需要购买多少零食。如果电影类型与观众是否购买零食无关,估计起来会比电影类型影响零食销售的情况更简单。
- 兽医诊所有一个狗狗品种列表,在这里,狗狗是患者。第二个变量是,狗主人是喂干粮、罐头食品还是混合食品。我们假定狗的品种与喂食的食品类型无关。如果确实是这样,诊所可以仅基于狗的总数来订购食品,而无需考虑品种。
为了进行有效的检验,我们需要:
- 从所感兴趣的总体中抽取的简单随机样本数据值。
- 两个分类变量或名义型变量。请勿对定义类别组合的连续型变量使用独立性检验。但是,这两个分类变量组合的计数将是连续型的。
- 对于这两个变量各水平的每一次组合,我们至少需要 5 个期望值。当任何一个组合的期望值少于 5 个时,检验结果都是不可靠的。
独立性卡方检验举例
我们来进一步看看电影与零食这个示例。假设我们收集了在电影院观影的 600 名观众的数据。我们知道每名观众观看的电影类型,以及他们是否购买了零食。
我们首先回答这个问题:独立性卡方检验是否是用来评估电影类型与观众是否购买零食之间关系的最佳方法?
- 我们有观影的600 名观众的简单随机样本。此项满足要求。
- 我们的变量是电影类型和是否购买零食。两个变量都是分类变量。此项满足要求。
- 最后一个要求是,两个变量的每一个组合都要有 5 个以上的期望值。为了确认这一点,我们需要知道每种电影类型的总数,以及是否购买零食的总数。我们暂且假设我们满足了要求,稍后我们将进行检查。
看起来我们似乎选择了一种有效的方法。(我们仍需要检查,确保每个组合有 5 个以上的期望值。)
这里是我们在列联表中汇总的数据:
表 1:电影零食数据的列联表
电影类型 | 有零食 | 无零食 |
操作 | 50 | 75 |
喜剧 | 125 | 175 |
家庭片 | 90 | 30 |
恐怖片 | 45 | 10 |
在我们采取任何进一步操作之前,首先要检验每个类别中有 5 个期望值这一假设。在“电影类型”与“零食”的每一个组合中,数据都有 5 个以上的计数。但是,如果电影类型与购买零食无关,期望计数是什么呢?
寻找期望计数
要找到每个“电影-零食”组合的期望计数,我们首先需要有行总计数和列总计数,如下所示:
表 2:含有行总计和列总计的电影零食数据列联表
电影类型 | 有零食 | 无零食 | 行总计 |
操作 | 50 | 75 | 125 |
喜剧 | 125 | 175 | 300 |
家庭片 | 90 | 30 | 120 |
恐怖片 | 45 | 10 | 55 |
列总计 | 310 | 290 | 总体总计 = 600 |
每个“电影-零食”组合的期望计数基于总行数和总列数。我们将总行数乘以总列数,然后除以总数。这可以得出表格中每个单元格的期望计数。例如,对于“动作-零食”单元格,我们有:
$ \frac{125\times310}{600} = \frac{38,750}{600} = 65 $
我们将答案四舍五入到最接近的整数。如果电影类型与购买零食之间没有关系,我们预期会有 65 个人在观看动作电影时购买零食。
这里是每个“电影-零食”组合的实际计数和期望计数。在下面表 3 的每个单元格中,期望计数以粗体显示在实际计数下方。期望计数四舍五入到最接近的整数。
表 3:显示实际计数与期望计数的电影零食数据列联表
电影类型 | 有零食 | 无零食 | 行总计 |
操作 | 50 65 | 75 60 | 125 |
喜剧 | 125 155 | 175 145 | 300 |
家庭片 | 90 62 | 30 58 | 120 |
恐怖片 | 45 28 | 10 27 | 55 |
列总计 | 310 | 290 | 总体总计 = 600 |
使用软件时,这些计算出来的值将被标注为“期望值”、“期望的单元格计数”或某些类似的术语。
理论上所有数据的计数都大于 5,因此,满足独立性检验的要求。
计算检验统计量之前,我们再看一下列联表。期望计数使用总行数和总列数。如果查看每个单元格,我们可以看到,有些期望计数接近实际计数,但大多数并不接近。如果电影类型与购买零食之间没有关系,实际计数与期望计数将非常相似。如果有关系,实际计数与期望计数将不相同。
对于期望计数,一个常见的错误是,简单地将总数除以单元格数量。对于这里的电影数据,即 600 / 8 = 75。这是错误的。我们知道总行数和列总数是固定的,无法更改。期望值基于总行数和总列数,不是简单地基于总数。
执行检验
计算检验统计量的基本思路是:在已知数据总行数和总列数的情况下,将实际值与期望值进行比较。首先,计算每一个“电影-零食”组合的实际值与期望值之间的差异。接下来,计算该差异的平方。计算平方可对实际值少于期望值的组合以及实际值多于期望值的组合赋予相同的重要性。然后,除以组合的期望值。将每个“电影-零食”组合的值相加,就得到了检验统计量。
使用我们示例中的数据会更容易理解。下面的表 4 显示了为每个“电影-零食”组合执行的计算,精确到两位小数。
表 4:准备计算检验统计量
电影类型 | 有零食 | 无零食 |
操作 | 实际:50 期望:64.58 | 实际:75 期望:60.42 |
差异:50 – 64.58 = -14.58 差异的平方:212.67 除以期望值:212.67/64.58 = 3.29 | 差异:75 – 60.42 = 14.58 差异的平方:212.67 除以期望值:212.67/60.42 = 3.52 | |
喜剧 | 实际:125 期望:155 | 实际:175 期望:145 |
差异:125 – 155 = -30 差异的平方:900 除以期望值:900/155 = 5.81 | 差异:175 – 145 = 30 差异的平方:900 除以期望值:900/145 = 6.21 | |
家庭片 | 实际:90 期望:62 | 实际:30 期望:58 |
差异:90 – 62 = 28 差异的平方:784 除以期望值:784/62 = 12.65 | 差异:30 – 58 = -28 差异的平方:784 除以期望值:784/58 = 13.52 | |
恐怖片 | 实际:45 期望:28.42 | 实际:10 期望:26.58 |
差异:45 – 28.42 = 16.58 差异的平方:275.01 除以期望值:275.01/28.42 = 9.68 | 差异:10 – 26.58 = -16.58 差异的平方:275.01 除以期望值:275.01/26.58 = 10.35 |
最后,为了得到检验统计量,我们将每个单元格最后一行的数字相加:
$ 3.29 + 3.52 + 5.81 + 6.21 + 12.65 + 13.52 + 9.68 + 10.35 = 65.03 $
为了做出决策,将检验统计量与来自卡方分布的值进行比较。此操作包括5 个步骤:
- 确定愿意为得出错误结论(即,两个变量实际上是独立的,但检验得出的结论是不独立的)而承担的风险。对于电影数据,我们在收集数据之前已确定,愿意为得出错误结论(即,当“电影类型”和“购买零食”这两个变量实际上相互独立时,我们认为它们是不独立的)承担 5% 的风险。用统计学的表达方式,我们将显著性水平 α 设置为 0.05。
- 计算检验统计量。如上文所示,检验统计量是 65.03。
- 根据自由度和显著性水平,从卡方分布中找到临界值。这是两个变量相互独立时我们期望的值。
- 自由度取决于我们有多少行和多少列。自由度 (df) 的计算方法是:
$ \text{df} = (r-1)\times(c-1) $
在这个公式中,r 是列联表中的行数,c 是列数。在我们的示例中,将“电影类型”作为行,将“购买零食”作为列,因此可以得到:
$ \text{df} = (4-1)\times(2-1) = 3\times1 = 3 $
α = 0.05 并且拥有 3 个自由度的卡方值是 7.815。
- 将检验统计量的值 (65.03) 与卡方值进行比较。由于 65.03 > 7.815,将拒绝电影类型与购买零食无关这种想法。
因此可以得出的结论是:电影类型与购买零食之间有某种关系。不考虑上映的电影类型,电影院的老板就无法估计要购买多少零食。相反,老板在估计购买多少零食时,必须要考虑上映的电影类型。
必须注意的是,我们无法得出电影类型是顾客购买零食的原因这样的结论。独立性检验仅告诉我们是否有关系;它并能不说明一个变量是另一个变量的原因。
了解结果
让我们使用图形来了解检验和结果。
下面的并排图表以蓝色显示实际计数,以橙色显示期望计数。计数出现在条形顶端。黄色方块显示电影类型总数和购买零食总数。需要使用这些总计来找到期望计数。
比较恐怖电影的期望计数和实际计数。您可以看到,购买零食的人数比期望的多,不购买零食的人数比期望的少。
如果您查看所有 4 种电影类型以及观众是否购买零食,您可以看到,对大多数组合而言,实际计数与期望计数之间有相当大的差异。独立性检验通过检查来了解实际数据是否“足够接近”在两个变量互相独立时的期望计数。即使没有统计检验,大多数人也会说,这两个变量是不独立的。统计检验提供了一种做出决策的常规方法,让每个人可以针对数据做出相同的决策。
下面的图表显示另一个可能的数据集。在此数据集中,代表电影类型和购买零食的行总计数与列总计数完全相同,但购买零食数据中的“是”/“否”拆分不同。
紫色条形显示此数据中的实际计数。橙色条形显示期望计数,这与我们的原始数据集中的情况相同。期望计数相同,因为行总计和列总计相同。从上面的图形中可以看出,大多数人会认为电影类型与购买零食无关。如果您使用这些新数据来执行独立性卡方检验,检验统计量就是 0.903。卡方值仍是 7.815,因为自由度仍是 3。您将无法拒绝独立性这种想法,因为 0.903 < 7.815。不考虑上映的电影类型,电影院的老板可以估计需要购买多少零食。
统计详情
让我们使用统计学术语来看看电影零食数据和独立性卡方检验。
我们的原假设是:电影类型与购买零食无关。原假设的写法如下所示:
$ H_0: \text{电影类型与购买零食无关} $
备择假设则相反。
$ H_0: \text{电影类型与购买零食有关} $
计算检验统计量之前,我们先要找到期望计数。备择假设的写法如下所示:
$ Σ_{ij} = \frac{R_i\times{C_j}}{N} $
该公式适用于 i x j 列联表。这是一个有 i 行和 j 列的数据表。例如,E11 是第一行第一列这个单元格的期望计数。该公式以 Ri 表示第 i 行的行总数,以 Cj 表示第 j 列的列总数。总体样本量大小是 N。
使用以下公式来计算检验统计量:
$ Σ^n_{i,j=1} = \frac{(O_{ij}-E_{ij})^2}{E_{ij}} $
在上面的公式中,我们有 n 个行与列的组合。Σ 符号表示将每个组合的计算结果相加。(我们在表 4 中开始的“电影-零食”示例中执行了相同的步骤。)该公式以 Oij 表示第 ij 个组合的观测计数,以 Ei j 表示组合的期望计数。对于“电影-零食”示例,我们有 4 行和 2 列,因此我们有 8 个组合。
然后,我们将检验统计量与我们为数据选择的相应的alpha 值和自由度的卡方临界值进行比较。以“电影-零食”数据为例,我们设置了 α = 0.05,并且有 3 个自由度。对于“电影-零食”数据,卡方值写作:
$ χ_{0.05,3}^2$
我们的比较有两种可能的结果:
- 检验统计量低于卡方值。您无法拒绝独立性假设。在“电影-零食”示例中,电影院老板可以采用一个人观看的电影类型与他们是否购买零食没有关系这个假设。
- 检验统计量高于卡方值。您将拒绝独立性假设。在“电影-零食”示例中,电影院老板无法假设一个人观看的电影类型与他们是否购买零食没有关系。
了解 p 值
让我们使用卡方分布图来更好地了解 p 值。您要检查检验统计量的值是否比分布中的临界值更极端。下图显示了有 3 个自由度的卡方分布。它显示了 7.815 这个值如何“切割”掉 95% 的数据。在具有 3 个自由度的卡方分布中,仅有5% 的数据大于 7.815。
下一个分布图显示了我们的结果。您可以看到我们的检验统计量有多么远离尾部。实际上,使用这个尺度,分布曲线看起来好像在 0 点处与我们的检验统计量相交。但实施并非如此,它只是非常非常接近 0。我们可以得出的结论是:偶然发生这种情况是非常不可能的。我们从电影观众那里得到的结果是:如果说电影类型与购买零食之间真的没有关系,这种情况是极不可能发生的。
统计软件显示了检验的 p 值。这是在假设原假设为真时,使用相同大小的另一个样本得出的检验统计量比使用我们目前的样本得出的检验统计量更极端的可能性。这难以手动计算。就上面显示的分布而言,如果检验统计量正好是 7.815,那么 p 值将是 p=0.05。检验统计量是 65.03 时,p 值会非常非常小。在这个示例中,大多数统计软件会将 p 值报告为“p < 0.0001”。这意味着,使用另一个随机样本(并且假设原假设正确)找到更极端的检验统计量的可能性在 10,000 次中少于 1 次。