拟合优度卡方检验

什么是拟合优度卡方检验?

拟合优度卡方检验是一种统计学上的假设检验,用于确定某个变量是否可能来自指定的分布。它常常用于评估样本数据是否代表总体。

何时使用拟合优度卡方检验?

当您有一个分类型变量的值计数时,可以使用该检验。

拟合优度卡方检验与 Pearson卡方检验是否相同?

是的。

使用拟合优度卡方检验

拟合优度卡方检验检查样本数据是否可能来自特定的理论分布。我们有数据集,还有关于数据是如何分布的假设。可以使用拟合优度卡方检验来确定数据与我们的假设是否有“足够好”的拟合度,或者我们的假设是否有问题。

我们需要哪些资源?

对于拟合优度检验,我们需要一个变量。我们还需要有关于此变量是如何分布的想法或假设。以下是两个示例:

  • 我们有几包糖果,每包有 5 种口味的糖果。糖果包里每种口味的糖果数应该相等。我们想要检验的是,每包中 5 种口味的糖果所占比例相同。
  • 对于一组儿童运动队,我们希望拥有丰富经验、有一定经验和没有经验的儿童在各个队伍之间是均等分配的。假设我们知道,这个联盟中 20% 的运动员有丰富的经验,65% 的运动员有一定的经验,15% 是没有经验的新运动员。我们想要验证的想法是,每个队伍中有丰富经验、一定经验和没有经验的儿童所占的比例与他们在整个联盟中所占的比例相同。

为了将拟合优度检验应用于数据集,我们需要:

  • 从完整总体中抽取的简单随机样本数据值。
  • 分类型或名义型数据。拟合优度卡方检验不适用于连续型数据。
  • 足够大的数据集,从而每一种观测的数据类别至少有 5 个期望值。

拟合优度卡方检验示例

让我们以糖果包为例。我们收集 10 包糖果的随机样本。每包有 100 颗糖果,5 种口味。我们的假设是:每包中 5 种口味的糖果所占比例相同。

我们首先回答这个问题:拟合优度卡方检验这种方法能否恰当地评估糖果包中的口味分布?

  • 我们有 10 包糖果的简单随机样本。此项满足要求。
  • 分类变量是糖果口味。我们有 10 包糖果中每一种口味的计数。此项满足要求。
  • 每包有 100 颗糖果。每包有 5 种口味的糖果。我们期望每种口味糖果的数量相等。这意味着,我们期望每包中每种口味的糖果是 100 / 5 = 20 颗。对于样本中的 10 包糖果,我们期望每种口味的糖果是 10 x 20 = 200 颗。这超过了每个类别中有 5 个期望值这一要求。

基于上述答案,我们可以肯定,拟合优度卡方检验适合用于评估糖果包中的口味分布。

下面的图 1 显示了来自所有 10 包糖果的合并口味计数。

图 1:来自所有 10 包糖果的糖果口味计数条形图

没有做任何的统计检验,我们就能看出,每种口味的糖果数量不同。有些口味的糖果数少于期望的 200 颗,有些则多于 200 颗。但口味比例有怎样的不同呢?各种口味的糖果数量是否“足够接近”,让我们可以得出这样的结论:在许多包糖果中,每种口味的糖果数量相同?或者,各种口味的糖果数量是否差异很大,让我们无法得出这样的结论?换种说法,我们的数据值能否“足够良好”地与每种口味的糖果数量相等这个想法拟合?

为了做出决策,首先,我们要找到实际值与期望值之间的差异。然后,为了对数量少于期望值的糖果口味和数量多于期望值的糖果口味赋予相同的重要性,我们计算差异的平方。接下来,我们将这个平方值除以期望计数,再对这些值求和。这就得到了检验统计量。

使用我们示例中的会更容易理解这些步骤。

我们首先列出每一包中每种口味的糖果数量相同时我们期望的计数。前面我们已针对 10 包糖果计算出该数字为 200。

表 1:每种口味的糖果实际数量与期望数量的比较

口味糖果数量(10 包)期望糖果数量
苹果180200
酸橙250200
樱桃120200
樱桃225200
葡萄225200

现在,我们要找到数据中实际观测到的值与期望值之间的差异。下面表 2 中的最后一列显示了此差异:

表 2:按口味列出的观测到的糖果数与期望的糖果数之间的差异

口味糖果数量(10 包)期望糖果数量观测值-期望值
苹果180200180-200 = -20
酸橙250200250-200 = 50
樱桃120200120-200 = -80
橙子225200225-200 = 25
葡萄225200225-200 = 25

有些差异是正值,有些差异是负值。如果我们将其简单相加,将得到 0。取而代之,我们将计算差异的平方。这样可以对数量少于期望数量的糖果口味和数量多于期望数量的糖果口味赋予相等的重要性。

表3:针对每种糖果口味计算观测数量与期望数量之间的差异的平方

口味糖果数量(10 包)期望糖果数量观测值-期望值差异的平方
苹果180200180-200 = -20400
酸橙250200250-200 = 502500
樱桃120200120-200 = -806400
橙子225200225-200 = 25625
葡萄225200225-200 = 25625

接下来,我们将差异的平方除以期望的数量:

表 4:计算差异的平方/每种口味糖果的期望数量

口味糖果数量(10 包)期望糖果数量观测值-期望值差异的平方差异的平方/期望的数量
苹果180200180-200 = -20400400 / 200 = 2
酸橙250200250-200 = 5025002500 / 200 = 12.5
樱桃120200120-200 = -8064006400 / 200 = 32
橙子225200225-200 = 25625625 / 200 = 3.125
葡萄225200225-200 = 25625625 / 200 = 3.125

最后,将最后一列的数字相加,计算出检验统计量:

$ 2 + 12.5 + 32 + 3.125 + 3.125 = 52.75 $

为了得出结论,将检验统计量与来自卡方分布的临界值进行比较。此操作包含 4 个步骤:

  1. 首先确定我们愿意为基于样本观测值得出错误的结论而承担的风险。对于糖果数据,在收集数据之前需要确定,我们愿意为得出错误结论(即,整个总体中每包糖果的口味计数实际上相等时,我们认为它们不相等)承担 5% 的风险。用统计学的表达方式,我们将显著性水平 α 设置为 0.05。
  2. 计算检验统计量。检验统计量是 52.75。
  3. 根据显著性水平,从卡方分布中找到理论值。理论值是指糖果包中包含的每种口味的糖果数量相同时我们所期望的值。

    除了显著性水平之外,我们还需要有自由度,这样才能找到这个值。对于拟合优度检验,即为类别数减 1。我们有 5 种口味的糖果,因此有 5 – 1 = 4 个自由度。

    α = 0.05 并且有 4 个自由度的卡方值是 9.488。
  4. 将检验统计量的值 (52.75) 与卡方值进行比较。由于 52.75 > 9.488,我们将拒绝“各种口味的糖果所占比例相等”这个原假设。

 

由此我们得出更确凿的结论:在总糖果包中,5 种口味的糖果数量不相等。如果看一下原始数据,您就知道这是正确的。如果您喜欢酸橙口味,您拥有的酸橙口味的糖果可能会比其他口味的糖果多。如果您喜欢樱桃口味,您可能会不开心,因为樱桃口味的糖果将比您期望的少。

解读结果

让我们使用一些图形来了解检验和结果。

一个简单的数据条形图显示了观测到的各种口味糖果的计数:

 

图 2:观测到的各种口味的糖果计数条形图

另一个简单条的形图显示了每种口味的期望计数 200。这是在糖果包中每种口味的糖果数相等时,图表应该呈现出的样子。

图 3:每种口味的期望计数条形图

下面的并排图表以蓝色显示实际观测到的糖果数量。橙色条形显示期望的数量。可以看到,有些口味的糖果数量比期望的数量多,有些口味的糖果数量比期望的数量少。

图 4:将糖果实际计数与期望计数进行比较的条形图

统计检验为我们提供了一种方法来量化差异。我们样本中的实际数据是否“足够接近”期望的情况,能否得出整个糖果包总体中各种口味所占比例相等这个结论?从上面的糖果数据可以看出,即使没有做统计检验,大多数人也会认为数据并非“足够接近”。

如果数据看起来像下面图 5 中的示例,该怎么办?紫色条形显示观测到的计数,橙色条形显示期望的计数。有些人认为数据“足够接近”,但有些人认为并非如此。统计检验提供了一种做出决策的常用方法,让每个人都可以针对数据集做出相同的决策。

图 5:使用另一个示例数据集将期望值与实际值进行比较的条形图

统计详情

让我们使用统计学术语来看看糖果数据和拟合优度卡方检验。拟合优度卡方检验也称为 Pearson 卡方检验。

我们的原假设是:每一包中各种口味的糖果所占比例相同。我们有 5 种口味。原假设的写法如下所示:

$ H_0: p_1 = p_2 = p_3 = p_4 = p_5 $

上面的公式使用 p 来表示每种口味所占的比例。如果每个装有 100 颗糖果的糖果包中,5 种口味的糖果数都相等,那么糖果包中每种口味的糖果都是 20 颗。每种口味所占的比例是 20 / 100 = 0.2。

备择假设是:至少有一种口味所占的比例与其他口味所占的比例不同。备择假设的写法如下所示:

$ H_a: 至少一个 p_i 不相等 $

在某些情况下,我们不检验比例是否相等。请再看一下接此页面上方的儿童运动队示例。使用此数据,我们的原假设和备选假设是:

$ H_0: p_1 = 0.2, p_2 = 0.65, p_3 = 0.15 $

$ H_a: 至少一个 p_i 不等于期望值 $

与涉及一个总体参数的其他假设不同,我们不能仅使用公式。还需要使用词语和符号来描述我们的假设。

我们使用下面的公式来计算检验统计量:

$ \sum^n_{i=1} \frac{(O_i-E_i)^2}{E_i} $

在上面的公式中,我们有 n 个组。$ \sum $ 符号表示将每个组的计算相加。对每个组执行与糖果示例中相同的步骤。公式以 Oi 表示某个组的观测值,以 Ei 表示期望值。

然后,将检验统计量与对应于我们为数据选择的显著性水平(也称为 alpha 水平)和自由度的卡方值进行比较。以糖果数据为例,我们设置了 α = 0.05,并且有 4 个自由度。对于糖果数据,卡方值写作:

$ χ²_{0.05,4}$

我们的比较有两种可能的结果:

  • 检验统计量低于卡方值。您将无法拒绝比例相等这个假设。您可以得出的结论是:就整个总体而言,糖果包中每种口味的糖果数相同。比例相等的拟合度“足够好”。
  • 检验统计量高于卡方值。您将拒绝比例相等这个假设。您无法得出“糖果包中每种口味的糖果数相同”这样的结论。比例相等的拟合度“并非足够好”。

让我们使用卡方分布来更好地了解检验结果。您要检查检验统计量的值是否比分布中的临界值更极端。下面的分布显示了有 4 个自由度的卡方分布。它显示了 9.488 这个临界值如何“切割”掉 95% 的数据。仅有 5% 的数据大于 9.488。

图 6:具有 4 个自由度的卡方分布

下一个分布图包含了我们的结果。您可以看到我们的检验统计量离尾部有多远,在 52.75 处以虚线表示。实际上,使用这个尺度,曲线看起来好像在 0 点处与虚线相交。但实施并非如此,它只是非常非常接近 0。我们可以得出的结论是:偶然发生这种情况是非常不可能的。如果真实的糖果包总体有相等的口味数量,我们极大看不到从 10 包糖果的随机样本得到的结果。

图 7:具有 4 个自由度并且绘制了检验统计量的卡方分布图

大多数统计软件都会显示检验的 p 值。这是在使用相似的样本并且假定原假设正确的情况下,找到更极端的检验统计量的可能性。p 值很难手动计算。就上图而言,如果检验统计量正好是 9.488,那么 p 值将是 p=0.05。检验统计量是 52.75 时,p 值会非常非常小。在这个示例中,大多数统计软件会将 p 值报告为“p < 0.0001”。这意味着,在使用另一个 10 包糖果的样本数据,并且假设我们对各种口味的糖果计数相等的原假设为真的情况下,得出更极端的检验统计量的可能性在 10,000 次中少于 1 次。