多重比较

发布日期: 04/13/2021

多重比较

使用该选项可获取用来比较模型效应各水平所定义的均值的检验和置信水平。多重比较方法的目标是：确定组均值是否存在差异，同时控制得出不正确结论的概率。“多重比较”选项支持您将组均值与总平均值（均值分析）和控制组均值进行比较。您还可以使用 Tukey HSD 或 Student t 执行配对比较。指定 Student t 方法时，还可以执行等价性检验来识别有实际意义的配对差值。

Student t 方法仅控制单个比较的误差率。因此，它不是真正的多重比较过程。提供的所有其他方法控制关注的所有比较的总误差率。在这些方法中，每一种方法都使用多重比较调整来计算 p 值和置信限。

若您的模型包含名义型和有序型效应，您可以使用最小二乘均值估计值执行比较，也可以使用“用户定义的估计值”定义特定比较。若您的模型仅包含连续效应，您可以使用“用户定义的估计值”比较均值。

提示：假定连续效应包含相对较少的水平。若您关注的是使用“最小二乘均值估计值”进行比较，则考虑为该效应分配有序型（或名义型）建模类型。

启动选项

“多重比较”选项的控制窗口示例显示在Figure 3.28 中。本例基于 Big Class.jmp 数据表，其中将体重设置为 Y，年龄、性别和身高设置为模型效应。有两类估计值可用于比较：“最小二乘均值估计值”和“用户定义的估计值”。

最小二乘均值估计值

该选项比较最小二乘均值，仅在模型中有名义型或有序型效应时才可用。回想一下，最小二乘均值是在模型中其他效应设置为某个中性值时计算的均值。（有关最小二乘均值的定义，请参见最小二乘均值表。）您必须选择相关的效应。在Figure 3.28 中，为年龄指定了“最小二乘均值估计值”。提供显示最小二乘均值图的选项。请参见最小二乘均值图选项。

图 3.28 “最小二乘均值估计值”的启动窗口

Image shown here

用户定义的估计值

Figure 3.29 对如何指定“用户定义的估计值”进行了演示。已选定“年龄”的三个水平和“性别”的两个水平。此外，还手动输入了“身高”的两个值。已点击“添加估计值”按钮，生成了指定水平的所有可能组合的列表。此时，您可以指定更多估计值，并通过再次点击“估计值”按钮将其添加至“估计值进行比较”列表。

图 3.29 “用户定义的估计值”的启动窗口

Image shown here

使用“用户定义的估计值”时，未指定水平的效应设置如下：

• 连续效应设置为效应的均值。

• 名义型和有序型效应设置为值排序中的第一个水平。

注意：在本节中，我们将用均值一词来指代最小二乘均值的估计值或用户定义的估计值。

选择最小二乘均值图选项

选择显示最小二乘均值图以获取最小二乘均值图。若您的效应是交互作用项，则提供创建交互作用图的选项。选择叠加的词条。若您未选择交互作用图，则最小二乘图将嵌套这些效应项。请参见最小二乘均值图选项。

选择初始比较

一旦指定了估计值，通过在“选择初始比较”下作出选择，您可以选择希望在初始报表中查看的比较类型。或者点击“确定”不作任何选择。

与总平均值比较 - ANOM

将每个效应的最小二乘均值与总最小二乘均值进行比较。（均值分析）。

与控制组比较 - Dunnett’s

将每个效应的最小二乘均值与控制水平的最小二乘均值进行比较。

所有配对比较 - Tukey HSD

使用 Tukey HSD 多重性调整来检验效应最小二乘均值的所有配对比较。

所有配对比较 - Student t

检验效应最小二乘均值的所有配对比较，但不使用多重性调整。

通过以上每个选项都可以打开一个报表，顶部区域会显示特定于该报表的详细信息。该信息包括分位数或临界值。对于真正的多重比较过程，会显示用于多重比较调整的方法。若您指定的是“用户定义的估计值”，相对于指定的估计值和这些效应被设置的水平，报表会显示不会发生变化的效应列表。除非您另行指定，所有连续效应都设置为其均值。任何名义型和有序型效应都设置为其值排序中的第一个水平。

若点击“确定”而不从“选择初始比较”列表中进行任何选择，“多重比较”报表打开时会显示“最小二乘均值估计值”表或“用户定义的估计值”表。在“多重比较”红色小三角菜单中，以上列出的所有选项都可用。可用的报表和选项说明如下。

“最小二乘均值估计值”或“用户定义的估计值”报表

默认情况下，“多重比较”选项显示“最小二乘均值估计值”报表或“用户定义的估计值”报表，具体取决于您在启动窗口中选择的估计值类型。对于关注的每种水平组合，该表提供均值的估计值，以及检验和置信区间。具体而言，该表包含以下信息：

分类效应的水平

报表的第一列标识关注的一个或多个效应。列中的值指定要分析的组。

估计值

每个组的均值的估计值。

标准误差

每个组的均值的标准误差。

自由度

均值是否为 0 的检验的自由度。

95% 下限

均值的置信下限。通过在“拟合模型”窗口中选择“设置 alpha 水平”，您可以更改置信水平。

95% 上限

均值的置信上限。

t 比

显著性检验的 t 比。仅当您在报表中右击并选择“列”>“t 比”时才显示该列。

概率>|t|

显著性检验的 p 值。仅当您在报表中右击并选择“列”>“概率>|t|”时才显示该列。

算术均值估计值

（仅在“最小二乘均值估计值”报表中显示。）每个组的算术均值的估计值。

数目

（仅在“最小二乘均值估计值”报表中显示。）用于计算每组均值的观测数。

注意：通过在表中右击并选择“列”，您可以获取 t 比和 p 值。

与总平均值比较

该选项将指定水平的均值与这些水平的总均值进行比较。它显示一个表（其中显示总均值差值的置信区间）和一个图（其中显示决策限）。比较所用的方法称为均值分析(ANOM) (Nelson et al. 2005)。ANOM 是一种多重比较过程，用来控制针对总均值的所有配对比较的联合误差率。有关基于 Lipid Data.jmp 样本数据表的报表，请参见Figure 3.30。

ANOM 的显示可能与方差分析类似。不过，根本上的不同在于：ANOM 标识其均值与所有水平的总均值存在差异的水平。相反，方差分析检验均值自身的差值。

在“与总平均值比较”报表的顶部，您会发现：

分位数

用于构造决策限的 Nelson h 统计量的值。

调整的自由度

用于构造决策限的自由度。

平均值

平均均值。对于最小二乘估计值，平均均值是组最小二乘均值的加权平均值。该加权平均值表示中性设置（用于计算组最小二乘均值）下的总均值。

具体而言，平均最小二乘均值是权重与矩阵 L(X′X)−1L′ 的对角线元素成反比的加权平均值。其中，L 是用于计算组最小二乘均值的系数所构成的矩阵。有关最小二乘均值的技术定义，请参见 SAS Institute Inc.(2018b) 中的“GLM 过程”一章。

对于用户定义的估计值，平均均值也按类似方式定义。不过，在这种情况下 L 是用于定义估计值的系数所构成的矩阵。

调整

说明用于获取临界值的方法：

Nelson

提供精确临界值和 p 值。尽可能使用，特别是在估计值不相关时。

Nelson-Hsu

基于使用 Hsu 因子分析近似 (Hsu 1992) 提供近似临界值和 p 值。在无法获取精确值时使用。

Sidak

在 Nelson 和 Nelson-Hsu 均失败时使用。

有关技术细节，请参见 SAS Institute Inc.(2018b) 中的“GLM 过程”一章。

“与总平均值比较”报表菜单提供三个选项：

与总平均值差异

对于组均值与总均值的每次比较，该报表提供以下详细信息：

• 要比较的水平

• 差值 — 估计的差值

• 标准误差 — 差值的标准误差

• 置信区间的上下限

• t 比 - “差值”与“标准误差”列之比

与总平均值比较决策图

该决策图在每个组的均值处标绘一个点。在平均均值处标绘了一条水平线。同时标绘上决策限和下决策限。假定与组均值对应的点落在这些限值之外。这表示基于指定显著性水平下的均值分析检验，组均值与总均值存在差异。显著性水平显示在图的下方。

“与总平均值比较决策图”报表菜单包含以下选项：

显示汇总报表

生成显示每组的估计值、决策限和超出限值的表

显示选项

提供用于控制图显示的若干选项。

计算调整的 P 值

将包含 p 值（概率>|t|）的列添加到“与总平均值比较”报表。请注意，计算不平衡设计的精确临界值和 p 值要求复积分，计算起来可能较为困难。针对此类分位数的计算若失败，则计算 Sidak 分位数，但不提供 p 值。

“与总平均值比较”的示例

考虑 Lipid Data.jmp 样本数据表。您关注在控制饮酒状况和心脏病史的前提下四种吸烟史类别中是否有任何类别的咖啡摄入量（杯/天）均值与咖啡摄入量的总平均值有明显不同。您指定包含咖啡摄入量（杯/天）的模型作为响应，将吸烟史、饮酒状况和心脏病史作为模型效应。

1. 选择帮助 > 样本数据库，然后打开 Lipid Data.jmp。

2. 选择分析 > 拟合模型。

3. 选择咖啡摄入量（杯/天）并点击 Y。

4. 选择吸烟史、饮酒状况和心脏病史，然后点击添加。

5. 点击运行。

6. 点击“响应‘咖啡摄入量（杯/天）’”旁边的红色小三角并选择估计值 > 多重比较。

7. 从“选择效应”列表中，选择吸烟史。

8. 在“选择初始比较”列表中，选择与总平均值比较 - ANOM。

9. 点击确定。

结果显示在Figure 3.30 中，它说明在咖啡摄入量方面非吸烟者和吸烟者的最小二乘均值与总平均值有显著不同。

图 3.30 与“分级”的总平均值比较

Image shown here

与控制组比较

若选择“与控制组比较 - Dunnett’s”，随即打开一个窗口，要求您指定控制组。若选定“最小二乘均值估计值”，该列表将包含您选定的效应的所有水平。若选定“用户定义的估计值”，该列表将包含您指定的效应水平组合。

选择控制组并点击“确定”后，“与控制组比较”报表随即显示在“拟合最小二乘法”报表中。该选项比较指定设置的均值与控制组均值。它显示一个表（其中显示与控制组差值的置信区间）和一个显示决策限的图。使用 Dunnett 方法进行比较。Dunnett 方法是一种多重比较过程，用于控制所有比较上的误差率 (Hsu 1996; Westfall et al. 2011)。

若无法精确计算 p 值和置信区间，则使用 Hsu 因子分析近似 (Hsu 1992)。请注意，计算不平衡设计的精确临界值和 p 值要求复积分，可能需要大量计算。针对此类分位数的计算若失败，则计算 Sidak 分位数。

除了对于指定估计值不会改变的效应列表之外，“与控制组比较”报表的顶部还显示：

分位数

Dunnett 检验的临界值。

调整的自由度

用于构造置信区间的自由度。

控制

定义控制组的设置。若已经选定单一效应，则这是单个水平；若指定了多个效应的用户定义组合，则这是多个水平的组合。

调整

用于获取临界值的方法：

Dunnett

提供精确临界值和 p 值。尽可能使用，特别是在估计值不相关时。

Dunnett-Hsu

基于使用 Hsu 因子分析近似 (Hsu 1992) 提供近似临界值和 p 值。在无法获取精确值时使用。

Sidak

在 Dunnett 和 Dunnett-Hsu 均失败时使用。

有关技术细节，请参见 SAS Institute Inc.(2018b) 中的“GLM 过程”一章。

“与控制组比较”报表菜单提供三个选项：

与控制组差异

对于组均值与控制均值的每次比较，该报表都提供以下详细信息：

• 要比较的水平

• 差值 — 估计的差值

• 标准误差 — 差值的标准误差

• 置信区间的上下限

• t 比 - “差值”与“标准误差”列之比

与控制组比较决策图

该决策图在与控制组作比较的每个组的均值处标绘一个点。有一条水平线显示控制组的均值。同时标绘上决策限和下决策限。若某个点落在这些限值之外，则这点对应组的均值与控制组均值存在差异（基于指定显著性水平下的 Dunnett 检验）。该水平显示在图下方。

“与控制组比较决策图”报表菜单包含以下选项：

显示汇总报表

生成显示每组的估计值、决策限和超出限值的表

显示选项

提供用于控制图显示的若干选项。

计算调整的 P 值

所有配对比较

“所有配对比较”选项可显示“Tukey HSD 所有配对比较”或“Student t 所有配对比较”报表 (Hsu 1996; Westfall et al. 2011)。构造 Tukey HSD 比较，以使显著性水平联合应用到所有配对比较。相比之下，对于 Student t 比较，显著性水平应用到每一单个比较。使用 Student t 检验执行若干配对比较时，某个比较被错误地判定存在差异的风险可能远远超出规定的显著性水平。

在“Tukey HSD 所有配对比较”报表的顶部，您会发现：

分位数

检验的临界值。请注意，对于 Tukey HSD，分位数为 Equation shown here ，其中 q 是适当的学生化范围统计量的百分点。

调整的自由度

用于构造置信区间的自由度。

调整

说明用于获取临界值的方法：

Tukey

提供精确临界值和 p 值。在均值不相关且具有相等方差时或设计的方差平衡时使用。

Tukey-Kramer

提供近似临界值和 p 值。在无法获取精确值时使用。

有关技术细节，请参见 SAS Institute Inc.(2018b) 中的“GLM 过程”一章。

在“Student 所有配对比较”报表中，您可找到用于 t 检验的分位数（或临界值），以及用于 t 检验的自由度 DF。

“所有配对差异”报表

Tukey HSD 和 Student t 比较所有水平对。对于每个配对比较，“所有配对差异”报表都显示：

• 要比较的水平

• 差值 — 均值间的估计差值

• 标准误差 — 差值的标准误差

• t 比 — 确定差值是否为 0 的检验的 t 比

• 概率>|t| — 检验的 p 值

• 均值差值的置信区间的上下限

所有配对比较散点图

该图有时称为差值图或均值-均值散点图，其中显示所有均值配对差值的置信区间。（相关示例，请参见Figure 3.32。）颜色指示哪些差值显著。

该图将参考线显示为对角线上向上倾斜的线。这条线表示两个均值相等的点。每条线段都对应于某一配对比较的置信区间。线段上显示的点的坐标是对应组的均值。将光标置于其中一个点上会显示工具提示，标识要比较的组并显示估计差值。若线段与对角线相交，则均值可能相等，比较不显著。

“配对比较散点图”有以下选项：

显示参考线

显示散点图上点的参考网格线。若散点图中有很多点，则不推荐。若有很多点，则最好将光标置于各点上方以查看工具提示标签。

所有配对差异连接字母

使用该选项来显示使用连接字母说明显著比较和非显著比较的报表。没有由相同字母连接的水平存在显著差异。由相同字母连接的水平没有显著差异。

保存所有配对差值连接字母表

该选项创建一个数据表，其中的列包含效应水平、连接字母、最小二乘均值、其标准误差和置信区间。该数据表包含名为“条形图”的脚本，该脚本可生成叠加了置信区间的最小二乘均值的着色条形图。各水平按照最小二乘均值的降序排列。

等价性检验

使用该选项可执行一个或多个等价性检验。若您想要检测有实际意义的差值，等价性检验很有用。您需要为组均值指定一个阈值差，比这更小的差值可被视为实际上等价。换言之，若两个组均值的差值未超过该数值，您愿意将其视为等价。

一旦指定该值，“等价性检验”报表随即显示。您指定的界限显示在该报表顶部。该报表包含一个提供等价性检验的表，以及一个显示这些检验的散点图。这些等价性检验和置信区间均基于 Student t 临界值。

注意：等价性检验仅适用于 Student t 方法。

等价性 TOST 检验

双单侧检验 (TOST) 方法用于检验均值之间的实际差值 (Schuirmann 1987)。针对实际差值超过阈值的原假设，构造双单侧合并方差 t 检验。若两个检验都拒绝，则均值差值在统计上未超过任一阈值。因此，这些组被视为实际上等价。若只有一个检验拒绝或两个检验均未拒绝，则各组可能实际上不等价。

对于每个比较，“等价性 TOST 检验”报表都提供以下信息：

• 差值 — 均值的估计差值

• t 比下限、t 比上限 — 双单侧合并方差显著性检验的 t 比的下限和上限

• p 值下限、p 值上限 — 与 t 比的下限和上限对应的 p 值

• 最大 p 值 — p 值下限和上限的最大值

• 均值差值的 1−2α 置信区间的上下限。

注意：等价性 TOST 检验仅适用于 Student t 方法。

等价性检验散点图

该散点图使用颜色指示哪些均值实际上是等价的，哪些不等价，正如等价性检验确定的那样。

该图在对角线上显示一条参考实线以及一个着色参考带。参考带的宽度是实际差值的两倍宽。每条线段都对应于某一配对比较的 1−2α 置信区间。线段上的点的坐标是对应组的均值。将光标置于其中一个点上会显示工具提示，指示要比较的组并显示估计差值。若线段完全包含在对角带内，由此判定均值实际上等价。

注意：等价性检验散点图仅适用于 Student t 方法。

等价性检验散点图具有以下选项：

显示参考线

显示散点图上点的参考线。若散点图中有很多点，则不推荐。若有很多点，则最好将光标置于各点上方以查看工具提示标签。

删除

该选项可从“Student t 所有配对比较”报表中删除“等价性检验”报表。

“Tukey HSD 所有配对比较”的示例

考虑 Lipid Data.jmp 样本数据表。您关注在两个年龄组（25 和 35 岁）和平均身高保持不变的情况下胆固醇是否存在性别差异，是否在非吸烟者和曾吸烟者（其吸烟史分别等于 no 和 quit）方面存在差异。

1. 选择帮助 > 样本数据库，然后打开 Lipid Data.jmp。

2. 选择分析 > 拟合模型。

3. 选择胆固醇并点击 Y。

4. 选择性别、年龄、身高和吸烟史，然后点击添加。

5. 点击运行。

6. 点击“响应‘胆固醇’”旁边的红色小三角并选择估计值 > 多重比较。

7. 从“估计值类型”列表中，点击用户定义的估计值。

8. 从“选择性别水平”列表中，选择 female（默认情况下应已选定）和 male。

9. 从“选择吸烟史水平”列表中，选择 no 和 quit。

10. 在年龄列表中，在前两行输入年龄 25 和 35。

不要在身高列表中输入任何值。因为未指定身高值，在“多重比较”报表中将使用身高列的均值。

11. 点击添加估计值。

请注意，并非您指定的水平的所有可能组合都显示在“进行比较的估计值”报表中。

12. 在“选择初始比较”列表中，选择所有配对比较 - Tukey HSD。

检查您的窗口是否按Figure 3.31中所示填写。

图 3.31 已填写的“用户定义的估计值”窗口

Image shown here

13. 点击确定。

“所有配对差值”报表指示 28 个配对比较中的 2 个是显著的。Figure 3.32中显示的“所有配对比较散点图”将这些比较的置信区间显示为红色。您可以将光标置于任何点上以确定该点代表哪个配对比较。工具提示还包含该比较中两个水平的差值。Figure 3.32 中的两个红色点表示对男性和女性比较 35 岁的曾吸烟者和 25 岁的非吸烟者的点。

图 3.32 针对用户定义的比较的“所有配对比较散点图”

Image shown here

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).