基本分析 > 单因子分析 > “单因子”平台的更多示例 > 示例:堆叠数据以进行单因子分析
发布日期: 08/07/2020

示例:堆叠数据以进行单因子分析

若您的数据采用 JMP 数据表之外的格式,有时这些数据会排列成一行中包含多个观测的信息。要在 JMP 中分析这些数据,您必须导入数据并调整其结构,令 JMP 数据表中的每行都包含一个观测的信息。例如,假定数据包含在电子表格中。在三条生产线上生产的部件的数据排列在三组列中。在 JMP 数据表中,您需要将这三条生产线上的数据堆叠到一组列中,以便每行表示单个部件的数据。

说明和目标

本例使用文件 Fill Weights.xlsx,其中包含从三条不同生产线随机抽样的麦片盒的重量。数据格式 显示了数据格式。

“ID”列包含测量的每个麦片盒的标识符。

“Line”列包含从相应生产线抽样的麦片盒的重量(以盎司为单位)。

数据格式 

这些麦片盒的目标填充重量为 12.5 盎司。尽管您关注的是这三条生产线是否满足目标要求,但最初您想要看看这三条生产线是否实现了相同的填充率均值。您可以使用“单因子”来检验填充重量均值之间的差值。

要使用“单因子”平台,您需要执行以下操作:

1. 将数据导入 JMP。请参见导入数据

2. 重塑数据,以便 JMP 数据表中的每行都仅反映一个观测。重塑数据要求您将麦片盒 ID、生产线标识符和重量都堆叠到列中。请参见堆叠数据

导入数据

本例演示将数据从 Microsoft Excel 导入 JMP 的两种方式。选择其中一种方法或探究两种方法:

使用文件 > 打开选项通过“Excel 导入向导”从 Microsoft Excel 文件导入数据。请参见使用“Excel 导入向导”导入数据。该方法对任何 Excel 文件都很方便。

将数据从 Microsoft Excel 复制并粘贴到新的 JMP 数据表中。请参见复制和粘贴 Excel 中的数据。您可以对小型数据文件使用该方法。

有关如何从 Microsoft Excel 导入数据的详细信息,请参见《使用 JMP》中的导入 Microsoft Excel 文件

使用“Excel 导入向导”导入数据

1. 选择帮助 > 样本数据库,然后打开位于 Samples/Import Data 文件夹中的 Fill Weights.xlsx

该文件在“Excel 导入向导”中打开。

2. 列标题起始于行旁边键入 3。

在 Excel 文件中,第 1 行包含有关该表的信息,第 2 行为空。列标题信息从第 3 行开始。

3. 带列标题的行数键入 2。

在 Excel 文件中,第 3 行和第 4 行都包含列标题信息。

4. 点击导入

使用“Excel 导入向导”创建的 JMP 表 

数据包含在七行中,每行中都显示多个 ID。对于这三条生产线中的每一条,都有一个“ID”列和一个“重量”列,总共有六列。

请注意,“ID”列名中的“Weights”部分不是必要的,有误导作用。您可以现在重命名这些列,但是堆叠数据之后再重命名这些列将更为高效。

5. 前进到堆叠数据

复制和粘贴 Excel 中的数据

1. 在 Microsoft Excel 中打开 Fill Weights.xlsx

2. 选择表内数据,但排除不必要的“重量”标题。

3. 右击并选择复制

4. 在 JMP 中,选择文件 > 新建 > 数据表

5. 选择编辑 > 带列名一起粘贴

若剪贴板上的选择内容中包含列名,则使用编辑 > 带列名一起粘贴选项。

使用“带列名一起粘贴”创建的 JMP 表 

6. 前进到堆叠数据

堆叠数据

使用“堆叠”选项在新数据表的每行中放入一个观测。有关“堆叠”选项的详细信息,请参见《使用 JMP》中的堆叠列

1. 在 JMP 数据表中,选择表 > 堆叠

2. 选择全部六列并点击堆叠列

3. 选择多序列堆叠

您需要堆叠两个序列,分别是“ID”和“Line”,所以您无需更改默认设置为 2 的“序列数”。包含序列的列不连续。这些列交替显示(ID、Line A、ID、Line B、ID、Line C)。出于此原因,您未选中“连续”。

4. 取消选择按行堆叠

5. 选择剔除缺失行

6. 输出表名称旁边输入堆叠

7. 点击确定

在新数据表中,数据数据 2 是包含“ID”和“重量”数据的列。

8. 右击标签列标题,然后选择删除列

标签列中的条目曾是导入的数据表中麦片盒 ID 的列标题。不再需要这些条目。

9. 通过双击列标题重命名每一列。按如下方式更改列名:

“数据”改为“ID”

“标签 2”改为“生产线”

“数据 2”改为“重量”

10. 在列面板中,点击 ID 左侧的图标并选择名义型

尽管 ID 被指定为数字,但它是一个标识符,应在建模时被视为名义型。这在本例中不是问题,但最好为列指定适合的建模类型。

11. (仅在使用文件 > 打开从 Excel 导入数据时适用。)请执行以下操作:

1. 点击生产线列标题选择该列,然后选择列 > 重新编码

2. 更改新建值列中的值,以便与下面的对列值重新编码 中的值匹配。

对列值重新编码 

3. 点击完成 > 原位

新的数据表现在正确调整结构以适应 JMP 分析。每行都包含单个麦片盒的数据。第一列提供麦片盒 ID,第二列提供生产线,第三列提供麦片盒的重量(重新编码的数据表)。

重新编码的数据表 

执行单因子分析

示例的这一部分包含以下任务:

执行单因子方差分析以检验三条生产线中填充重量均值中的差值。

获取比较环以探索哪些生产线可能不同。

若想要重新称重或进一步检查生产线上的麦片盒,可通过 ID 为点添加标签。

开始之前,验证您使用的是堆叠数据表。

1. 选择分析 > 以 X 拟合 Y

2. 选择重量并点击 Y,响应

3. 选择生产线并点击 X,因子

4. 点击确定

5. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择均值/方差分析

图中的均值菱形显示生产线均值的 95% 置信区间。落在均值菱形之外的点可能看起来像离群值。但实际上它们不是。要查看这种情况,请在图中添加箱线图。

6. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择显示选项 > 箱线图

所有点都落在箱线图边界内。因此这些点不是离群值。

7. 从数据表的列面板中,右击 ID 并选择添加标签/撤销标签

8. 在该图中,将光标置于各点上方以查看其 ID 值,以及其生产线重量数据(按生产线划分的重量的单因子分析)。

9. 点击“‘生产线-重量’单因子分析”旁边的红色小三角并选择比较均值 > 所有对,Tukey HSD

比较环显示在图右侧的面板中。

10. 点击底部的比较环。

按生产线划分的重量的单因子分析 

在“方差分析”报表中,p 值 0.0102 为均值不全相同提供了证据。在该图中,“Line C”的比较环处于选定状态并显示为红色。由于“Line B”的圆环显示为深灰色,“Line C”的均值在 0.05 显著性水平下不同于“Line B”的均值。“Line A”与“Line B”的均值未显示统计上的显著性差异。

图中所示的均值菱形跨均值的 95% 置信区间。95% 置信区间的数值边界在“单因子方差分析均值”报表中提供。这两者都表明“Line B”和“Line C”的置信区间未包含目标填充重量 12.5:“Line B”看起来填充过度,“Line C”看起来填充不足。对于这两条生产线,必须去了解导致未满足目标填充重量的底层原因。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).