使用 JMP > 输入和编辑数据 > 重构数据 > 变换 JMP 平台中的列
发布日期: 11/15/2021

变换 JMP 平台中的列

JMP 中的每个启动窗口都允许您创建一个或多个用于执行分析的临时变换列。这些变换列不是源数据表的组成部分,只能用在当前启动窗口的上下文中。变换列使用公式或计算来定义列值。关闭启动窗口将删除所有变换列。

启动窗口的“选择列”窗格中列出的每一列都包含一个图标(表示该列的建模类型,即:连续型、有序型、名义型)和列名。右击某一列名可使用“变换”、“字符”、“合并”、“配对”、“聚合”、“分布”、“日期时间”、“随机”、“行”、“向量”或“公式”创建一个变换列来计算该列值。

右击选项取决于选定列的数据类型和选定的列数。

图 4.42 “变换列”菜单的示例 

Image shown here

依据...分组

对于有序型和名义型数据,指定用于分组数据的列。会为指定列的每个水平计算单独的分析。

注意:

变换列仅可用于当前启动窗口。要使变换列可在当前启动窗口外部使用,请右击该变换列并选择添加至数据表。变换列将添加至源数据表。

您可以将变换列粘贴到启动窗口的“角色”框中。例如,您可以从脚本复制变换列。在相应的启动窗口中右击“为选定列指定角色”框并选择“粘贴”。该方法等价于右击“选择列”列表中的列,选择变换并将变换列添加到某个角色。

若变换函数是可逆的,则以下平台将使用预测刻画器的原始尺度并保存预测值和公式。

以 X 拟合 Y

标准最小二乘法

分割

提升树

Bootstrap 森林法

通过编写 JSL 脚本自行定义变换。请参见《Scripting Guide》中的Create Custom Functions, Transforms, and Formats

“变换”菜单

从“变换”菜单中选择一个函数,创建包含基于选定函数计算的变换列。请参见《拟合线性模型》中的变换

注意:您可以通过对多列应用一元函数来生成多个变换列。

表 4.2 “变换”菜单选项说明

舍入

对日期值进行舍入。例如,在星期图表中,“舍入”可将日期值转换为这些日期值在每个星期中出现的第一个日期。

尺度偏移

支持您指定一般线性变换。例如,您可以通过将该值乘以 1.8 且应用偏移量 32 将摄氏温度转换为华氏温度。

定制分箱

打开分箱窗口,该窗口支持您将数据分发到各箱中。

平方根

计算选定列的值的平方根。

平方

计算选定列值的平方值。

对数

对选定列应用自然对数变换。

Log x+1

计算 Log(列+1)。

指数

对选定列应用指数变换。

Log10

对选定列应用以 10 为底的对数变换。

p 的 10 次方

计算 10 的选定列值次幂。

立方根

计算选定列值的立方根值。

立方

计算选定列值的立方值。

倒数

计算选定列值的倒数(1/列)。

绝对值

计算选定列值的绝对值。

求反

计算选定列值的负数。

Arrhenius

对变量 T(摄氏度温度)应用 Arrhenius 变换:

Equation shown here

这是与活化能相乘的 Arrhenius 关系的成分。

Arrhenius 逆

对变量 X 应用 Arrhenius 变换的逆变换:

Equation shown here

Logit

对选定列计算 Logistic 函数的反函数(其中,p 介于 0 到 1 之间):

Equation shown here

Logistic

计算选定列的 Logistic(亦称 Squish 和 Logist)函数(其中,结果介于 0 到 1 之间):

Equation shown here

Logit 百分比

以百分比形式计算选定列的 Logit(其中,pct 是介于 0 到 100 之间的百分比):

Equation shown here

Logistic 百分比

以百分比形式计算选定列的 Logistic(或 Logist,其中,结果介于 0 到 100 之间):

Equation shown here

“合并”菜单

选择多个列以访问合并菜单。“合并”菜单用于创建包含基于选定函数计算的变换列。

菜单中包含以下函数:

总和

计算第一列与第二列之和 (A + B)。

差值

计算第一列和第二列之间的差值 (A - B)。

差值(倒序)

计算第二列和第一列之间的差值 (B - A)。

乘积

计算第一列与第二列的乘积 (A X B)。

比率

计算第一列与第二列之比 (A / B)。

比率(倒序)

计算第二列与第一列之比 (B / A)。

最小值

返回选定列的最小值。

最大值

返回选定列的最大值。

平均值

返回选定多列的平均值。

标准差

计算选定列中的值的标准差。

中位数

计算选定列的中位数值。

分位数

计算选定列指定百分比的分位数。

几何均值

返回数据的积的第 n 个根。

“配对”菜单

从“配对”菜单中选择一个函数以创建两个或更多列的配对结果。仅当选定列数为偶数并且大于等于 4 时,该菜单才显示。

总和

计算第一列与第二列之和 (A + B)。

差值

计算第一列和第二列之间的差值 (A - B)。

差值(倒序)

计算第二列和第一列之间的差值 (B - A)。

乘积

计算第一列与第二列的乘积 (A X B)。

比率

计算第一列与第二列之比 (A / B)。

比率(倒序)

计算第二列与第一列之比 (B / A)。

最小值

返回选定列的最小值。

最大值

返回选定列的最大值。

平均值

返回选定多列的平均值。

几何均值

返回数据的积的第 n 个根。

“聚合”菜单

从“聚合”菜单中选择一个函数,创建包含基于选定列(指定“分组依据”列时为列的某个部分)计算的统计量的变换列。

注意:分组依据选项对这些函数很有用。

菜单中包含以下函数:

均值

返回选定列的平均值。

总和

计算选定列中的值的总和。

计数

计算选定列中的值个数。

中位数

计算选定列的中位数值。

分位数

计算选定列指定百分比的分位数。

最小值

返回选定列的最小值。

最大值

返回选定列的最大值。

标准差

计算选定列中的值的标准差。

“分布”菜单

从“分布”菜单中选择一个函数,创建包含基于选定列计算的统计量的变换列。请参见“帮助”菜单中的“脚本索引”。

菜单中包含以下函数:

中心化

从选定列的所有行的每个值中减去列均值。

标准化

计算列值减去均值(除以选定列的所有行的标准差后的均值)后的结果。

范围 0 至 1

将数据按比例增大或减小,使得最小值大于等于 0,且最大值小于等于 1。

Box-Cox

使用 Box-Cox 方程变换数据。请参见《拟合线性模型》中的Box Cox Y 变换

Johnson 正规化

使用一个 Johnson 方程变换数据。新列名指示“Johnson Su”、“Johnson Sb”或“无”,这取决于用于计算新数据的方程。

信息性缺失

创建两列。信息性列使用列均值替换缺失值。缺失列使用 1 指示缺失值,使用 0 指示其他值。

返回秩,最低为 1,行顺序可打破并列关系。

秩(倒序)

返回秩,最高为 1,行顺序可打破并列关系。

累积概率

计算累积概率:Col Rank(col) / (Col Number(col) +1)。

正态分位数

计算正态分布的分位数。

SHASH

计算 sinh-arcsinh (SHASH) 分布在 x 处计算的累积分布函数。

“随机”菜单

对于数值列,从“随机”菜单中选择一个函数以创建包含随机值的列。

菜单中包含以下函数:

随机均匀

生成均匀介于 0 到 1 之间的随机数。

随机正态

生成近似均值为 0、标准差为 1 的正态分布的随机数(若未使用参数),否则生成您输入的参数作为均值和标准差的近似正态分布的随机数。

无放回抽样

每次求值时都随机排列这些值。第一个值的结果影响第二个值的结果。

有放回抽样

每次求值时都随机排列这些值。第一个值的结果不影响第二个值的结果。

“日期时间”菜单

对于包含日期或时间值的列值,请从“日期时间”菜单中选择一个函数,以创建包含基于选定列计算的值的变换列。

菜单中包含以下函数:

为选定列中的日期返回月份中的日。

为选定列中的日期返回月编号。

月份缩写

为选定列中的日期返回缩写月份。

为选定列中的日期返回年份。

月年

为选定列中的日期返回月份编号和年份。

季度

为选定列中的日期返回年中的季度(1、2、3 或 4)。

为选定列中的日期返回周在年中的编号。

年季度

为选定列中的日期返回年和年中的季度(1、2、3 或 4)。

年周

返回表示年中 ISO-8601 周格式的字符串(例如,将为 June 12, 2013 返回“2013W24”)。

年中日

为选定列中的日期返回年中的日。

周中日

为选定列中的日期返回星期几。

星期几缩写

为选定列中的日期返回星期几的缩写形式。

星期几名称

为选定列中的日期返回完整的星期几。

日期

为选定列中的日期返回月、日、年。

当天的时间

为选定列中的日期返回时间。

返回选定列中的日期的小时部分。

返回选定列中的日期的分钟部分。

返回选定列中的日期的秒部分。

“字符”菜单

从“字符”菜单中选择一个函数,创建包含由所选“字符”函数形成的字符串的变换列。

菜单中包含以下函数:

长度

计算选定的一个或多个列中每个字符串的字符数。

拼接

将选定的一个或多个列中的字符串拼接为新字符串。

用空格拼接

将选定的一个或多个列中的字符串拼接为一个新字符串,其中用空格字符分隔各个子字符串。

用逗号拼接

将选定的一个或多个列中的字符串拼接为一个新字符串,其中用逗号字符分隔各个子字符串。

首字母大写

将字符串转换为标题大小写(例如,“Sheila Smith”)。

大写

将字符串转换为大写(例如,“SHEILA SMITH”)。

小写

将字符串转换为小写(例如,“sheila smith”)。

第一个单词

从选定的一个或多个列的字符串中提取第一个单词。

最后一个单词

从选定的一个或多个列的字符串中提取最后一个单词。

返回秩,最低为 1,行顺序可打破并列关系。

秩(倒序)

返回秩,最高为 1,行顺序可打破并列关系。

“行”菜单

从“行”菜单中选择一个函数,创建包含由所选“行”函数确定的计算的变换列。

除了附录中说明的函数,以下函数也包含在菜单中:

返回当前行号。

已选定

返回选定的索引。

差值

使用下面的公式计算选定列中每个值的差值:

Image shown here

注意:“差值”函数还支持“分组依据”选项。

滞后

为选定列返回上一行中的值。

多重滞后

为选定列返回之前多行中的值。

累积和

使用下面的公式计算选定列中每个值的累积和:

Image shown here

注意:“累积和”函数还支持“分组依据”选项。

移动平均值

计算选定列中每个值的指数加权移动平均值 (EWMA)(使用介于 0 到 1.0 之间的平滑参数)。以下示例使用的平滑参数是 0.25:

Image shown here

权重

确定如何对值加权。递增权重是一个斜坡或三角。指数移动平均值是 EWMA 或 EMA。

之前的项

通过在平均值中包括当前项之前的指定项数(在当前项之外),控制范围(或窗口)的大小。-1 表示之前的所有项。

之后的项

通过在平均值中包括当前项之后的指定项数(在当前项之外),控制范围(或窗口)的大小。-1 表示随后所有项。

为不完全窗口报告缺失值

控制如何处理缺失值。默认情况下,忽略缺失值。

注意:JMP 会计算按需输入的公式;复杂公式可能需要较长的处理时间。

“向量”菜单

从“向量”菜单中选择一种变换,以便从向量数据创建变换列。

目标列

将向量展开到各个数字列。

总和

返回向量中参数或值的总和。

最小值

返回矩阵各值中的最小值。

最大值

返回矩阵各值中的最大值。

最小值位置

返回最小值的第一个位置。

最大值位置

返回最大值的第一个位置。

变换列选项

创建变换列后,您可以执行以下操作:

重命名

重命名变换列。

添加至数据表

将变换列作为公式列添加至数据表。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).