具有两个或三个值的验证集

拟合线性模型 > 逐步回归模型 > 使用验证 > 具有两个或三个值的验证集

发布日期: 08/07/2020

具有两个或三个值的验证集

若您指定具有两个或三个值的“验证”列，“逐步”基于训练集拟合模型。为验证集和测试集报告模型拟合统计量。有关如何定义这些统计量的详细信息，请参见验证集和测试集统计量定义。

若响应是连续的，以下统计量显示在“逐步回归控制”面板中：

• R 方验证（也显示在“步进历史记录”报表中）

• RMSE 验证

• R 方检验（若有测试集）

• RMSE 检验（若有测试集）

若响应是二值名义型或有序型，以下统计量显示在“逐步回归控制”面板中：

• R 方验证（也显示在“步进历史记录”报表中）

• 验证平均对数误差

• R 方检验（若有测试集）

• 平均对数误差检验（若有测试集）

最大验证 R 方

若您在“拟合模型”窗口中指定具有两个或三个值的验证列，则“停止规则”默认为“最大验证 R 方”。该规则尝试找到使验证集的 R 方统计量最大的模型。该规则可在“方向”设置为“前进”或“后退”时应用。

注意：“最大验证 R 方”仅考虑由 p 值进入（“前进”方向）或删除（“后退”方向）定义的模型。它不考虑所有可能模型。

您可以使用“步进”按钮在“前进”方向中使项逐个进入，也可以在“后退”方向中逐个删除项。在任何点，您都可以通过点击“步进历史记录”报表中“R 方验证”右侧的按钮来选择模型。模型项的选择将在“当前估计值”报表中更新。这是您一点击“构建模型”或“运行模型”即使用的模型。

前进方向

在“前进”方向中，“逐步”基于下一个最小的 p 值添加项来构造逐次模型。

若您点击“执行”而非“步进”，则自动执行项进入过程。在拟合的模型中，被视为最佳的模型最后列出。通过忽略“R 方验证”中的局部下沉来获得该模型。具体而言，它是具有最大“R 方验证”的模型，后面可能跟着具有更小“R 方验证”值的 10 个模型。该模型通过“参数”列中的“最佳”和“操作”列中的“特定”这两项来指定。使用“R 方验证”右侧的按钮选择这个“最佳”模型，尽管您可以自由更改该选择。

后退方向

在“后退”方向中，“逐步”基于下一个最大的 p 值删除项来构造逐次模型。

要使用“后退”方向，您必须首先点击“全部进入”使所有项进入模型。“后退”方向以类似于“前进”方向的方式运行。若您点击“执行”而非“步进”，则自动执行项删除过程。指定为“最佳”的模型是具有最大“R 方验证”的模型，它后面可能跟着具有更小“R 方验证”值的 10 个模型。

验证集和测试集统计量定义

“R 方验证”和“RMSE 验证”在本节中定义。以完全类似的方式为测试集计算“R 方检验”和“RMSE 检验”。

连续响应

R 方验证

按以下方式计算验证集的 R 方测度：

‒ 对于验证集中的每个观测，计算预测误差。这是实际响应与训练集模型预测的响应之间的差值。

‒ 计算预测误差的平方和以得到 SSE验证。

‒ 对验证集中的实际响应与它们的均值的差值求平方和。这是 SST验证。

‒ R 方验证计算如下：

注意：R 方验证有可能为负值。

RMSE 验证

验证集的均方预测误差的平方根。它按以下方式计算：

‒ 对于验证集中的每个观测，计算预测误差。这是实际响应与训练集模型预测的响应之间的差值。

‒ 计算预测误差的平方和以得到 SSE验证。

‒ 用 n验证表示验证集中的观测数。

‒ RMSE 验证为：

注意：在“拟合最小二乘法交叉验证”报表中，“验证集”和“测试集”的 RASE（平均平方根误差）列中的条目就是“逐步”报表中计算的“RMSE 验证”和“RMSE 检验”值。请参见RASE。

二值名义型或有序型响应

R 方验证

按以下方式计算验证集的“熵 R 方”测度（也称为 McFadden R2）：

‒ 使用训练集拟合模型。

‒ 获得所有观测的预测概率。

‒ 使用基于训练集模型的预测概率，为验证集中的观测计算模型的似然。该量被称为似然_完全验证。

‒ 使用验证集中的数据，计算简化模型（无预测变量）的似然。该量被称为似然_简化验证。

‒ R 方验证计算如下：

注意：R 方验证有可能为负值。

验证平均对数误差

按以下方式计算验证集的平均对数误差：

‒ 对于验证集中的每个观测值，计算由模型根据训练集确定的其预测概率的对数。

‒ 将这些对数求和，除以验证集中的观测数，然后对所得值求负数。

提示：验证平均对数误差的值越小越好。

需要更多信息？有问题？从 JMP 用户社区得到解答 (community.jmp.com).