按树汇总在“Bootstrap 森林法”平台中,“按树汇总”报表涉及袋内和袋外观测的概念。对于单个树,在抽取用于拟合树的观测的 Bootstrap 样本时是有放回的。即便指定对 100% 的观测抽样,但因为抽样时有放回,所以未使用的观测数的预期比例为 1/e。对于每一棵树,这些未使用的观测都称为袋外观测。拟合树中使用的观测称为袋内观测。使用汇总可以评估抽样方法对树的影响。人们会期望各个树的汇总值是相似的。
“按树汇总”报表显示每棵树的以下汇总统计量:
拆分
决策树中的拆分数。
排名
以升序排列的树的“平均 OOB 损失”的排名。“平均 OOB 损失”最小的树的排名为 1。
OOB 损失
一个测度,用于衡量在执行树剪除之前应用到“袋外”行时树的预测不准确性。树继续拆分,直到它们达到指定的最大大小,或者直到停止条件停止了改进。若由于停止条件未能改进而导致拆分停止,则将树剪除回一级以获得最终的树。较低的值指示较高的预测准确性。
OOB 平均损失
除以 OOB 行数 (OOB 个数) 后的 OOB 损失。
R 方
(仅可用于连续响应。)树的 R 方值。
IB 误差平方和
(仅可用于连续响应。)“袋内”行的误差平方和。
IB 平均误差平方和
(仅可用于连续响应。)“袋内”行的误差平方和除以“袋内”观测数。“袋内”观测数等于训练集中的观测数乘以您在“Bootstrap 森林法规格”窗口中指定的 Bootstrap 抽样率。
OOB 个数
(仅可用于连续响应。)“袋外”行数。
OOB 误差平方和
(仅可用于连续响应。)当最终树应用到“袋外”行时的误差平方和。
OOB 平均误差平方和
(仅可用于连续响应。)除以 OOB 行数 (OOB 个数) 后的 OOB 误差平方和。