发布日期: 04/13/2021

关联分析性能测度

本节定义“关联分析”平台中使用的性能测度。使用条件项集 X 和结果项集 Y 通过 X  Y 的形式来表示关联规则。Hahsler (2015) 包含关联分析中使用的性能测度集合,包括支持度、置信度和提升度。

支持度

支持度是其中出现项集的交易的比例。也可以将支持度视为交易包含项集的概率。

条件项集 X 的支持度 S 定义如下:

其中:

NX 是包含项集 X 的交易数。

N 是总交易数。

关联规则的支持度定义如下:

在这种情况下,支持度相当于交易同时包含项集 XY 的概率。

对于项集和关联规则这两种情况,支持度均介于 0% 到 100% 之间。

置信度

置信度是在交易包含条件项集的前提下,包含结果项集的交易的比例。也可以将置信度视为在交易包含条件项集的前提下,该交易包含结果项集的条件概率。

置信度介于 0% 到 100% 之间。置信度为 0% 的关联规则的结果项集不会在任何交易中与条件项集一同出现。置信度为 100% 指示包含条件项集的每个交易都同时包含结果项集。

注意:关联分析中的置信度与置信区间的概念无关。

提升度

提升度测量的是 XY 之间的依赖性。

提升度的分子是 X Y 同时出现的交易的比例。分母是 XY 同时出现的期望概率的估计值(假定它们的出现无关联)。

提升度介于 0 到 之间。提升度值为 1 指示 XY 同时在交易中出现的频率与偶然出现的频率相同。增大的提升值表明在存在 X 的前提下,Y 发生的概率比期望值高。

注意:关联规则 X Y 的提升度等于关联规则 Y X 的提升度。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).