保存文档奇异向量
保存文档主题向量
保存用于关联的堆叠 DTM
将文档词条矩阵的堆叠形式保存到 JMP 数据表。堆叠形式适用于“关联分析”平台中的分析。详细信息,请参见《预测和专业建模》手册中的关联分析“关联分析”一章。若您在“文本分析器”启动窗口中指定 ID 变量,可使用该 ID 变量标识每个词条来自原始文本数据表中的哪一行。堆叠的表还包含一个用于启动“关联分析”的表脚本。
保存奇异向量公式
保存主题向量公式
保存词条奇异向量
保存词条主题向量
分配 log10( 1 + x ),其中 x 是每个文档中词条的出现次数计数。
分配 TF * log( nDoc / nDocTerm )词条频数 - 反转文档频数的缩写。这是默认权重。公式中的词条定义如下:
TF = 文档中的词条频数
nDoc = 语料库中的文档数
nDocTerm = 包含词条的文档数