保存选项

JMP 13.2 联机文档

JMP 支持

文档反馈
您的反馈对我们来说很重要。给我们发表您对该文档的任何意见。

基本分析 • 文本分析器 • “文本分析器”平台选项 • 保存选项

•

“文本分析器”红色小三角菜单包含以下选项，用于将信息保存到数据表、表列和列属性：

保存文档词条矩阵

将文档词条矩阵每个列（最多到指定的最大词条数）都保存到数据表中去。

保存文档奇异向量

将文档奇异值分解中的用户指定的奇异向量数作为列保存到数据表。

保存文档主题向量

将旋转奇异值分解中的用户指定的奇异向量数作为列保存到数据表。

保存用于关联的堆叠 DTM

将文档词条矩阵的堆叠形式保存到 JMP 数据表。堆叠形式适用于“关联分析”平台中的分析。详细信息，请参见《预测和专业建模》手册中的关联分析“关联分析”一章。若您在“文本分析器”启动窗口中指定 ID 变量，可使用该 ID 变量标识每个词条来自原始文本数据表中的哪一行。堆叠的表还包含一个用于启动“关联分析”的表脚本。

保存 DTM 公式

将向量值公式列保存到数据表。向量的长度取决于用户指定的“最大词条数”、“最小词条频数”和“权重”选项。生成的列使用 Text Score() JSL 函数。有关该函数的详细信息，请参见“帮助”>“脚本索引”。

保存奇异向量公式

（仅当选择了“潜在语义分析，SVD”选项后才可用。）将包含文档奇异值分解的向量值公式列保存到数据表。生成的列使用 Text Score() JSL 函数。有关该函数的详细信息，请参见“帮助”>“脚本索引”。

保存主题向量公式

（仅当选择了“主题分析，旋转 SVD”选项后才可用。）将包含旋转奇异值分解的向量值公式列保存到数据表。生成的列使用 Text Score() JSL 函数。有关该函数的详细信息，请参见“帮助”>“脚本索引”。

保存词条表

创建一个 JMP 数据表，它包含词条列表中的每个词条、出现次数和包含每个词条的文档数。若选择了“按列对词条评分”选项，该数据表还包含含有每个词条的得分的列。

保存词条奇异向量

将来自词条奇异值分解的用户指定的奇异向量数作为列保存到一个新数据表，该表的每行对应一个词条。若“词条表”数据表已打开，该选项将这些列保存到该数据表。

保存词条主题向量

（仅当选择了“主题分析，旋转 SVD”选项且创建了词条表后才可用。）将主题向量作为列保存到使用“保存词条表”命令创建的数据表。

按列对词条评分

将“词条列表”表（它包含基于指定列中的值的得分）保存到一个 JMP 数据表。每个词条的得分是指定列的均值用该词条在每行中的出现次数加权得到。

“文档词条矩阵规格”窗口

当您从“文本分析器”红色小三角菜单选择“保存文档词条矩阵”和“保存 DTM 公式”选项时，将显示包含以下选项的“文档词条矩阵规格”窗口：

最大词条数

包括在文档词条矩阵中的最大词条数。

最小词条频数

一个词条要包括在文档词条矩阵中必须出现的最小次数。

用于确定进入文档词条矩阵单元格的值的权重方案。

为“权重”提供了以下选项：

若词条在每个文档中出现，则分配 1；否则分配 0。

若词条在每个文档中出现一次以上，则分配 2；若仅出现一次，则分配 1，否则分配 0。

分配每个文档中词条的出现次数计数。

分配 log10( 1 + x )，其中 x 是每个文档中词条的出现次数计数。

分配 TF * log( nDoc / nDocTerm )。词条频数 - 反转文档频数的缩写。这是默认权重。公式中的词条定义如下：

‒	TF = 文档中的词条频数

‒	nDoc = 语料库中的文档数

‒	nDocTerm = 包含词条的文档数