文本分析使用一些独特的术语。一个词条标记是最小的文本片段,类似于句子中的单词。但是,您可以使用很多方式来定义词条,包括使用正则表达式;将文本拆分为词条的过程称为标记化
短语是词条的简短集合;平台提供管理短语的选项,短语的指定方式可以与词条相同,也可以有自己独特的方式。
文档是指单词的集合;在 JMP 数据表中,文本列的每行中的非结构化文本对应于一个文档。
语料库是指文档的集合。
通常希望从分析中排除一些常见单词。这些被排除的单词称为停止词。平台提供停止词的默认列表,但是您也可以将特定单词添加为停止词。尽管停止词不能是词条,但是可以在短语中使用它们。
词干处理是指通过删除不同的结尾部分,使用相同开头(词干)合并单词的过程。这样“jump”、“jumped”和“jumping”都将视为词条“jump”。词干处理步骤类似于在 Snowball 字符串处理语言中使用的步骤。对短语进行词干处理时,将短语中的每个单词作为独立的词条来进行词干处理。
“文本分析器”平台中的文本分析使用词袋方法。与短语形成过程不同,词条的顺序这里被忽略。该分析基于词条计数。
当您使用正则表达式、停止词、重新编码和词干处理审校词条列表后,可以对审校后的词条列表进行分析。平台中的分析选项基于文档词条矩阵 (DTM)。DTM 中的每行对应于一个文档(JMP 数据表的文本列中的一个单元格)。DTM 中的每列对应于审校后的词条列表中的一个词条。该方法实施词袋方法,因为它忽略单词顺序。在它最简单的形式中,DTM 的每个单元格包含该列的词条在该行的文档中的频数(出现次数)。还有其他很多权重方案,相关信息请参见保存选项
平台中可用的分析选项首先对文档词条矩阵执行奇异值分解 (SVD)。这可以大大减少表示数据中的词条信息所需的列数。有关奇异值分解的更多详细信息,请参见《多元方法》手册中的统计详细信息“统计详细信息”附录。“层次聚类”选项可用于对词条和文档聚类。使用这些选项,您可以将类似词条或文档分在一组。