“文本分析器”平台概述

文本分析使用一些独特的术语。一个词条或标记是最小的文本片段，类似于句子中的单词。但是，您可以使用很多方式来定义词条，包括使用正则表达式；将文本拆分为词条的过程称为标记化。

•	短语是词条的简短集合；平台提供管理短语的选项，短语的指定方式可以与词条相同，也可以有自己独特的方式。

•	文档是指单词的集合；在 JMP 数据表中，文本列的每行中的非结构化文本对应于一个文档。

•	语料库是指文档的集合。

通常希望从分析中排除一些常见单词。这些被排除的单词称为停止词。平台提供停止词的默认列表，但是您也可以将特定单词添加为停止词。尽管停止词不能是词条，但是可以在短语中使用它们。

词干处理是指通过删除不同的结尾部分，使用相同开头（词干）合并单词的过程。这样“jump”、“jumped”和“jumping”都将视为词条“jump”。词干处理步骤类似于在 Snowball 字符串处理语言中使用的步骤。对短语进行词干处理时，将短语中的每个单词作为独立的词条来进行词干处理。

“文本分析器”平台中的文本分析使用词袋方法。与短语形成过程不同，词条的顺序这里被忽略。该分析基于词条计数。

当您使用正则表达式、停止词、重新编码和词干处理审校词条列表后，可以对审校后的词条列表进行分析。平台中的分析选项基于文档词条矩阵 (DTM)。DTM 中的每行对应于一个文档（JMP 数据表的文本列中的一个单元格）。DTM 中的每列对应于审校后的词条列表中的一个词条。该方法实施词袋方法，因为它忽略单词顺序。在它最简单的形式中，DTM 的每个单元格包含该列的词条在该行的文档中的频数（出现次数）。还有其他很多权重方案，相关信息请参见保存选项。

1.	指定标记化的方法（内置或定制的正则表达式）。

2.	使用报表指定其他停止词，将短语添加到词条列表，执行词条的重新编码以及指定词干处理规则的例外情况。

3.	指定词干处理的首选项。

4.	使用单词和短语计数、SVD 和聚类方法来确定重要词条和短语。

5.	保存结果以供进一步分析：词条表、DTM、奇异值或其他结果。

6.	保存“短语”、“重新编码”和“停止词”属性，以在进一步分析类似文本数据中使用。