在“文本分析器”平台中,分三个阶段处理文本:标记化、短语化和词条化。
标记化阶段执行以下操作:
1. 将文本转换为小写形式。
2. 应用标记化方法(“基本单词”或“Regex”)来将字符分组为标记。
3. 根据指定的重新编码定义对标记重新编码。请注意在词干处理前进行重新编码。
注意:无论在报表窗口中指定的顺序如何,重新编码操作都是在内部一次性处理。
将“日语”、“中文(简体)”、“中文(繁体)”或“韩语”指定为“语言”选项时,JMP 使用特定于语言的词典来分析文本。该词典从公共源下载,并在您第一次指定上述任何语言时存储在 JMP 数据表中。该 JMP 数据表存储在 TextExplorer 目录的特定于语言的子目录中。TextExplorer 目录的位置基于您计算机的操作系统:
• Windows:C:\Users\<用户名>\AppData\Roaming\JMP\JMP\TextExplorer\
• macOS:/Users/<用户名>/Library/Application Support/JMP/TextExplorer/
您也可以通过编辑位于 TextExplorer 目录的语言特定子目录中的 dictionary-User.jmp 数据表,从语言特定词典中添加或删除单词。dictionary-User.jmp 数据表包含两列:Data 和 action。要向语言特定词典添加某个单词,请向 dictionary-User.jmp 数据表添加一行,其中第一列包含该词本身,第二列包含 add 一词。要从语言特定词典中删除某个单词,请向 dictionary-User.jmp 数据表添加一行,其中第一列包含该词本身,第二列包含 delete 一词。
短语化阶段收集在语料库(文档集合)中出现的短语并允许您指定将这些短语视为词条。短语不能以停止词开头或结尾,但是可以包含停止词。
词条化阶段使用从以前阶段得到的标记和短语创建词条列表。
对于每个标记,词条化阶段执行以下操作:
1. 检查是否满足在启动窗口中指定的最小和最大长度要求。仅包含数字的标记将从该操作中排除。
2. 检查标记是否可以成为词条;按“基本单词”标记化方法解析的标记必须至少包含一个字母字符或 Unicode 字符。仅包含数字的标记将从该操作中排除。“Regex”标记化方法使用正则表达式来确定哪些字符是标记的一部分。
3. 检查确定该标记不是停止词。
4. 应用词干处理和词干例外情况。
对于您添加的每个短语,词条化阶段执行以下操作:
1. 将短语添加到词条列表。短语应将词干处理应用到已在词条列表中进行词干处理的短语中的每个单词。在词条列表中合并具有不同原始标记但有相同词干的短语。
2. 删除在短语中出现的标记词条实例。