发布日期: 04/13/2021

文本准备选项

“文本分析器”红色小三角菜单包含以下文本准备选项:

显示选项

显示控制报表显示的选项子菜单。

显示词云

显示或隐藏“词云”报表。使用“词云”红色小三角菜单可以更改词云的布局和字体。请参见词云选项

可以通过更改宽度来交互式调整词云大小。然后自动确定高度。将词条列表中的行链接到词云中的词条。

显示词条列表

显示或隐藏词条列表。

显示短语列表

显示或隐藏短语列表。

显示词条和短语选项

显示“词条和短语列表”报表中的按钮,它们对应于每个列表的弹出菜单中提供的选项。请参见词条和短语列表

显示汇总计数

显示或隐藏“汇总计数”表。请参见“汇总计数”报表

显示停止词

显示或隐藏在分析中使用的停止词列表。最初使用内置的停止词列表。要添加一个停止词,请右击词条列表中的该词,然后从弹出菜单中选择添加停止词。请参见词条选项管理窗口

显示重新编码

显示或隐藏重新编码的词条列表。请参见词条选项管理窗口

显示指定短语

显示或隐藏已被用户指定视为词条的短语列表。请参见词条选项管理窗口

显示词干例外情况

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)显示或隐藏从词干处理中排除的词条。请参见词条选项管理窗口

显示分隔符

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”并且选定的“标记化”方法为“基本单词”时才可用。)显示或隐藏“基本单词”标记化方法使用的分隔符。要修改使用的一组分隔符,必须在 JSL 中使用 Add Delimiters()Set Delimiters() 消息。

显示词干报表

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”并且选定的“词干处理”方法为“无需词干处理”时才可用。)显示或隐藏包含词干处理结果的两个表的“词干处理”报表。左侧的表将每个词干映射到相应词条。右侧的表将每个词条映射到相应词干。

显示选定行

打开一个窗口,其中包含在当前选定行中的文档文本。

显示所有表的过滤器

显示或隐藏可用于在报表中搜索表的过滤器。该选项适用于以下表:停止词、指定的短语、词干例外情况、词条列表、短语列表和词干报表。有关过滤器工具的详细信息,请参见搜索过滤器选项

词条选项

显示适用于词条列表的选项的子菜单。

词干处理

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)请参见启动“文本分析器”平台中有关词干处理选项的说明。

包括内置停止词

指定在标记化过程中使用的停止词是否包括内置停止词。

包括内置短语

指定在标记化过程中使用的短语是否包括内置短语。

管理停止词

显示一个窗口,您可以在其中添加或删除停止词。可以在“用户”、“列”和“本地”水平上应用所做更改。您还可以指定本地例外情况,用于排除在任何其他水平上指定的停止词。请参见词条选项管理窗口

管理重新编码

显示一个窗口,您可以在其中添加或删除重新编码。可以在“用户”、“列”和“本地”水平上应用所做更改。您还可以指定本地例外情况,用于排除在任何其他水平上指定的重新编码。请参见词条选项管理窗口

管理短语

显示一个窗口,您可以在其中添加或删除视为词条的短语。可以在“用户”、“列”和“本地”水平上应用所做更改。您还可以指定本地例外情况,用于排除在任何其他水平上指定的短语。请参见词条选项管理窗口

管理词干例外情况

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)显示一个窗口,您可以在其中添加或删除词干处理例外情况。可以在“用户”、“列”和“本地”水平上应用所做更改。您还可以指定本地例外情况,用于排除在任何其他水平上指定的词干例外情况。请参见词条选项管理窗口

解析选项

显示适用于解析和标记化的选项的子菜单。

标记化

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)请参见启动“文本分析器”平台中关于标记化选项的说明。

定制 Regex

(仅适用于 Regex 标记化方法。)显示“定制 Regex”窗口。使用该选项可以修改当前“文本分析器”报表的 Regex 设置。

注意:若您在平台启动窗口中指定了“依据”变量,则“定制 Regex”选项自动传播到“依据”变量的所有水平。

将数字视为单词

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”并且“基本单词”是选定的“标记化”方法时才可用。)允许数字标记化为分析中的词条。请注意该选项受“每个单词的最小字符数”设置的影响。

词云选项

“词云”红色小三角菜单包含以下选项:

布局

指定词条在词云中的排列方式。默认情况下,“布局”设置为“有序”。

有序

在水平线上将词条按频数从最高到最低顺序呈现。

按字母顺序

在水平线上呈现词条,按字母顺序升序排序。

中心化

呈现云中的词条并按频数确定大小。

着色

指定词云中词条的颜色。默认情况下,“着色”设置为“无”。

按照每个词条在“词条列表”中的着色为其着相同颜色。

均匀颜色

为每个词条着相同颜色。可以在“图例”中更改该颜色。

任意灰色

用不同的灰度指定每个词条的颜色。

任意颜色

用各种颜色指定词条的颜色。可以在“图例”中调整颜色。

按列值

用梯度色标指定每个词条的颜色。该尺度基于“按列对词条评分”选项生成的词条的得分。可以在“图例”中调整颜色和梯度。

字体

指定词云中词条的字体、样式和大小。

显示图例

显示或隐藏词云的图例。

词条选项管理窗口

可以为很多不同作用域指定短语、停止词、重新编码和词干例外情况信息。它们可以存储在以下位置:文本分析器用户逻辑库(“用户”作用域)、当前项目、分析列的列属性(“列”作用域)或平台脚本(“本地”作用域)中。对于文本分析器的特定实例,您可以通过保存文本分析器报表的脚本来保存其本地规格和本地例外情况。

“词条选项”管理窗口是四个类似的窗口,您可以使用它们来管理停止词、重新编码、短语和词干例外情况的集合。Figure 12.9 显示“管理停止词”窗口。“管理短语”和“管理词干例外情况”窗口与“管理停止词”窗口相同。“管理重新编码”窗口略有不同。请参见管理重新编码

图 12.9 “管理停止词”窗口 

Image shown here

管理停止词

“管理停止词”窗口包含停止词的多个列表,它们表示指定停止词的不同作用域(或位置)。每个列表下面有一个文本编辑框和一个“添加”按钮。使用这些控件可以将定制停止词添加到每个作用域。您可以通过拖动停止词将它们从一个作用域移到另一作用域。可以将项从一个列表复制并粘贴到另一列表。窗口底部的两个按钮用于将选定项从一个作用域移到另一个(左边或右边)作用域。X 按钮用于将选定项从当前作用域中删除。您可以通过双击某个项并更改文本来编辑列表中的现有项。

语言

指定内置停止词列表以及以哪种语言保存用户逻辑库选择内容。若您为“语言”选择“应用项”,则将更改保存到主用户逻辑库。“语言”设置仅适用于“内置”、“用户”和“项目”作用域。

内置(已锁定)

列出指定语言的停止词内置列表。可以通过将某个内置停止词放入“本地例外情况”列表中来排除它。

用户

列出用户逻辑库中指定语言的停止词。

项目

(仅当在包含名为“TextExplorer”的文件夹的项目中启动“文本分析器”时才可用。)列出当前项目中指定语言的停止词。

列出文本列的“停止词”列属性中的停止词。

本地

列出本地作用域中的停止词。可以在从 JSL 启动“文本分析器”时指定这些停止词。这些停止词仅用于当前“文本分析器”平台报表。

本地例外情况

列出在当前“文本分析器”平台中未被视为停止词的单词。可以在从 JSL 启动“文本分析器”时指定这些停止词。“本地例外情况”中列出的单词取代所有其他作用域中列出的单词。

导入

使您可以从文本文件导入停止词。将停止词复制到剪贴板。您可以将它们粘贴到除“内置”之外的任意列表。

导出

使您可以将停止词导出到剪贴板或文本文件。显示一个“导出”窗口,您可以在其中选择要将停止词导出到的作用域以及导出位置。

用户逻辑库文件位于 TextExplorer 目录中。该目录的位置基于计算机的操作系统:

Windows:"C:/Users/<用户名>/AppData/Roaming/SAS/JMP/TextExplorer/<语言>/"

macOS:"/Users/<用户名>/Library/Application Support/JMP/TextExplorer/<语言>/"

主用户逻辑库文件位于 TextExplorer 目录本身中。这些文件不是语言特定的。

项目文件位于该项目的 TextExplorer 文件夹中。

点击确定后,对“用户”、“项目”和“列”列表的更改将分别保存到用户逻辑库、项目和列属性中。仅当保存“文本分析器”报表的脚本时,才保存在“本地”和“本地例外情况”列表中指定的所有内容。

若将停止词保存到用户逻辑库,则该文件名为 stopwords.txt。若保存到列属性,则该属性称为“停止词”。

管理重新编码

“管理重新编码”窗口与“管理停止词”窗口略有不同。此时每个列表下面不是有一个文本编辑框而是有两个文本编辑框。将旧值(在顶部框中指定)重新编码为新值(在底部框中指定)。

若将重新编码保存到用户逻辑库,则该文件名为 recodes.txt。若保存到列属性,则该属性称为“重新编码”。

管理短语

若将短语保存到用户逻辑库,则该文件名为 phrases.txt。若保存到列属性,则该属性称为“短语”。

管理词干例外情况

若将词干例外情况保存到用户逻辑库,则该文件名为 stemExceptions.txt。若保存到列属性,则该属性称为“词干例外情况”。

注意:“管理词干例外情况”窗口中的“本地例外情况”列表列出从词干例外情况列表中排除的词干例外情况。该列表中的单词参与词干处理操作。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).