发布日期: 04/13/2021

词条和短语列表

“词条和短语列表”报表包含标记化后在文本中找到的词条和短语的表。有关“词条和短语列表”报表的示例,请参见Figure 12.8。词条列表中的“计数”列指示词条在语料库中出现的次数。短语列表中的“计数”列指示短语在语料库中出现的次数,“数目”列指示短语中的单词数。

默认情况下,词条列表按计数的降序排序;计数相同的词条按字母顺序排序。短语列表按计数的降序排序,计数相同的短语按长度 (N) 的降序排序。短语列表中再次出现相同计数时按字母顺序排序。可以使用每个列表中的选项将每个列表的排序顺序更改为字母排序。

短语列表中显示的短语由启动窗口中的每个短语的最大单词数最大短语数选项的设置决定。在数据表中仅出现一次的短语不显示在短语列表中。

短语可以指定为各种作用域的词条。根据短语规格的作用域对已指定为词条的短语列表中的短语着色(Table 12.1)。 有关指定不同作用域的短语的详细信息,请参见词条选项管理窗口

表 12.1 指定短语的颜色 

作用域

颜色

内置

红色

用户逻辑库

绿色

项目

蓝色

列属性

橙色

本地

灰色

针对词条和短语的操作

您可以通过以下方式访问“词条列表”和“短语列表”表中的选项:选择项,然后在每个表最左侧的列中右击。可以通过以下方式将每个表保存为一个数据表:在每个表的“计数”列中右击,然后选择“制成数据表”。

词条列表弹出菜单选项

当您在“词条列表”表的“词条”列中右击时,将显示一个包含以下选项的弹出菜单:

选择行

在包含选定词条的数据表中选择行。

显示文本

显示包含选定词条的文档。

注意:默认情况下,只显示前 10,000 个文档。若包含选定词条的文档数超过 10,000,将显示一个窗口,您可以在其中增大此限值。

按字母顺序

在字母顺序和“计数”降序顺序之间切换词条列表的排序顺序。

复制

将选定词条放置到剪贴板。

颜色

使您可以将颜色分配给选定词条。

标签

将标签放置在选定词条的词条 SVD 图中相应的点上。

包含短语

在“短语列表”表中选择包含选定词条的短语。

保存指示符

为在词条列表中选择的每个词条将指示符列保存到数据表。若行中的文档包含词条,则该行的指示符列的值为 1;否则为 0。

保存公式

为在词条列表中选择的每个词条将列公式保存到数据表。若行中的文档包含词条,则该行的列公式计算结果为 1;否则为 0。这对于新文档很有用。

重新编码

使您可以更改一个或多个词条的值。在选择该选项前请在列表中选择词条。在选择该选项后,将显示“重新编码”窗口。请参见《使用 JMP》中的数据重新编码

添加停止词

将选定词条添加到停止词列表并从词条列表中删除这些词条。该操作还将更新短语列表。

添加词干例外情况

(仅当“语言”选项设置为“英语”、“德语”、“西班牙语”、“法语”或“意大利语”时才可用。)将选定词条添加到从词干处理中排除的词条列表。

删除短语

(仅当在“词条列表”中选定指定的短语时才可用。)从一组指定短语中删除选定的短语,并相应更新“词条计数”。

显示过滤器

显示或隐藏“词条列表”上方的搜索过滤器。请参见搜索过滤器选项

制成数据表

从报表创建 JMP 数据表。

制作合并数据表

在报表中搜索类似您所选表的其他表,然后将其合并到单个 JMP 数据表中。

短语列表弹出菜单选项

当您在“短语列表”表的“短语”列中右击时,将显示一个包含以下选项的弹出菜单:

选择行

在包含选定短语的数据表中选择行。

显示文本

显示包含选定短语的文档。

保存指示符

为在短语列表中选择的每个短语将指示符列保存到数据表。若行中的文档包含短语,则该行的指示符列的值为 1;否则为 0。

按字母顺序

在字母顺序和“计数”降序顺序之间切换短语列表的排序顺序。

复制

将选定的短语放置在剪贴板上。

选择包含项

在短语列表中选择包含选定短语的较大短语。

选择所含项

在“短语列表”中选择较小短语,并且在“词条列表”中选择包含在选定短语中的词条。

添加短语

将选定短语添加到词条列表并相应更新词条计数。

添加停止词

向停止词列表添加选定短语。该操作还将更新词条列表。

显示过滤器

显示或隐藏“短语列表”上方的搜索过滤器。请参见搜索过滤器选项

制成数据表

从报表创建 JMP 数据表。

制作合并数据表

在报表中搜索类似您所选表的其他表,然后将其合并到单个 JMP 数据表中。

搜索过滤器选项

点击搜索框旁边的下箭头按钮以优化搜索。

包含词条

返回包含一部分搜索条件的项。搜索“ease oom”返回如“Release Zoom”这样的消息。

包含短语

返回包含完全搜索条件的项。搜索“text box”返回包含“text”后面直接跟着“box”的条目(例如,“Context Box”和“Text Box”)。

以短语开头

返回以搜索条件开始的项。

以短语结尾

返回以搜索条件结束的项。

整条短语

返回包含整个字符串的项。搜索“text box”返回仅包含“text box”的条目。

正则表达式

允许您在搜索框中使用通配符 (*) 和句点 (.)。搜索“get.*name”查找包含“get”后面跟着一个或多个单词的项。它返回“Get Color Theme Names”、“Get Name Info”、“Get Effect Names”等。

反转结果

返回不匹配搜索条件的项。

匹配全部项

返回同时包含两个字符串的项。搜索“t test”返回包含任一搜索字符串或两者的元素:“Pat Test”、“Shortest Edit Script”和“Paired t test”。

忽略大小写

忽略搜索条件中的大小写。

全字匹配

基于“匹配全部项”设置返回包含字符串中每个单词的项。若您搜索“data filter”,并且选择了“匹配全部项”,则返回同时包含“data”和“filter”的条目。

需要更多信息?有问题?从 JMP 用户社区得到解答 (community.jmp.com).