「テキストエクスプローラ」プラットフォームのテキスト処理は、トークン化、句の抽出、単語の抽出という3つの段階に分けられます。
この段階では次の処理が実行されます。
1. 英語などの欧米言語のアルファベットに対しては、大文字を小文字に変換します。
2. [基本ワード]によるトークン化、または正規表現([Regex])に基づくトークン化を実行し、文字をトークンに分けます。
3. 指定された再コード化の定義に従って、トークンを再コード化します。再コード化は、語幹抽出の前に行われることに注意してください。
メモ: トークンの再コード化は、レポートウィンドウで指定した順序に関わらず、内部で一括処理されます。
「言語」オプションを「日本語」・「中国語(簡体字)」・「中国語(繁体字)」・「韓国語」のいずれかに設定した場合、その言語専用の辞書を使ってテキストの解析が行われます。上記の言語のいずれかを初めて指定したときに、パブリックソースから辞書がダウンロードされ、JMPデータテーブルに保存されます。このJMPデータテーブルは、TextExplorerディレクトリにあるその言語専用のサブディレクトリに保存されます。TextExplorerディレクトリの場所は、次のとおりです。
• Windowsの場合: C:¥ユーザー¥<ユーザ名>¥AppData¥Roaming¥JMP¥JMP¥TextExplorer¥
• macOSの場合: /Users/<ユーザ名>/Library/Application Support/JMP/TextExplorer/
言語専用の辞書に単語を追加・削除するには、TextExplorerディレクトリにあるその言語のサブディレクトリでdictionary-User.jmpデータテーブルを開き、編集します。dictionary-User.jmpデータテーブルには、「Data」と「action」の2つの列があります。辞書に単語を追加するには、dictionary-User.jmpデータテーブルに行を追加し、その行の1番目の列に該当する単語、2番目の列に「add」という文字列を入力します。辞書から単語を削除するには、dictionary-User.jmpデータテーブルに行を追加し、その行の1番目の列に該当する単語、2番目の列に「delete」という文字列を入力します。
この段階では、コーパス(文書の集合)に出現する句を抽出します。抽出された句を1つの単語として単語リストに追加することもできます。句の先頭または末尾にストップワードがくることはありませんが、句の途中に含めることはできます。
この段階では、前の段階で抽出されたトークンと句の情報に基づいて、単語リストを作成します。
各トークンについて、次の処理を行います。
1. 起動ウィンドウで指定された、単語あたりの最小文字数および最大文字数の条件を満たしているかどうかをチェックします。数字のみのトークンは、この処理から除外されます。
2. トークンを単語として見なせるかどうかをチェックします。トークン化の方法として[基本ワード]を選択した場合は、少なくとも1文字のアルファベットまたはユニコード文字が含まれていることが条件となります。数字のみのトークンは、この処理から除外されます。[Regex]を選択した場合は、正規表現(regular expression)を使用して、トークンを構成する文字を識別します。
3. トークンがストップワードでないかどうかをチェックします。
4. 語幹抽出およびその例外を適用します。
ある句を1つの単語として単語リストに追加すると、次の処理が行われます。
1. 句を単語リストに追加します。このとき、句に含まれる各単語に対して、単語に対して行われた語幹抽出と同じ語幹抽出を行います。その語幹抽出で同じになった句がある場合は、単語リストにて1つにまとめられます。
2. 追加された句に含まれる単語に関して、その単語単体での出現頻度を、該当の句に含まれている分だけ減らします。