「テキストエクスプローラ」プラットフォームの例

JMPで記述形式による回答を分析する方法を紹介します。この例では、ペットに関するアンケートへの回答を分析してみましょう。

1. ［ヘルプ］>［サンプルデータライブラリ］を選択し、「Pet Survey.jmp」を開きます。

2. ［分析］>［テキストエクスプローラ］を選択します。

3. 「質問への回答」を選択し、［テキスト列］ボタンをクリックします。

4. 「言語」から［英語］を選択します。

5. ［OK］をクリックします。

図12.2 「テキストエクスプローラ」レポートの最初の画面の例

Example of Initial Text Explorer Report

このデータには、194文書、異なる単語が372単語あることが先頭の情報からわかります。また、トークンの総数は2075個です。もっとも頻繁に使用されている単語は「cat」で、55回出現しています。

6. 「「質問への回答」のテキストエクスプローラ」の赤い三角ボタンをクリックし、［単語のオプション］>［語幹抽出］>［すべての単語］を選択します。

7. 「句」のリストから「cat food」と「dog food」を選択して右クリックし、［句の追加］を選択します。

「cat food」と「dog food」が「単語」リストに追加されます。

8. 「単語」リストをスクロールダウンして、「cat food」と「dog food」があることを確認します。

それぞれ4回ずつ出現していることがわかります。

図12.3 「単語」リストを編集後にスクロール

Term List after Modifications and Scrolling

「句」リストの「cat food」と「dog food」は、このレポートでは単語として扱うことにしたため、グレーで表示されます。

Image shown here この後の手順は、JMP Proでのみ実行できます。

9. Image shown here 「「質問への回答」のテキストエクスプローラ」の赤い三角ボタンをクリックし、［潜在意味分析, 特異値分解］を選択します。

10. Image shown here デフォルト値をそのままにして、［OK］をクリックします。

2つの特異値分解プロットが表示されます。左のプロットには、文書空間の最初の2つの特異ベクトルが表示されています。右のプロットには、単語空間の最初の2つの特異ベクトルが表示されています。

図12.4 特異値分解プロット

SVD Plots

11. Image shown here 左の特異値分解プロットの、一番右側にある3つの点を選択します。

この3つの回答は、他の回答から離れてクラスターを形成しています。このクラスターを詳しく調べるために、質問への回答文を読んでみましょう。

12. Image shown here 左の特異値分解プロットの上にある［テキストの表示］をクリックします。

図12.5 選択した文書のテキスト

Text of Selected Documents

ウィンドウが開き、選択した3つの文書のテキストが表示されます。これらの回答は、「funny」、「cat」、「video」という単語が組み合わせて使われているという点で、共通しています。また、3つの文書は、第1次元の特異ベクトルが他の文書よりも大きい正の値を取っており、第1次元において他の文書と異なることを示唆しています。

特異ベクトルについてさらに詳しく分析すると、その次元が何を表しているのかがわかる可能性があります。たとえば、プロットの右端のほうにある回答の多くが、猫に関する内容であるのに対し、左端のほうにある回答の多くは、犬に関する内容です。したがって、第1次元の特異ベクトルは、回答における猫と犬の違いを抽出していると言えます。

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).