公開日: 11/25/2021

Image shown hereテキストの統計分析に関するオプション

「テキストエクスプローラ」レポートの赤い三角ボタンで用意されているオプションのうち、統計分析に関するものには以下のものがあります。

潜在クラス分析

2値の文書単語行列に対して潜在クラス分析を行います。なお、分析の計算には、疎な行列に対する数値計算ルーチンが使用されています。潜在クラス分析を参照してください。

このオプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。

単語の最大数

潜在クラス分析に含める単語の最大数。

単語の最小度数

潜在クラス分析に含める単語の最小出現頻度。

クラスターの数

潜在クラス分析におけるクラスターの個数。

潜在意味分析, 特異値分解

文書単語行列に対して、決められた次元までの特異値分解を実行します。潜在意味分析(特異値分解)を参照してください。

判別分析

文書単語行列に基づき、各文書がどのグループまたはカテゴリに属するのかを予測します。判別分析を参照してください。

単語選択分析

特定の応答変数をどの単語が最もよく説明するかを分析します。単語選択分析は、応答変数が何かしらの評価である場合の感情分析にも役立ちます。単語選択分析を参照してください。

感情分析

(「言語」オプションを英語に設定した場合にのみ使用可能)感情分析は、辞書に基づいて文書内の感情語を特定し、それらの語に対して、肯定的・否定的・全体的なスコアを付けます。感情分析を参照してください。

Image shown here特異値分解の設定ウィンドウ

「テキストエクスプローラ」プラットフォームの統計分析は、文書単語行列(DTM; Document-Term Matrix)に対して行われます。文書単語行列の各列は、単語リストに含まれている各単語に対応しています(ただし、列数の最大値は、「単語の最大数」で指定したものです)。文書単語行列の各行は、1つの文書に対応しています(JMPデータテーブルにおけるテキスト列の1セルが、1文書に対応しています)。文書単語行列の各要素をどのように算出するかは、「設定」ウィンドウにて指定します。

図12.10に、特異値分解の「設定」ウィンドウを示します。「テキストエクスプローラ」の赤い三角ボタンから、文書単語行列の特異値分解を実行するオプションを選択すると、「設定」ウィンドウが開き、以下のオプションが表示されます。

単語の最大数

特異値分解に含める単語の最大数。

単語の最小度数

特異値分解に含める単語の最小出現頻度。

重み

文書単語行列の要素を算出する方法。この方法については、文書単語行列の設定ウィンドウを参照してください。

特異ベクトルの数

特異値分解で求める特異ベクトルの個数。デフォルト値は100です。ただし、文書数または単語数が100を下回るときは、その値がデフォルト値になります。

中心化と尺度化

文書単語行列を中心化や尺度化するか否かを指定します。[中心化と尺度化][中心化]、または[中心化しない]のいずれかを選択します。デフォルトでは、中心化と尺度化の両方が適用されます。

図12.10 特異値分解の「設定」ウィンドウ 

SVD Specification Window

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).