「多変量埋め込み」プラットフォームの起動「多変量埋め込み」プラットフォームを起動するには、[分析]>[多変量]>[多変量埋め込み]を選択します。
図11.3 「多変量埋め込み」起動ウィンドウ
「列の選択」の赤い三角ボタンのメニューのオプションについては、『JMPの使用法』の「列フィルタメニュー」を参照してください。「多変量埋め込み」起動ウィンドウには、次のようなオプションがあります。
Y, 列
低次元空間にマッピングしたい高次元データの列を指定します。
By
この列の水準に従ってデータがグループ化され、それぞれ個別に分析されます。指定された列の水準ごとに、別々に分析が行われます。各水準の結果は別々のレポートに表示されます。複数のBy変数を割り当てた場合、それらのBy変数の水準の組み合わせごとに個別に分析が行われます。
手法
データを低次元空間に写像する方法を指定します。[UMAP]と[t-SNE]のいずれかを選択できます。
次元削減後の次元
写像先の低次元空間の次元数を指定します。2以上の整数を指定してください。
乱数シード値
乱数シード値を指定します。乱数シード値を指定することにより、プラットフォームを新たに起動したときに同じ結果を再現できる。
標準化
次元削減に使用する距離の計算前に、データを内部で標準化します。
欠測値の補完
次元削減の計算を行う前に、多変量特異値分解法を使って欠測値を補完します。
メモ: 欠測値があるデータに対して、このオプションを選択しなかった場合は、[OK]をクリックすると補完するかどうかを確認するウィンドウが表示されます。すべての行に欠測値が1つ以上ある場合は、欠測値を補完するか、[Y, 列]に指定する列を変更するか、または分析をキャンセルできます。欠測値がない行がいくつかある場合は、欠測値が補完されます。
UMAPのオプション
UMAPアルゴリズムで用いるオプションが含まれます。UMAPアルゴリズムにおける以下の設定パラメータについては、McInnes et al.(2018)を参照してください。
近傍点の個数
各データ点の近傍点の個数を指定する。各データ点の近傍点の個数を指定します。小さい値にするとデータの局所的な構造だけを捉え、大きい値にするとデータのより大域的な構造を捉えるようになります。「近傍点の個数」に設定できる範囲は、2からデータの観測数の4分の1まで。デフォルト値は15。
エポック数
低次元表現を最適化する際のエポック数を指定します。エポック数とは、最適化アルゴリズムが全学習データを学習する回数です。デフォルト値は500。
学習率
計算における学習率の値を指定します。デフォルト値は1。学習率は、モデルが学習データに適応する速度を左右します。学習率が大きすぎると、アルゴリズムは最適解を見落とす可能性があります。逆に、学習率が小さすぎると、アルゴリズムが収束するのに長い時間がかかる可能性があります。
ヒント: アルゴリズムが収束しなかったり、局所解を持っていたりする場合は、学習率を調整することを検討してください。
最短距離
低次元空間における点と点の標準化距離における下限値を指定する。この値の範囲は0~0.99。デフォルト値は0.01。
局所結合
局所レベルで連結していると想定する近傍点の個数を指定します。デフォルトの値は1で、高次元空間におけるすべての点が少なくとも1つの近傍点と連結していると想定されます。
a
UMAPにおけるパラメータの1つを指定します。この値を0以下の値にした場合、aは非線形最小2乗法で推定されます。
b
UMAPにおけるパラメータの1つを指定します。この値を0以下の値にした場合、bは非線形最小2乗法で推定されます。
負例抽出の抽出率
データの低次元表現を求める際において、1-単位体(1-simlex)の正例1つあたりに対する負例の個数を指定します。この負例抽出数は、2~20の値を指定できます。デフォルト値は5です。
バッチモードとする標本サイズ
標本サイズが指定の値より大きい場合にマルチスレッド処理で最適化計算を行う。デフォルト値は4096。
近傍法
近傍点を見つける探索方法を指定します。
デフォルト
標本サイズと変数の個数に応じて方法が選択されます。標本サイズが4096より大きく、変数の個数が1500以下、または距離がユークリッド距離に設定されていない場合、デフォルトはANNOYです。それ以外の場合、デフォルトはVPTreeです。
VP木 (正確)
VP木を使って、近傍点のセットを見つけます。
ANNOY (近似)
近似最近傍探索(ANN; Approximate Nearest Neighbors)法を使って、近傍点のセットを見つけます(Bernhardsson, 2013)。大規模なデータセットの場合、2つの方法の中では高速ですが、結果の精度はVP木法より低い可能性があります。
距離
(近傍法としてANNOYが指定されている場合のみ適用可能。)近傍点間の距離を計算するために使用される指標を指定します。オプションとして、ユークリッド距離、角距離、Hamming距離、マンハッタン距離があります。デフォルトは、ユークリッド距離です。
ヒント: データに二値変数やカテゴリカル変数が含まれている場合、非ユークリッド距離の方が適切かもしれません。
勾配降下法
最適化アルゴリズムで使用する勾配降下法を指定します。
SGD
確率的勾配降下アルゴリズムを使用します(Saad, 1998)。これは、デフォルトの手法です。
ADAM
適応的モーメント推定法(ADAM; Adaptive Moment Estimation)を使用します(Kingma, 2014)。このオプションは、マルチスレッド処理で計算を行う場合のみに指定できます。
t-SNEのオプション
t-SNEアルゴリズムで使用するオプションが含まれます。主なオプションについては、「多変量埋め込み」プラットフォームの統計的詳細で説明します。
疎
高次元空間における条件付き確率の計算で、疎なデータに対する手法(sparse method)を使用します。この手法は、高次元データの計算を可能にします。
パープレキシティ
類似度の計算で使用するパープレキシティの値を指定します。パープレキシティのパラメータ値は5~50の間で、標本サイズの8分の1以下であるものが良いでしょう。デフォルト値は、標本サイズの8分の1です(ただし、この値が30より大きい場合は、30がデフォルト値になります)。
最大反復回数
計算における反復回数の最大値を指定します。
初期主成分の次元
乱択主成分分析の最初のステップで保持する次元数を指定します。デフォルト値は50です。
収束基準
収束の測定に使用する値を指定します。デフォルト値は1e-8です。
初期スケール
求められた成分の初期スケールを指定します。デフォルト値は0.0001です。
イータ
計算における学習率の値を指定します。デフォルト値は200です。
誇張処理の反復回数
モーメンタム値の誇張処理の反復回数を指定します。デフォルト値は250です。
ダイアログを開いたままにする
分析の実行後も、起動ウィンドウが開いたままになります。設定を更新し、分析をやり直すことができます。