公開日: 09/19/2023

t-SNE法の統計的詳細

t-SNE法では、高次元の{xi, xj}の類似度と低次元の{yi, yj}の類似度の差を最小化することによって、高次元空間の点{x1, x2, ..., xn}を低次元空間の点{y1, y2, ..., yn}にマッピングします。ペアの類似度は、確率分布として表されます。高次元空間における条件付き確率pj|iは、Gauss分布を使って計算されます。「多変量埋め込み」プラットフォームでは、条件付き確率の計算法として、2種類の方法を利用できます。

疎の近似を使用する計算方法

起動ウィンドウで[疎]オプションを選択した場合は、疎なデータに基づく近似(sparse approximation)を使ってpj|iが計算されます。まず、n個の入力それぞれに対して、VP木を使って、近傍点のセットを見つけます。続けて、これらの近傍点の部分集合に対してのみ、条件付き確率を計算します。

ここに式を表示

この式で、Nixiのfloor(3p)個の近傍点のセットです。ここで、pは起動ウィンドウで指定したパープレキシティのパラメータです。また、Gauss分布の分散σiも、パープレキシティのパラメータに基づいています。van der Maaten and Hinton(2008)およびvan der Maaten(2014)を参照してください。

疎を使わない計算方法

起動ウィンドウで[疎]オプションを選択しなかった場合は、すべての点に対してpj|iが次のように計算されます。

ここに式を表示

この計算において、Gauss分布の分散σiは、パープレキシティのパラメータに基づいています。

結合確率の分布の計算

t-SNE法では、条件付き確率の分布は対称であると仮定しています。したがって、高次元空間における結合確率pijは、次のように、対称的な条件付き類似度によって定義されます。

ここに式を表示

ここで、すべてのijに対して、pij = pjiが成り立ちます。さらに、関心があるのはペアの類似度であるため、pii = 0と仮定します。

低次元マッピングにおける結合確率qijは、自由度1のStudentのt分布を使って、次のように計算されます。

ここに式を表示

これらの確率は、pijと同じような性質をもっています。すべてのijについてqij = qjiです。また、qii = 0とします。

t-SNE法では、高次元空間におけるペアの類似度と、低次元空間におけるペアの類似度の差を最小化します。具体的には、結合確率分布Pと結合確率分布Qの間の単一のKullback-Leibler情報量を最小化します。PQの間のKullback-Leibler情報量は、次のように計算されます。

ここに式を表示

より詳細な情報が必要な場合や、質問があるときは、JMPユーザーコミュニティで答えを見つけましょう (community.jmp.com).