「多変量埋め込み」プラットフォームの概要「多変量埋め込み」プラットフォームでは、高次元空間の点{x1, x2, ..., xn}を低次元空間の点{y1, y2, ..., yn}に写像することで、次元削減を行います。その際、高次元データに含まれる重要な情報をできるだけそのまま維持するように次元を削減します。「多変量埋め込み」プラットフォームでは、UMAP(一様多様体近似と射影; Uniform Manifold Approximation and Projection)とt-SNE(t分布型確率的近傍埋め込み法; t-Distributed Stochastic Neighbor Embedding)を使用できます。UMAPは多様体学習(manifold learning)の手法であり、非線形な次元削減としても知られています。この手法は、リーマン幾何と代数的位相幾何(代数トポロジー)に基づいています(May, 1992)。t-SNEは、確率的近傍埋め込み法(Stochastic Neighbor Embedding; Hinton and Roweis, 2002)の一種です。
「多変量埋め込み」プラットフォームで利用できる次元削減法は、どちらもk近傍に基づくアルゴリズムです。 これらのアルゴリズムは、まず各点の近傍点を見つけ、高次元空間にk最近傍グラフを作成します。次に、そのグラフの構造をできるだけ保持したままで高次元空間から低次元空間へと点を写像することで、低次元マップを作成します。
UMAP法は、まず各点の近傍点を見つけ、次にできるだけ位相構造を保持したままのk最近傍グラフを求めます。デフォルトの設定を使用すると、各点は少なくとも1つの他の点(最近傍点)に連結され、また、15番目より遠くの近傍点は連結されません。1番目からデフォルトでは15番目までにある近傍点は、ファジー領域(fuzzy area)を形成します。高次元データの位相表現は、ファジー領域で定義される辺(edge)をつなげていく(merge)ことで形成されます。ファジー領域の辺をつなげていく方法については、McInnes et al.(2018)を参照してください。
低次元マップを作成するために、UMAPでは、高次元の位相表現と低次元の位相表現の間の交差エントロピーを、勾配降下法をによって最小化します(McInnes et al., 2018)。UMAPでは、データの大域的な構造をなるべく保持した低次元マップを求めます。また、UMAPは、計算時間を最小限に抑えながら、非常に大規模なデータセットを扱うことができます。
t-SNE法は、点のペアの類似度に基づいています。t-SNE法での各ペアの類似度は、2点の条件付き確率によって表されます。高次元空間では、Gauss分布を使って、2点間の距離を条件付き確率に変換します。低次元マップでは、自由度が1のStudentのt分布を使って、2点間の距離を条件付き確率に変換します。t-SNE法という名前は、そのような計算に由来しています(van der Maaten and Hinton, 2008)。
低次元への写像が適切である場合は、高次元空間における{xi, xj}のペアの類似度と、低次元空間における{yi, yj}のペアの類似度が一致しています。t-SNE法ではこの前提に基づき、高次元の類似度と低次元の類似度の違いがなるべく小さくなるように次元削減を行います。この違いを測るのには、Kullback-Leibler情報量の一種を使用します。そして、最急降下法を使って、その値を最小化します。t-SNE法の詳細については、「多変量埋め込み」プラットフォームの統計的詳細を参照してください。