다변량 방법 > 다변량 임베딩 > 다변량 임베딩 플랫폼 개요
발행일 : 03/10/2025

Image shown here다변량 임베딩 플랫폼 개요

다변량 임베딩 플랫폼에서는 고차원 공간의 점 {x1, x2,..., xn}을 저차원 공간의 점 {y1, y2,..., yn}에 매핑하는 차원 축소를 수행합니다. 차원 축소의 목표는 고차원 데이터에 있는 중요한 정보를 유지하면서 점을 저차원 공간에 매핑하는 것입니다. 다변량 임베딩 플랫폼에 사용되는 특정 기법은 UMAP(Uniform Manifold Approximation and Projection, 균일 매니폴드 근사 및 투영) 방법과 t-SNE(t-Distributed Stochastic Neighbor Embedding, t 분포 확률적 이웃 임베딩) 방법입니다. UMAP 방법은 매니폴드 학습 기법으로, 비선형 차원 축소라고도 합니다. 이 기법은 Riemannian 기하학 및 대수적 위상수학(May, 1992)을 기반으로 합니다. t-SNE 방법은 Stochastic Neighbor Embedding(Hinton & Roweis, 2002)의 변형입니다.

다변량 임베딩 플랫폼에서 사용할 수 있는 두 가지 차원 축소 방법은 모두 k 이웃 기반 학습 알고리즘입니다. 이러한 유형의 알고리즘은 먼저 각 점에 대한 인접 이웃을 찾아 고차원 공간에 k 이웃 그래프를 생성합니다. 그런 다음 그래프 구조를 유지하면서 고차원 공간의 점을 저차원 공간에 매핑하는 저차원 매핑이 생성됩니다.

UMAP 방법 개요

UMAP 방법은 먼저 각 점의 근접 이웃을 찾은 다음 k 이웃 그래프를 생성하여 위상 구조를 형성합니다. 기본 설정을 사용하면 각 점이 하나 이상의 다른 이웃, 즉 최근접 이웃에 연결되며 15번째 이후의 이웃에는 연결되지 않습니다. 그 사이의 이웃은 퍼지 영역을 형성합니다. 그런 다음 퍼지 영역의 엣지를 함께 병합하여 고차원 데이터의 위상 표현이 생성됩니다. 엣지가 병합되는 방법에 대한 자세한 내용은 McInnes et al. (2018)에서 확인하십시오.

저차원 매핑을 생성하기 위해 UMAP은 경사하강법을 사용하여 고차원 위상 표현과 저차원 위상 표현 사이의 교차 엔트로피를 최소화합니다(McInnes et al., 2018 참조). UMAP 방법은 계산 시간을 최소화하면서 데이터의 전역 구조를 보존하고 극도로 큰 데이터 집합을 처리할 수 있습니다.

t-SNE 방법 개요

t-SNE 방법은 점 사이의 쌍별 유사성을 기반으로 합니다. 각 쌍별 유사성은 두 점이 이웃이라는 조건부 확률로 나타냅니다. 고차원 공간에서 거리는 가우시안 분포를 사용하여 조건부 확률로 변환됩니다. 저차원 맵에서 거리는 자유도가 1인 스튜던트 t 분포를 사용하여 확률로 변환됩니다. 여기서 t-SNE라는 방법 이름을 얻습니다(van der Maaten & Hinton, 2008 참조).

좋은 저차원 매핑의 경우 고차원 공간에서 {xi, xj} 사이의 쌍별 유사성이 저차원 공간에서 {yi, yj} 사이의 쌍별 유사성과 동일합니다. 이 가정하에 t-SNE 방법은 고차원 유사성과 저차원 유사성 사이의 차이를 최소화하는 저차원 매핑을 찾습니다. Kullback-Leibler 발산 버전을 사용하여 차이를 측정한 후 경사하강법을 사용하여 최소화합니다. t-SNE 방법에 대한 자세한 내용은 다변량 임베딩 플랫폼에 대한 통계 상세 정보에서 확인하십시오.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).