다변량 임베딩 플랫폼 시작분석 > 다변량 방법 > 다변량 임베딩을 선택하여 다변량 임베딩 플랫폼을 시작합니다.
그림 11.3 다변량 임베딩 시작 창
"열 선택"의 빨간색 삼각형 메뉴에 포함된 옵션에 대한 자세한 내용은 JMP 사용의 열 필터 메뉴에서 확인하십시오. 다변량 임베딩 시작 창에는 다음 옵션이 포함되어 있습니다.
Y, 열
저차원 공간에 매핑할 고차원 데이터를 나타내는 열을 지정합니다.
기준
각 수준으로 개별 분석을 정의하는 열입니다. 지정된 열의 각 수준에 대해 해당 행은 사용자가 지정한 다른 변수를 사용하여 분석됩니다. 결과는 별도의 테이블과 보고서에 제공됩니다. 기준 변수가 둘 이상 할당되면 기준 변수의 가능한 각 수준 조합에 대해 개별 분석이 생성됩니다.
방법
데이터를 저차원 공간에 매핑하는 방법을 지정합니다. UMAP과 t-SNE 중에서 선택합니다.
출력 차원
저차원 공간의 성분 또는 차원 수를 지정합니다. 성분 수는 2보다 크거나 같아야 합니다.
난수 시드값
이후 플랫폼 실행에 대한 결과를 재현하는 데 사용할 난수 시드값을 지정합니다.
표준화
차원 축소에 사용되는 거리를 계산하기 전에 내부적으로 데이터를 표준화합니다.
결측값 대치
다변량 SVD(특이값 분해) 기법을 사용하여 데이터의 결측값을 대치하도록 지정합니다.
참고: 데이터에 결측값이 있고 "결측값 대치" 옵션을 선택하지 않은 경우 시작 창에서 "확인"을 클릭하면 결측값 대치 창이 표시됩니다. 데이터의 각 행에 하나 이상의 결측값이 포함된 경우 결측값을 대치하거나, Y 열 선택을 변경하거나, 분석을 취소하도록 선택할 수 있습니다. 데이터의 일부 행에 결측값이 없는 경우에는 결측값을 대치하거나, 결측값 대치 없이 계속하거나, 분석을 취소하도록 선택할 수 있습니다.
UMAP 옵션
UMAP 알고리즘에 사용되는 옵션을 포함합니다. UMAP 알고리즘에서 다음 모수가 사용되는 방식에 대한 자세한 내용은 McInnes et al. (2018)에서 확인하십시오.
이웃 수
각 데이터 점에 대해 발견되는 근접 이웃의 수를 지정합니다. 지정된 근접 이웃 수가 적을수록 UMAP 알고리즘은 데이터의 로컬 구조에 더 집중합니다. 근접 이웃 수가 증가하면 UMAP 알고리즘은 데이터의 전역 구조를 더 많이 포착합니다. "이웃 수" 값의 범위는 2에서 데이터 관측값 수의 1/4까지입니다. 기본값은 15입니다.
에포크(Epoch) 수
저차원 표현을 최적화할 때 사용할 훈련 에포크(epoch) 수를 지정합니다. 이 값은 전체 훈련 데이터에서 알고리즘이 작동하는 횟수입니다. 기본값은 500입니다.
학습률
계산에서 학습률 값을 지정합니다. 기본값은 1입니다. 학습률은 모형이 문제에 얼마나 빨리 적응하는지에 영향을 줍니다. 학습률이 너무 크면 알고리즘이 최적 해를 놓칠 수 있습니다. 학습률이 너무 작으면 알고리즘이 수렴하는 데 시간이 오래 걸릴 수 있습니다.
팁: 알고리즘이 수렴하지 않거나, 극단값이 있는 임베딩 좌표가 생성되는 경우 학습률 값을 조정해 보십시오.
최소 거리
저차원 공간의 점이 서로 떨어져 있을 수 있는 최소 표준화 거리를 지정합니다. 0에서 0.99 사이의 값을 지정할 수 있습니다. 기본값은 0.01입니다.
로컬 연결
로컬 수준에서 연결된 것으로 간주되는 최근접 이웃 수를 지정합니다. 기본값은 1이며, 이는 고차원 공간의 모든 점에 하나 이상의 다른 이웃이 연결되어 있다고 가정합니다.
a
임베딩 최적화 알고리즘을 제어하는 모수 중 하나를 지정합니다. 이 값이 0 또는 음수로 지정되면 a는 알고리즘에서 비선형 최소 제곱 절차에 의해 계산됩니다.
b
임베딩 최적화 알고리즘을 제어하는 모수 중 하나를 지정합니다. 이 값이 0 또는 음수로 지정되면 b는 알고리즘에서 비선형 최소 제곱 절차에 의해 계산됩니다.
음수 표본 비율
데이터의 저차원 표현을 찾을 때 양수 1-심플렉스 표본당 사용할 음수 1-심플렉스 표본 수를 지정합니다. "음수 표본 비율" 값의 범위는 2에서 20까지입니다. 기본값은 5입니다.
N이 다음 값보다 큰 경우 배치 모드
표본 크기가 지정된 값보다 클 때 멀티스레딩을 사용하여 임베딩 좌표를 최적화하도록 지정합니다. 기본값은 4096입니다.
최근접 이웃 방법
최근접 이웃을 찾는 데 사용되는 방법을 지정합니다.
기본값
표본 크기와 변수 수에 따라 최근접 이웃 방법을 선택합니다. 관측값 수가 4096개보다 크고, 변수 수가 1500개 이하이거나, "거리 측정 기준"이 "유클리드"로 설정되지 않은 경우 기본값은 ANNOY입니다. 그렇지 않은 경우 기본값은 VPTree입니다.
VPTree(정확)
VP(Vantage-Point, 기준점) 트리를 사용하여 최근접 이웃 집합을 찾습니다.
ANNOY(근사)
ANN(Approximate Nearest Neighbors, 근사 최근접 이웃) 방법을 사용하여 최근접 이웃 집합을 찾습니다(Bernhardsson, 2013 참조). 데이터 집합이 클 경우 둘 중 이 방법이 더 빠르지만 결과가 VPTree 방법보다 정확하지 않을 수 있습니다.
거리 측정 기준
(ANNOY를 최근접 이웃 방법으로 지정한 경우에만 적용 가능) 최근접 이웃 간의 거리를 계산하는 데 사용되는 측정 기준을 지정합니다. 거리 측정 기준 옵션은 "유클리드", "각", "Hamming" 및 "맨해튼"입니다. 기본적으로 유클리드가 거리 측정 기준으로 지정됩니다.
팁: 데이터에 이항 또는 범주형 변수가 포함된 경우 비유클리드 거리 측정 기준이 더 적절할 수 있습니다.
경사하강법
최적화 알고리즘에 사용되는 경사하강법을 지정합니다.
SGD
Stochastic Gradient Descent 알고리즘을 사용합니다(Saad, 1998 참조). 이 방법이 기본값입니다.
ADAM
Adaptive Moment Estimation 방법을 사용합니다(Kingma, 2014 참조). 이 옵션은 멀티스레딩이 사용되는 경우에만 사용할 수 있습니다.
t-SNE 옵션
t-SNE 알고리즘에 사용되는 옵션을 포함합니다. 이러한 옵션의 대부분은 다변량 임베딩 플랫폼에 대한 통계 상세 정보에서 설명합니다.
희소
고차원 공간에서 조건부 확률 계산에 희소 방법을 사용할지 여부를 지정합니다. 희소 방법을 사용하면 고차원 데이터를 계산할 수 있습니다.
혼란도
표본의 유사성 계산과 관련된 혼란도 모수의 값을 지정합니다. 혼란도 모수의 값은 5에서 50 사이여야 하며, 표본 크기의 1/8보다 크면 안 됩니다. 기본값은 30 또는 표본 크기의 1/8 중 더 작은 값입니다.
최대 반복 수
계산에 사용되는 최대 반복 수를 지정합니다.
초기 주성분 차원
초기 랜덤 주성분 분석 단계에서 유지되는 차원 수를 지정합니다. 기본값은 50입니다.
수렴 기준
수렴을 측정하는 데 사용되는 값을 지정합니다. 기본값은 1e-8입니다.
초기 척도
도출된 성분의 초기 척도를 지정합니다. 기본값은 0.0001입니다.
Eta
계산에서 학습률 값을 지정합니다. 기본값은 200입니다.
반복 확장
모멘텀 값이 더 이상 확대되지 않는 반복 수를 지정합니다. 기본값은 250입니다.
대화상자 열린 채 유지
분석을 실행한 후 옵션을 업데이트하고 분석을 다시 실행할 수 있도록 시작 창을 열린 채로 유지합니다.