군집화는 여러 변수에 대해 유사한 값을 공유하는 관측값을 함께 그룹화하는 다변량 기법입니다. 일반적으로 관측값은 p 차원 공간에 고르게 분산되지 않습니다. 여기서 p는 변수 수입니다. 대신 관측값은 군집을 형성합니다. 이러한 군집을 식별하면 데이터를 더 세밀하게 파악할 수 있습니다.
참고: JMP에서는 변수를 군집화할 수 있는 플랫폼도 제공합니다. 자세한 내용은 변수 군집화에서 확인하십시오.
JMP에서 제공하는 다음 네 가지 플랫폼을 사용하여 관측값을 군집화할 수 있습니다.
• 계층적 군집화는 작은 데이터 테이블과 큰 데이터 테이블에 모두 유용하며 문자 데이터를 허용합니다. 계층적 군집화는 행을 계층적 순서로 결합하여 트리로 표현합니다. 트리가 생성되면 데이터에 가장 적절한 군집 수를 선택할 수 있습니다. 자세한 내용은 계층적 군집화에서 확인하십시오.
• K 평균 군집화는 최대 수백만 개의 행이 있는 큰 테이블에 적절하며 숫자 데이터만 허용합니다. 군집 수 k를 미리 지정해야 합니다. 이 알고리즘은 군집 시드 점을 추측합니다. 그런 다음 군집에 점을 번갈아 할당하고 군집 중심을 다시 계산하는 반복 과정을 수행합니다. 자세한 내용은 K 평균 군집화에서 확인하십시오.
• 정규 혼합은 중첩될 수 있는 다변량 정규 분포의 혼합에서 데이터를 수집한 경우에 적절하며 숫자 데이터만 허용합니다. 다변량 이상치가 있는 경우 균등 분포를 가정하고 이상치 군집을 사용할 수 있습니다. 자세한 내용은 정규 혼합에서 확인하십시오.
군집 수를 미리 지정해야 합니다. 최대 가능도는 혼합 비율과 평균, 표준편차 및 상관을 공동으로 추정하는 데 사용됩니다. 각 그룹에 속할 확률이 각 점에 할당됩니다. EM 알고리즘은 추정값을 구하는 데 사용됩니다.
• 잠재 계층 분석은 대부분의 변수가 범주형일 때 적절합니다. 군집 수를 미리 지정해야 합니다. 이 알고리즘은 다항 혼합 분포를 가정하는 모형을 적합시킵니다. 각 관측값에 대해 소속 군집의 최대 가능도 추정값이 계산됩니다. 관측값은 소속 확률이 가장 큰 군집으로 분류됩니다. 자세한 내용은 잠재 계층 분석에서 확인하십시오.
|
방법 |
데이터 유형 또는 모델링 유형 |
데이터 테이블 크기 |
군집 수 지정 |
|---|---|---|---|
|
계층적 군집화 |
임의 |
하이브리드 Ward를 사용하는 경우 최대 수십만 개의 행 빠른 Ward를 사용하는 경우 최대 200,000개 행 다른 방법을 사용하는 경우 최대 5,000개 행 |
아니요 |
|
K 평균 군집화 |
수치형 |
최대 수백만 개 행 |
예 |
|
정규 혼합 |
수치형 |
모든 크기 |
예 |
|
잠재 계층 분석 |
명목형 또는 순서형 |
모든 크기 |
예 |
일부 군집화 플랫폼에는 데이터의 이상치를 처리하는 옵션이 있습니다. 그러나 데이터에 이상치가 있으면 분석하기 전에 먼저 이상치를 탐색하는 것이 가장 좋습니다. 이 작업은 이상치 탐색 유틸리티를 사용하여 수행할 수 있습니다. 자세한 내용은 예측 및 전문 모델링의 이상치 탐색에서 확인하십시오.