발행일 : 03/10/2025

관측값 군집화 플랫폼 개요

군집화는 여러 변수에 대해 유사한 값을 공유하는 관측값을 함께 그룹화하는 다변량 기법입니다. 일반적으로 관측값은 p 차원 공간에 고르게 분산되지 않습니다. 여기서 p는 변수 수입니다. 대신 관측값은 군집을 형성합니다. 이러한 군집을 식별하면 데이터를 더 세밀하게 파악할 수 있습니다.

참고: JMP에서는 변수를 군집화할 수 있는 플랫폼도 제공합니다. 자세한 내용은 변수 군집화에서 확인하십시오.

JMP에서 제공하는 다음 네 가지 플랫폼을 사용하여 관측값을 군집화할 수 있습니다.

계층적 군집화는 작은 데이터 테이블과 큰 데이터 테이블에 모두 유용하며 문자 데이터를 허용합니다. 계층적 군집화는 행을 계층적 순서로 결합하여 트리로 표현합니다. 트리가 생성되면 데이터에 가장 적절한 군집 수를 선택할 수 있습니다. 자세한 내용은 계층적 군집화에서 확인하십시오.

K 평균 군집화는 최대 수백만 개의 행이 있는 큰 테이블에 적절하며 숫자 데이터만 허용합니다. 군집 수 k를 미리 지정해야 합니다. 이 알고리즘은 군집 시드 점을 추측합니다. 그런 다음 군집에 점을 번갈아 할당하고 군집 중심을 다시 계산하는 반복 과정을 수행합니다. 자세한 내용은 K 평균 군집화에서 확인하십시오.

정규 혼합은 중첩될 수 있는 다변량 정규 분포의 혼합에서 데이터를 수집한 경우에 적절하며 숫자 데이터만 허용합니다. 다변량 이상치가 있는 경우 균등 분포를 가정하고 이상치 군집을 사용할 수 있습니다. 자세한 내용은 정규 혼합에서 확인하십시오.

군집 수를 미리 지정해야 합니다. 최대 가능도는 혼합 비율과 평균, 표준편차 및 상관을 공동으로 추정하는 데 사용됩니다. 각 그룹에 속할 확률이 각 점에 할당됩니다. EM 알고리즘은 추정값을 구하는 데 사용됩니다.

잠재 계층 분석은 대부분의 변수가 범주형일 때 적절합니다. 군집 수를 미리 지정해야 합니다. 이 알고리즘은 다항 혼합 분포를 가정하는 모형을 적합시킵니다. 각 관측값에 대해 소속 군집의 최대 가능도 추정값이 계산됩니다. 관측값은 소속 확률이 가장 큰 군집으로 분류됩니다. 자세한 내용은 잠재 계층 분석에서 확인하십시오.

표 13.1 군집화 방법 요약

방법

데이터 유형 또는 모델링 유형

데이터 테이블 크기

군집 수 지정

계층적 군집화

임의

하이브리드 Ward를 사용하는 경우 최대 수십만 개의 행

빠른 Ward를 사용하는 경우 최대 200,000개 행

다른 방법을 사용하는 경우 최대 5,000개 행

아니요

K 평균 군집화

수치형

최대 수백만 개 행

정규 혼합

수치형

모든 크기

잠재 계층 분석

명목형 또는 순서형

모든 크기

일부 군집화 플랫폼에는 데이터의 이상치를 처리하는 옵션이 있습니다. 그러나 데이터에 이상치가 있으면 분석하기 전에 먼저 이상치를 탐색하는 것이 가장 좋습니다. 이 작업은 이상치 탐색 유틸리티를 사용하여 수행할 수 있습니다. 자세한 내용은 예측 및 전문 모델링이상치 탐색에서 확인하십시오.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).