다변량 방법 > 계층적 군집화 > 계층적 군집화 플랫폼 개요
발행일 : 03/10/2025

계층적 군집화 플랫폼 개요

계층적 군집화 방법은 각 관측값이 자체 군집을 형성하는 것으로 시작합니다. 군집화 과정의 각 단계에서는 모든 군집 쌍 간의 거리를 계산하고 가장 가까운 두 군집을 결합합니다. 모든 점이 하나의 군집에 포함될 때까지 이 과정이 계속됩니다. 계층적 군집화는 사용하는 결합 방식 때문에 병합 군집화라고도 합니다.

병합 과정은 덴드로그램이라는 트리로 표현됩니다. JMP에서는 군집 수를 결정하는 데 도움이 되도록 거리 그래프를 제공합니다. 군집 간의 거리가 실제적으로 더 이상 중요하지 않은 시점을 확인하여 군집 수를 선택할 수 있습니다.

계층적 군집화는 문자 열도 지원합니다. 두 가지 방법을 사용하여 거리를 정의할 수 있습니다.

열이 순서형인 경우 군집화에 사용되는 값은 순서가 지정된 범주의 인덱스로, 연속형 데이터처럼 처리됩니다. 이러한 값은 연속형 데이터처럼 표준화됩니다.

열이 명목형인 경우 범주가 일치하는 두 관측값 간의 거리는 0입니다. 범주가 다르면 거리가 1입니다.

계층적 군집화를 사용하면 "평균", "중심", "Ward", "단일" 및 "완전"이라는 다섯 가지 규칙 중에서 선택하여 군집 간 거리를 정의할 수 있습니다. 각 규칙은 서로 다른 군집 시퀀스를 생성할 수 있습니다. 또한 Ward 방법을 기반으로 군집 간 거리를 정의하는 "빠른 Ward"와 "하이브리드 Ward"라는 두 가지 추가 방법이 있습니다.

팁: 계층적 군집화 과정은 "빠른 Ward" 방법을 사용하는 경우를 제외하고 n개의 관측값에 대해 n(n + 1)/2개의 거리로 시작합니다. 따라서 이 방법은 n이 큰 경우 실행 시간이 오래 걸릴 수 있습니다. 숫자 관측값 수가 많은 경우에는 K 평균 군집화 또는 정규 혼합 방법을 고려해 보십시오.

계층적 군집화는 JMP에서 관측값을 군집화하기 위해 제공하는 네 가지 플랫폼 중 하나입니다. 네 가지 방법을 모두 비교하려면 관측값 군집화 플랫폼 개요의 내용을 참조하십시오.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).