군집화는 여러 변수에 대해 유사한 값을 공유하는 관측값을 함께 그룹화하는 다변량 기법입니다. 이 방법을 사용하여 데이터의 군집 구조를 이해할 수 있습니다.
계층적 군집화는 군집을 연속해서 결합합니다. 이 방법은 각 관측값을 자체 군집화하는 것으로 시작합니다. 그런 다음 각 단계에서 거리가 가장 가까운 두 군집을 단일 군집으로 결합합니다. 결과는 덴드로그램이라고 하는 트리로 표시됩니다.
일반적으로 계층적 군집화는 행 수가 수만 개 이하인 작은 데이터 테이블에 유용합니다. 이 알고리즘은 시간이 많이 소요되며 큰 데이터 테이블의 경우 느리게 실행될 수 있습니다. 그러나 계층적 군집화 플랫폼은 계산 시간을 줄이고 더 큰 데이터 테이블을 군집화하는 데 유용한 "빠른 Ward"와 "하이브리드 Ward"라는 두 가지 방법도 제공합니다.
참고: 계층적 군집화는 문자 열을 지원하고 K 평균 군집화 또는 정규 혼합에는 숫자 열이 필요합니다.
그림 13.1 성운형 그림의 예