다변량 방법 > 계층적 군집화 > 계층적 군집화 플랫폼 시작
발행일 : 03/10/2025

계층적 군집화 플랫폼 시작

분석 > 군집화 > 계층적 군집화를 선택하여 계층적 군집화 플랫폼을 시작합니다.

그림 13.4 계층적 군집화 시작 창 

Hierarchical Cluster Launch Window

"열 선택"의 빨간색 삼각형 메뉴에 포함된 옵션에 대한 자세한 내용은 JMP 사용열 필터 메뉴에서 확인하십시오.

Y, 열

관측값을 군집화하는 데 사용되는 변수입니다.

정렬

지정된 열에 기반한 평균 값을 기준으로 군집을 정렬합니다.

팁: 주성분 분석을 수행하여 얻은 첫 번째 주성분을 정렬 열로 사용합니다. 군집은 이러한 값을 기준으로 정렬됩니다.

속성 ID

(쌓인 데이터를 데이터 구조로 선택한 경우에만 사용 가능) 쌓이는 변수를 지정합니다.

개체 ID

(요약 데이터 또는 쌓인 데이터를 데이터 구조로 선택한 경우에만 사용 가능) 측정값이 쌓이는 각 유닛에 대한 고유 식별자를 제공하는 하나 이상의 열입니다.

라벨

보고서의 덴드로그램에 라벨을 지정하는 데 사용되는 열입니다.

참고: 선택한 데이터 구조가 거리 행렬 데이터인 경우 라벨 열의 데이터 유형은 문자여야 합니다.

기준

각 수준으로 개별 분석을 정의하는 열입니다. 지정된 열의 각 수준에 대해 해당하는 행이 분석됩니다. 결과는 개별 보고서에 제공됩니다. 기준 변수가 둘 이상 할당되면 기준 변수의 가능한 각 수준 조합에 대해 개별 분석이 생성됩니다.

방법

군집을 정의하기 위한 거리를 계산하는 데 사용되는 방법을 지정합니다. 각 방법에 의해 정의된 거리가 최소화되도록 군집이 결합됩니다. 거리 계산식은 거리 방법에 대한 통계 상세 정보에서 확인하십시오.

Ward

두 군집 간의 거리를 모든 변수에 대해 합산된 두 군집 간의 ANOVA 제곱합으로 정의합니다. 각 생성 단계마다 이전 생성 단계에서 얻은 두 군집을 병합하여 얻을 수 있는 모든 파티션에 대해 군집 내 제곱합이 최소화됩니다. 제곱합을 총 제곱합으로 나누어 분산 비율(준부분 상관 제곱)을 제공하면 제곱합을 더 쉽게 해석할 수 있습니다.

Ward 방법은 다변량 정규 혼합, 구형성 공분산 행렬 및 등확률 표집을 가정하고 계층의 각 수준에서 가능도를 최대화하도록 군집을 결합합니다.

Ward 방법은 관측값 수가 적은 군집을 결합하는 경향이 있으며 관측값 수가 거의 같은 군집을 생성하는 쪽으로 크게 편향되어 있습니다. 또한 이상치에도 매우 민감합니다. 자세한 내용은 Milligan(1980) 연구 자료에서 확인하십시오.

평균

두 군집 간의 거리를 관측값 쌍 간의 평균 거리로 정의합니다. 평균 연결법은 분산이 작은 군집을 결합하는 경향이 있으며 분산이 같은 군집을 생성하는 쪽으로 약간 편향되어 있습니다. 자세한 내용은 Sokal과 Michener(1958) 연구 자료에서 확인하십시오.

중심

두 군집 간의 거리를 군집 평균 간의 유클리드 거리 제곱으로 정의합니다. 중심 방법은 대부분의 다른 계층적 방법보다 이상치에 더 로버스트하지만 다른 측면에서는 Ward 방법 또는 평균 연결법만큼 잘 수행되지 않을 수 있습니다. 자세한 내용은 Milligan(1980) 연구 자료에서 확인하십시오.

단일

두 군집 간의 거리를 한 군집의 관측값과 다른 군집의 관측값 사이의 최소 거리로 정의합니다. 단일 연결법은 바람직한 이론적 특성을 많이 가지고 있지만 몬테카를로 연구에서는 잘 수행되지 않았습니다. 자세한 내용은 Jardine과 Sibson(1971), Fisher와 Van Ness(1971), Hartigan(1981) 및 Milligan(1980) 연구 자료에서 확인하십시오. 단일 연결법은 Florek et al. (1951a, 1951b)에 의해 시작되었으며 이후에 McQuitty(1957)와 Sneath(1957)에 의해 재창조되었습니다.

단일 연결법은 군집 모양에 제약 조건을 두지 않으므로 길고 불규칙한 군집을 감지하는 대신 조밀한 군집 복구 성능이 저하됩니다. 단일 연결법은 주 군집을 분리하기 전에 분포의 꼬리를 잘라내는 경향이 있습니다. 자세한 내용은 Hartigan(1981) 연구 자료에서 확인하십시오.

완전

두 군집 간의 거리를 한 군집의 관측값과 다른 군집의 관측값 사이의 최대 거리로 정의합니다. 완전 연결법은 지름이 거의 같은 군집을 생성하는 쪽으로 크게 편향되어 있으며 중간 이상치에 의해 심하게 왜곡될 수 있습니다. 자세한 내용은 Milligan(1980) 연구 자료에서 확인하십시오.

빠른 Ward

Ward 방법을 사용하여 두 군집 간의 거리를 정의합니다. "빠른 Ward"는 근접 이웃 체인 알고리즘을 사용하여 Ward 거리를 계산합니다. 이 알고리즘을 사용하면 거리 행렬을 계산할 필요가 없으므로 계산 시간이 단축됩니다. "빠른 Ward"는 행 수가 2,000개를 초과할 때마다 자동으로 사용됩니다.

하이브리드 Ward

군집화를 두 단계로 나누는 알고리즘을 적용합니다. 첫 번째 단계는 근접 이웃 결합 주기를 사용하여 예비 군집을 생성하는 전처리 단계입니다. 자세한 내용은 근접 이웃 결합 주기에 대한 통계 상세 정보에서 확인하십시오. 이 작업은 계층적 군집화 루틴에 전달되는 테이블의 크기를 줄이기 위해 수행됩니다. 특정 횟수의 주기가 수행되거나 특정 수의 군집이 생성된 후 Ward 방법을 사용하여 나머지 군집이 형성됩니다. 이 방법은 군집화할 항목이 수만 또는 수십만 개일 때 유용합니다.

참고:빠른 Ward 방법과 달리 이 방법은 전체 Ward 방법과 동일한 계층을 생성하지 않습니다. 그러나 항목 수가 많은 경우, 특히 컴퓨팅 코어가 여러 개 있고 근접 이웃 검색에 멀티스레딩을 사용할 수 있는 경우 계산 시간이 더 적게 걸립니다.

데이터 형식

다변량 거리를 계산하는 데 사용되는 데이터의 형식을 지정합니다.

일반 데이터

각 관측값마다 하나의 행과 각 변수마다 하나의 열이 있는 직사각형 데이터입니다.

요약 데이터

하나 이상의 식별 열의 수준으로 요약된 데이터입니다. 이 옵션을 선택하면 시작 창에 "개체 ID" 텍스트 상자가 나타납니다. 식별 열을 개체 ID로 지정합니다. "요약 데이터" 옵션은 수준 평균을 계산하고 이러한 평균을 입력 데이터로 처리합니다.

거리 행렬 데이터

관측값 간의 거리로 구성된 데이터입니다. 관측값이 n개인 경우 거리 테이블에는 n개의 행과 n + 1개의 열이 있어야 합니다. 하나의 열(대개 첫 번째 열)에 n개의 각 관측값에 대한 고유 식별자가 포함되어야 합니다. 나머지 열에는 해당 관측값과 n개 관측값 사이의 거리가 포함됩니다. 다음 사항에 유의하십시오.

점은 자신과의 거리가 0이므로 테이블의 대각 요소는 0이거나 결측이어야 합니다. 0이 아닌 값 또는 비결측 값은 0으로 처리되며 보고서에 이에 대한 설명이 나타납니다.

거리 열은 대칭 정방 행렬이거나, 아래쪽 또는 위쪽 부분에 결측 항목이 있는 상삼각 또는 하삼각 행렬일 수 있습니다. 거리가 정방 행렬로 제공된 경우 테이블이 대칭이 아니면 보고서에 경고가 나타납니다.

다른 데이터 구조로 시작한 후 거리 행렬을 저장할 수 있습니다. 자세한 내용은 거리 행렬 저장에서 확인하십시오.

"거리 행렬 데이터" 옵션을 선택하는 경우 거리 열을 "Y, 열"로 입력하고 식별자 열을 "라벨"로 입력합니다. 라벨 열의 데이터 유형은 문자여야 합니다. 예는 거리 행렬의 예에서 확인하십시오.

쌓인 데이터

관심 반응이 하나이고 각 개체에 대한 행이 여러 개 있는 데이터입니다.

"쌓인 데이터" 옵션을 선택하면 시작 창에 "속성 ID" 및 "개체 ID" 텍스트 상자가 나타납니다.

단일 열을 "Y, 열"로 입력합니다.

"Y, 열" 변수의 그룹화를 설명하는 열을 "속성 ID"로 입력합니다. 두 개의 열만 입력하고 "공간 측도 추가"를 선택하면 군집 분석에 사용할 공간 성분을 추가할 수 있습니다. 자세한 내용은 공간 측도 추가에서 확인하십시오.

개체에 대한 식별 열을 "개체 ID"로 입력합니다.

수행되는 분석은 "속성 ID" 열을 기준으로 "Y, 열" 변수를 분할한 후 반응 열을 표준화하지 않고 계층적 군집화를 수행하는 것과 같습니다.

팁: 이 옵션을 "공간 측도 추가" 옵션과 함께 사용하여 2차원 공간 군집화를 수행할 수 있습니다. 예를 들어 웨이퍼 데이터는 주로 각 다이당 하나의 행을 사용하여 기록됩니다. 주요 관심은 웨이퍼를 군집화하는 것입니다. 자세한 내용은 공간 측도를 사용한 웨이퍼 결함 분류의 예에서 확인하십시오.

주의: 측정값 열이 하나이므로 쌓인 데이터에는 데이터 표준화가 적절하지 않습니다.

표준화 기준

군집화하기 전에 값을 표준화하는 방법을 지정합니다. 연속형 열과 순서형 열에 대해 서로 다른 측정 척도 문제를 해결하는 데 유용합니다.

표준화되지 않음

원래 데이터를 사용합니다.

각 열의 값에서 열 평균을 빼고 열 표준편차로 나누어 표준화합니다.

각 행의 값에서 행 평균을 빼고 행 표준편차로 나누어 표준화합니다.

열 및 행

먼저 열 평균과 행 평균을 모두 뺀 다음, 다시 총 평균을 더하여 값을 표준화합니다. 그러면 이중 중심화된 데이터의 표준편차를 사용하여 값이 척도화됩니다.

로버스트 표준화

연속형 열과 순서형 열의 평균 및 표준편차 추정값에 대한 이상치의 영향을 줄입니다. 이 옵션은 평균 및 표준편차의 Huber M-추정값을 사용합니다(Huber 1964, Huber 1973, Huber와 Ronchetti 2009 참조). 이상치가 있는 열의 경우 이 옵션을 사용하면 다변량 거리를 결정할 때 표준화된 값을 더 크게 표현할 수 있습니다.

참고: "표준화 기준" 옵션을 사용하고 "로버스트 표준화"를 선택하는 경우 지정한 표준화 방법에 대해 로버스트 평균 및 표준편차가 사용됩니다.

결측값 대치

결측값을 대치합니다. 변수 수가 50개 이하이거나 행 수의 절반 미만이면 다변량 정규 대치법이 사용됩니다. 그렇지 않으면 다변량 SVD 대치법이 사용됩니다.

다변량 정규 대치법은 쌍별 공분산을 계산하여 반응 열에 대한 공분산 행렬을 생성합니다. 그런 다음 주어진 관측값에 대해 결측값이 없는 모든 예측 변수를 사용한 회귀 예측과 동일한 방법으로 각 결측값이 대치됩니다. 생성된 공분산 행렬이 양정치가 아니면 열 평균을 사용하여 결측값이 대치됩니다.

다변량 SVD 대치법은 특이값 분해를 사용하여 공분산 행렬 생성을 방지합니다. 자세한 내용은 예측 및 전문 모델링결측값 탐색에서 확인하십시오.

주의: 결측값 대치에서는 군집이 없고, 다변량 정규 분포의 데이터를 가져왔으며, 값이 랜덤으로 완전히 결측되었다고 가정합니다. 대개 이러한 가정은 실제로는 적절하지 않으므로 이 기능을 사용할 때 주의해야 합니다. 그러나 이 기능을 사용하면 데이터의 대부분을 삭제하는 것보다 더 유익한 결과를 얻을 수 있습니다.

공간 측도 추가

("쌓인 데이터" 옵션을 데이터 형식으로 선택한 경우에만 사용 가능) 데이터가 쌓여 있고 공간 좌표(예: 가로 및 세로 좌표)에 해당하는 두 속성 열을 포함하는 경우 이 옵션을 선택합니다. 이 옵션을 선택하면 결함 패턴을 군집화하는 데 도움이 되도록 공간 성분을 선택하고 가중치를 지정할 수 있는 창이 열립니다. 이 방법은 특별하며 매우 특정한 설정에만 적용할 수 있습니다. 자세한 내용은 공간 측도에 대한 통계 상세 정보공간 측도를 사용한 웨이퍼 결함 분류의 예에서 확인하십시오.

이원 군집화

("일반 데이터" 또는 "요약 데이터" 옵션을 데이터 형식으로 선택한 경우에만 사용 가능) 지정된 열과 행 둘 다를 기준으로 군집화합니다. 맨 아래의 Y 변수 덴드로그램과 함께 색상 맵이 덴드로그램에 추가됩니다. 일반적으로 이원 군집화의 경우 변수가 동일한 척도로 측정되므로 데이터를 표준화하지 않습니다.

고급 옵션

하이브리드 Ward 방법에 대한 고급 옵션을 지정합니다.

하이브리드 목표

계층적 군집화 루틴으로 전환하기 전에 허용되는 최대 군집 수를 지정합니다. 계층적 군집화 루틴이 시작될 때 군집 수는 "하이브리드 목표"보다 작거나 같아야 합니다. "하이브리드 목표"의 기본값은 400입니다.

하이브리드 주기

계층적 군집화 루틴으로 전환하기 전에 수행되는 근접 이웃 결합 주기의 최소 수를 지정합니다. "하이브리드 주기"의 기본값은 30입니다.

하이브리드 초기 K

근접 이웃 결합 주기에 사용되는 초기 이웃 수를 지정합니다. 이웃 수는 이전 주기에서 발견된 고유한 인접 이웃 수에 따라 증가하거나 감소할 수 있습니다. "하이브리드 초기 K"의 기본값은 10입니다.

하이브리드 랜덤 PCA 차원

랜덤화 PCA 차원 축소 기법에 사용할 차원 수를 지정합니다. 이 기법은 "하이브리드 랜덤 PCA 차원" 값이 0보다 클 때 사용되며 속도가 훨씬 향상됩니다. 랜덤화 PCA 기법은 근사 주성분을 계산하여 문제의 차원을 줄이고 점 사이의 거리를 근사화합니다. 자세한 내용은 Halko, Martinsson & Tropp(2011)에서 확인하십시오.

하이브리드 로그 상세 정보

하이브리드 Ward 방법의 각 상태와 타이밍을 로그에 표시할지 여부를 지정합니다.

저장된 군집 테이블 사용

별도의 군집 기록 테이블을 사용하여 군집화를 지정합니다.

경고 - 비결측 데이터가 충분하지 않습니다.

"요약 데이터" 또는 "쌓인 데이터" 형식을 사용하는 경우 "비결측 데이터가 충분하지 않습니다."라는 JMP 경고를 이해하기 어려울 수 있습니다. 다음과 같은 경우에 경고가 발생합니다.

데이터 형식을 "일반 데이터"로 선택한 경우 모든 행 또는 하나를 제외한 모든 행에서 "Y, 열" 변수의 값이 하나 이상 결측일 때 경고가 발생합니다.

데이터 형식을 "요약 데이터"로 선택한 경우 데이터가 "개체 ID" 열에 대해 요약되고 모든 행 또는 하나를 제외한 모든 행에서 요약된 "Y, 열" 변수의 값이 하나 이상 결측일 때 경고가 발생합니다. 군집화 플랫폼에서 분석하는 데이터 구조를 확인하려면 테이블 > 요약을 선택한 후 "개체 ID" 열을 "그룹"으로 입력하고 "Y, 열" 변수를 통계량 > 평균으로 입력합니다.

데이터 형식을 "쌓인 데이터"로 선택한 경우 "속성 ID" 열에 대해 데이터가 분할되고 모든 행 또는 하나를 제외한 모든 행에서 분할 "Y, 열"의 값이 하나 이상 결측일 때 경고가 발생합니다. 군집화 플랫폼에서 분석하는 데이터 구조를 확인하려면 테이블 > 분할을 선택한 후 "속성 ID" 열을 "분할 기준"으로, "Y, 열" 변수를 "분할 열"로, "개체 ID" 열을 "그룹"으로 각각 입력합니다.

팁: 결측값이 있는 개체를 식별하는 메시지도 로그에 출력됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).