다변량 방법 > 판별 분석 > 판별 플랫폼에 대한 통계 상세 정보 > 저장된 계산식에 대한 통계 상세 정보
발행일 : 03/10/2025

저장된 계산식에 대한 통계 상세 정보

이 섹션에서는 "판별 분석"의 빨간색 삼각형 메뉴에 있는 스코어 옵션 > 계산식 저장을 사용하여 저장된 계산식의 파생을 보여 줍니다. 계산식은 판별 방법에 따라 달라집니다.

범주형 변수 X에 의해 정의된 각 그룹에 대해 공변량의 관측값은 p 차원 다변량 정규 분포를 따른다고 가정됩니다. 여기서 p는 공변량 수입니다. 계산식에 사용되는 표기는 Table 5.2에 나와 있습니다.

표 5.2 계산식 저장 옵션을 통해 제공된 계산식의 표기

p

공변량 수

T

총 그룹 수(X 수준)

t = 1,..., T

X에 의해 정의된 그룹을 구별하기 위한 첨자

nt

그룹 t의 관측값 수

n = n1 + n2 + ... + nT

총 관측값 수

y

관측값에 대한 p x 1 공변량 벡터

Equation shown here

p개 공변량의 벡터로 구성된 그룹 ti번째 관측값

Equation shown here

그룹 t의 관측값에 대한 p x 1 공변량 벡터 y의 평균

ybar

모든 관측값에 대한 p x 1 공변량 벡터의 평균

Equation shown here

그룹 t에 대해 추정된 (p x p) 그룹 내 공분산 행렬

Equation shown here

추정된 (p x p) 합동 그룹 내 공분산 행렬

qt

그룹 t에 속할 사전 확률

p(t|y)

y가 그룹 t에 속할 사후 확률

|A|

행렬 A의 행렬식

선형 판별 방법

선형 판별 분석에서는 그룹 내 공분산 행렬이 모두 같다고 가정합니다. 공통 공분산 행렬은 Sp로 추정됩니다. 표기는 Table 5.2에서 확인하십시오.

관측값 y에서 그룹 t까지의 Mahalanobis 거리는 다음과 같이 정의됩니다.

Equation shown here

그룹 t에서 관측값 y의 가능도는 다음과 같이 추정됩니다.

Equation shown here

합동 공분산 행렬에 대해 추정해야 할 모수의 수는 p(p+1)/2이고 평균에 대해서는 Tp입니다. 추정해야 할 모수의 총 수는 p(p+1)/2 + Tp입니다.

그룹 t에 소속될 사후 확률은 다음과 같이 정의됩니다.

Equation shown here

관측값 y는 사후 확률이 가장 큰 그룹에 할당됩니다.

선형 판별 방법에 의해 저장되는 계산식은 다음과 같이 정의됩니다.

SqDist[0]

Equation shown here

SqDist[<group t>]

Equation shown here

Prob[<group t>]

Equation shown here

Pred <X>

p(t|y)가 최대값이 되는 t(t = 1, ..., T)

2차 판별 방법

2차 판별 분석에서는 그룹 내 공분산 행렬이 같다고 가정되지 않습니다. 그룹 t에 대한 그룹 내 공분산 행렬은 St로 추정됩니다. 따라서 그룹 내 공분산 행렬에 대해 추정해야 할 모수의 수는 Tp(p+1)/2이고 평균에 대해서는 Tp입니다. 추정해야 할 모수의 총 수는 Tp(p+3)/2입니다.

그룹 표본 크기가 p에 비해 작으면 그룹 내 공분산 행렬의 추정값이 크게 변동되는 경향이 있습니다. 판별 스코어는 그룹 내 공분산 행렬에 대한 역행렬의 가장 작은 고유값에 크게 영향을 받습니다. 자세한 내용은 Friedman(1989) 연구 자료에서 확인하십시오. 따라서 그룹 표본 크기가 p에 비해 작은 경우 정규화 판별 방법에 설명된 정규화 방법을 고려할 수도 있습니다.

표기는 Table 5.2에서 확인하십시오. 관측값 y에서 그룹 t까지의 Mahalanobis 거리는 다음과 같이 정의됩니다.

Equation shown here

그룹 t에서 관측값 y의 가능도는 다음과 같이 추정됩니다.

Equation shown here

그룹 t에 소속될 사후 확률은 다음과 같습니다.

Equation shown here

관측값 y는 사후 확률이 가장 큰 그룹에 할당됩니다.

2차 판별 방법에 의해 저장되는 계산식은 다음과 같이 정의됩니다.

SqDist[<group t>]

Equation shown here

Prob[<group t>]

Equation shown here

Pred <X>

p(t|y)가 최대값이 되는 t(t = 1, ..., T)

참고: SqDist[<group t>]는 음수일 수 있습니다.

정규화 판별 방법

정규화 판별 분석에서는 lg라는 두 모수를 사용할 수 있습니다.

l 모수는 동일하다고 가정되지 않는 합동 공분산 행렬과 그룹 내 공분산 행렬에 할당된 가중치의 균형을 맞춥니다.

g 모수는 대각 행렬에 가깝게 축소할 크기를 결정합니다.

이 방법을 사용하면 정규화의 두 가지 측면을 활용하여 2차 판별 분석의 추정값에 안정성을 부여할 수 있습니다. 자세한 내용은 Friedman(1989) 연구 자료에서 확인하십시오. 표기는 Table 5.2에서 확인하십시오.

정규화 방법의 경우 그룹 t에 대한 공분산 행렬은 다음과 같습니다.

Equation shown here

관측값 y에서 그룹 t까지의 Mahalanobis 거리는 다음과 같이 정의됩니다.

Equation shown here

그룹 t에서 관측값 y의 가능도는 다음과 같이 추정됩니다.

Equation shown here

그룹 t에 소속될 사후 확률은 다음과 같이 지정됩니다.

Equation shown here

관측값 y는 사후 확률이 가장 큰 그룹에 할당됩니다.

정규화 판별 방법에 의해 저장되는 계산식은 아래와 같이 정의됩니다.

SqDist[<group t>]

Equation shown here

Prob[<group t>]

Equation shown here

Pred <X>

p(t|y)가 최대값이 되는 t(t = 1, ..., T)

참고: SqDist[<group t>]는 음수일 수 있습니다.

와이드 선형 판별 방법

와이드 선형 방법은 공변량 수가 많은 경우, 특히 공변량 수가 관측값 수를 초과(p > n)하는 경우에 유용합니다. 이 방법은 합동 그룹 내 공분산 행렬 Sp의 역행렬 또는 전치를 효율적으로 계산하는 것에 중점을 둡니다(p > n인 경우). 여기에서는 큰 공분산 행렬에 대한 공간 할당 및 역행렬 계산이 발생하지 않도록 특이값 분해를 사용합니다.

와이드 선형 방법은 그룹 내 공분산 행렬이 같다고 가정하며, 관측값 수가 공변량 수와 같거나 이를 초과하는 경우 선형 방법과 동일합니다.

와이드 선형 계산

표기는 Table 5.2에서 확인하십시오. 다음 단계를 사용하여 와이드 선형 계산을 수행합니다.

1. 그룹 내 표본 평균의 T x p 행렬 M을 계산합니다. M의 (t,j)번째 항목인 mtjj번째 공변량에 대한 그룹 t 멤버의 표본 평균입니다.

2. 각 공변량 j에 대해 그룹 전체의 합동 표준편차를 계산합니다. 이를 sjj라고 합니다.

3. 대각 항목 sjj가 있는 대각 행렬을 Sdiag로 나타냅니다.

4. 각 공변량에 대한 값을 다음과 같이 중심화 및 척도화합니다.

관측값이 속한 그룹의 평균을 뺍니다.

차이를 합동 표준편차로 나눕니다.

그룹 t의 관측값 i에 대해 j번째 공변량의 그룹 중심화 및 척도화된 값은 다음과 같이 표기합니다.

Equation shown here

t(i) 표기는 관측값 i가 속한 그룹 t를 나타냅니다.

5. Equation shown here 값 행렬을 Ys로 나타냅니다.

6. 그룹 중심화 및 척도화된 공변량의 합동 그룹 내 공분산 행렬을 R로 나타냅니다. R 행렬은 다음과 같이 지정됩니다.

Equation shown here

7. Ys에 특이값 분해를 적용합니다.

Equation shown here

여기서 UV는 직교정규이며 D는 대각선에 양수 항목(특이값)이 있는 대각 행렬입니다. 자세한 내용은 특이값 분해에서 확인하십시오.

그러면 R을 다음과 같이 쓸 수 있습니다.

Equation shown here

8. R이 완전 계수인 경우 R-1/2은 다음과 같습니다.

Equation shown here

여기서 D-1은 대각 항목이 D의 대각 항목에 대한 역행렬인 대각 행렬입니다.

R이 완전 계수가 아닌 경우 R에 대한 유사역행렬을 다음과 같이 정의합니다.

Equation shown here

그러면 R의 역제곱근을 다음과 같이 정의합니다.

Equation shown here

9. R이 완전 계수이면 R- = R-1이 됩니다. 따라서 완비성을 위해 유사역행렬을 사용하여 계속합니다.

p x p 행렬 Ts를 다음과 같이 정의합니다.

Equation shown here

그러면 다음과 같이 구성할 수 있습니다.

Equation shown here

여기서 S-p는 원래 데이터에 대해 SVD를 사용하여 계산된 합동 그룹 내 공분산 행렬의 일반화 역행렬입니다.

Mahalanobis 거리

Mahalanobis 거리, 가능도 및 사후 확률에 대한 계산식은 선형 판별 방법의 계산식과 동일합니다. 그러나 Sp의 역행렬은 특이값 분해를 사용하여 계산된 일반화 역행렬로 대체됩니다.

계산식을 저장하면 분해 형식으로 Mahalanobis 거리가 제공됩니다. 관측값 y에 대해 그룹 t까지의 제곱 거리는 다음과 같습니다. 여기서 마지막 등식의 SqDist[0] 및 판별 주성분저장된 계산식에 정의되어 있습니다.

Equation shown here

저장된 계산식

다음은 와이드 선형 판별 방법에 의해 저장되는 계산식입니다.

판별 데이터 행렬

공변량에 대한 관측값 벡터

판별 주성분

데이터를 그룹 내에서 상관관계가 없도록 렌더링하는 주성분 스코어링 행렬에 의해 변환된 데이터입니다. Equation shown here로 지정되며, 여기서 Equation shown here는 전체 평균을 포함하는 p x 1 벡터입니다.

SqDist[0]

Equation shown here

SqDist[<group t>]

관측값에서 그룹 중심까지의 Mahalanobis 거리입니다. 자세한 내용은 Mahalanobis 거리에서 확인하십시오.

Prob[<group t>]

Equation shown here(선형 판별 방법에 제공됨)

Pred <X>

p(t|y)가 최대값이 되는 t(t = 1, ..., T)

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).