상관 계수

상관 계수란 무엇인가요?

상관 계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 측도입니다. 계수는 상관관계 보고서에서 r로 기호화합니다.

상관 계수는 어떻게 사용되나요?

변수 2개에 관한 공식은 변수 평균으로부터 각 데이터 점의 거리를 비교하고 이 값을 사용하여 변수 간 관계가 데이터를 통해 그려진 가상선에 얼마나 밀접하게 적합할 수 있는지 알려 줍니다. 상관관계가 선형 관계를 고려한다는 것이 바로 이것입니다.

고려해야 할 제한 사항은 무엇이 있나요?

상관관계는 가까운 변수 2개만 고려하며 이변량 데이터 이외의 관계를 파악하지 않습니다. 이 검정은 데이터에서 이상치를 감지하지 않으므로 이상치에 의해 왜곡될 수 있어 곡선 관계를 제대로 감지할 수 없습니다.

상관 계수의 변형

이 섹션에서는 피어슨 적률 상관관계(Pearson product-moment correlation)를 살펴봅니다. 이는 실제로 사용되는 가장 일반적인 유형의 상관관계 측도 중 하나입니다. 이와 밀접하게 관련된 변형 중 하나는 스피어만 상관관계(Spearman correlation)로, 사용법은 비슷하지만 순위화된 데이터에 적용할 수 있습니다.

상관 계수 값은 무엇을 의미하나요?

상관 계수 r은 -1과 1 사이의, 단위가 없는 값입니다. 통계 유의성은 p-값으로 표기합니다. 따라서 상관관계는 보통 2개의 핵심 숫자인 r = 과 p = 로 표현합니다.

  • r이 0에 근접할수록 선형 관계가 약해집니다.
  • 양수 r 값은 양의 상관관계를 나타냅니다. 여기서 두 변수 값은 함께 증가하는 경향이 있습니다.
  • 음수 r 값은 음의 상관관계를 나타냅니다. 여기서 다른 변수 값이 감소할 때 한 변수 값은 증가하는 경향이 있습니다.
  • 값 1 및 -1은 둘 다 각각 양의 상관관계 및 음의 상관관계인 "완벽한" 상관관계를 나타냅니다. 2개의 완벽한 상관관계 변수는 고정 비율로 함께 변경됩니다. 해당 변수는 선형 관계를 가집니다. 산점도에 그릴 때 모든 데이터 포인터는 직선으로 연결될 수 있습니다.
  • p 값을 사용하여 표본에서 관측한 것을 기반으로 모집단 상관 계수가 0과 다르다는 유의미한 결론을 내릴 수 있는지 여부를 결정할 수 있습니다.

p-값이란 무엇인가요?

p-값은 가설 검정에 사용되는 확률 측도입니다. 가설 검정의 목표는 데이터에 관한 특정 가설을 지지할 충분한 근거가 있는지 확인하는 것입니다. 실제로 2개의 가설인 귀무가설대립가설을 공식화합니다. 상관관계 분석의 경우 귀무가설은 일반적으로 변수 간에 관측된 관계가 우연의 결과라는 것입니다. (즉, 상관 계수는 실제로 0이며 선형 관계가 없습니다.) 대립가설은 측정한 상관관계가 데이터에 타당하게 존재한다는 것입니다. (즉, 상관 계수가 0과 다릅니다.)

p-값은 실제로 귀무가설이 참인 경우 표본 데이터에서 0이 아닌 상관 계수를 관측하는 확률입니다. p-값이 낮으면 귀무가설이 기각됩니다. 귀무가설의 일반적인 기각 임계치는 p-값 0.05입니다. 즉, p-값이 0.05보다 작으면 대립가설에 대한 귀무가설을 기각하며, 상관 계수가 0과 다릅니다.

 

실제로 상관 계수를 계산하려면 어떻게 해야 하나요?

표본 상관 계수는 다음의 계산식으로 나타낼 수 있습니다.

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

주석이 달린 계산식 보기

연산을 쉽게 이해하도록 작은 간단한 숫자 집합이 포함된 예제를 사용하여 상관 계수를 계산하는 방법을 단계별로 실행해 보겠습니다.

날씨가 더울수록 아이스크림 매출이 증가할 것으로 예상할 수 있는지 여부를 알아보려는 경우를 살펴보겠습니다. 아이스크림 가게는 봄에 영업을 시작하며, 사람들은 실외 온도가 높은 날에 더 많은 아이스크림을 구매할 것입니다. 반면, 어떤 사람은 단순히 아이스크림을 너무 좋아해서 지속적으로 아이스크림을 구매할 수도 있습니다.

먼저 일별 평균 아이스크림 매출과 일일 최고 온도에 대한 데이터를 수집하여 이 질문에 응답해 보겠습니다. 아이스크림 매출 및 온도는 상관 계수를 계산하는 데 사용할 2개의 변수가 되겠습니다. 각 관측치(또는 매출 및 온도를 둘 다 측정한 시점)에는 데이터를 설명하는 데 사용할 수 있는 두 가지 정보가 있으므로 이와 같은 데이터를 이변량 데이터라고 하기도 합니다. 다시 말해서, 아이스크림 매출과 온도가 관련성이 있는지를 알아보는 것입니다.

이전과 같이 처음 살펴볼 유용한 방법은 산점도를 사용하는 것입니다.

각 데이터 점의 계수 계산을 이해하는 데 도움이 되도록 간편하게 테이블에서 해당 데이터를 살펴볼 수도 있습니다. 이변량 데이터에 대해 이야기할 때, 일반적으로 한 변수를 X라고 하고 다른 변수를 Y라고 합니다. (해당 변수를 통해 도표의 축과 같은 시각적 평면에서 방향을 파악할 수 있습니다.) 아이스크림 매출을 X라고 하고 온도를 Y라고 하겠습니다.

각 데이터 점은 쌍을 이룹니다. 실제로 개별 시점을 확인하고 있으며 각 시간에는 매출 및 온도의 값이 둘 다 있다는 점을 기억해야 합니다.

아이스크림 매출(X)온도 °F(Y)
370
675
980

 

1. 먼저 표본 평균 찾기

이제 데이터를 살펴보았으므로, 위의 계산식에서 두 가지 중요한 하위 계산인 표본 평균 및 각 데이터 점과 이 평균 간 차이를 알아보겠습니다(이 단계에서는 표준 편차의 초기 구성 요소를 확인할 수도 있음).

표본 평균은 기호 (“X Bar” 및 “y Bar”라고도 함)로 표현됩니다. 아이스크림 매출() 및 온도()의 평균은 다음과 같이 쉽게 계산됩니다.

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. 해당 평균부터 각 데이터 점의 거리 계산

2개 변수 각각의 평균을 계산했고, 다음 단계에서는 각 매출 데이터 점에서 아이스크림 매출의 평균(6)을 빼고(계산식의 xi), 각 온도 데이터 점에서 온도의 평균(75)을 뺍니다(계산식의 yi). 경우에 따라 이 연산에서는 음수나 0이 도출될 수도 있습니다!

아이스크림 (X)온도 °F (Y)$x_i-\overline{x}$$y_i-\overline{y}$
$3$$70$$3 - 6 = -3$$70 - 75 = -5$
$6$$75$$6 - 6 = 0$$75 - 75 = 0$
$9$$80$$9 - 6 = 3$$80 - 75 = 5$

 

3. 계수 방정식의 위쪽 완료

방정식의 이 부분을 곱의 합이라고 합니다. 곱은 곱한 후에 얻는 숫자이므로, 이 계산식은 말 그대로 곱하는 숫자의 합계입니다.

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

위 테이블에 있는 마지막 2개 열의 각 행에서 쌍을 이룬 값을 선택하여 곱하고(2개 음수를 곱하면 양수가 생성됨) 해당 결과를 합합니다.

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

이해:

곱의 합은 산점도와 어떤 관련성이 있습니까?


곱의 합 계산과 산점도에서 데이터 점의 위치는 본질적으로 연관되어 있습니다.

이 데이터에서 곱의 합은 양수입니다. 분모—제곱근—는 항상 양수이므로 곱의 합(상관 계수 방정식의 분자)이 양수이면 상관 계수 r은 양수입니다. 한 변수에서 증가하는 양의 상관관계 평균은 다른 변수의 증가와 연결되며(예: 아이스크림 매출 및 온도 예제), 산점도에서 데이터 점은 왼쪽에서 오른쪽으로 비스듬히 상승합니다. 하지만 곱의 합이 이것을 어떻게 파악하나요?

  • 곱의 합에 대한 양수 값을 구하는 유일한 방법은 합계 중인 곱이 양수인 경향이 있는 경우입니다.
  • 각 곱에 대한 양수 값을 구하는 유일한 방법은 두 값이 모두 음수이거나 두 값이 모두 양수인 경우입니다.
  • 2개 음수 값의 쌍을 구하는 유일한 방법은 두 값이 모두 해당 평균 미만인 경우이며(산점도의 왼쪽 아래에 있음), 2개 양수의 쌍을 구하는 유일한 방법은 두 값이 모두 해당 평균을 초과하는 경우입니다(산점도의 오른쪽 위에 있음).

따라서 곱의 합은 데이터가 산점도의 왼쪽 아래 및 오른쪽 위에 나타나는 경향이 있는지(양의 상관관계) 또는 데이터가 산점도의 왼쪽 위 및 오른쪽 아래에 나타나는 경향이 있는지(음의 상관관계) 여부를 알려 줍니다.

 

4. 계수 방정식의 아래쪽 완료

상관 계수 방정식의 분모는 다음과 같이 표시됩니다.

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

이 방정식에서 표현식을 개별적으로 다루고 아이스크림 매출 예제의 수치를 잠시 살펴보겠습니다.

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

2개 표현식의 결과를 함께 곱하면 다음을 구할 수 있습니다.

$$ 18\times50\ =\ 900 $$

이렇게 하면 방정식의 아래쪽이 다음으로 변경됩니다.

$$ \sqrt{900}=30 $$

 

5. 계산 완료 및 산점도와 결과 비교

전체 상관 계수 방정식을 여기서 다시 보여드리겠습니다.

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

위에서 계산한 분자 및 분모의 숫자를 살펴보겠습니다.

$$ r=\frac{30}{30}=1 $$

아이스크림 매출과 더운 여름날 간의 완벽한 상관관계입니다! 물론 실제 세계에서는 완벽한 상관관계를 찾을 가능성이 희박합니다. 실제 데이터를 사용해 왔다면 해당 결과를 구하려면 뭔가를 잘못했다고 가정했을 것입니다.

예제에 있는 단순화된 데이터에서 생성된 이 결과는 단순히 데이터 점을 확인하면 직관적으로 이해할 수 있습니다. 다시 산점도를 살펴보겠습니다.

이제 해당 산점도를 통해 선을 그린다고 가정해 보겠습니다. 선이 완벽한 선형 적합처럼 보일까요?

그림은 1,000여개의 상관 계수 값을 가질 수 있습니다.

산점도 및 기타 데이터 시각화는 가설 검정을 수행하기 전만이 아니라 통계 프로세스 전반에서 유용한 도구입니다.

실제로 상관 계수에만 의존하면, 특히 곡선 관계나 극단적 이상치가 있는 상황에서는 결과가 잘못될 수 있습니다. 아래 산점도에서 0 또는 0에 가까운 상관 계수는 반드시 변수 간에 관계가 없음을 의미하지는 않으며, 단순히 선형 관계가 없음을 의미합니다.

마찬가지로 산점도를 확인하면 이상치(데이터의 비정상적인 관측치)로 인해 상관 계수가 어떻게 왜곡될 수 있는지에 대해 알 수 있습니다. 극단적 이상치가 있는 예제를 살펴보겠습니다. 상관 계수는 X와 Y 간에 비교적 강한 양의 관계가 있음을 나타냅니다. 하지만 이상치가 제거되면 상관 계수는 0에 가깝습니다.