상관관계 및 인과관계

상관관계는 2개 변수 간 관계에 대해 검정됩니다. 그러나 2개 변수가 함께 움직인다고 해서 한 변수로 인해 다른 변수가 발생하는지 여부를 알고 있다는 의미는 아닙니다. 이런 이유로 우리는 보통 "상관관계가 인과관계를 의미하지는 않는다"고 말합니다.

강력한 상관관계가 인과관계를 나타낼 수 있지만 쉽게 다른 설명이 있을 수도 있습니다.

  • 변수가 관련된 것으로 보이지만 실제 근본적인 관계가 없는 무작위 기회의 결과일 수 있습니다.
  • 관계를 실제보다 더 강력하게(혹은 약하게) 보이도록 만드는 제3의 잠복 변수가 있을 수 있습니다.

관측 데이터의 경우 상관관계는 인과관계를 확인할 수 없습니다...

변수들 군간의 상관관계는 데이터에 패턴이 있음을 보여줍니다. 즉, 우리가 살펴보는 변수들은 함께 이동하는 경향이 있습니다. 그러나 상관관계만으로는 한 변수로 인해 다른 변수가 발생하기 때문에 데이터가 함께 움직이는지 여부를 알 수 없습니다.

실제로는 전혀 인과관계로 연계되지 않은 2개 변수의 통계적으로 유의미하고 신뢰할 수 있는 상관관계를 찾을 수 있습니다. 실제로는 이러한 상관관계가 일반적입니다! 때때로 이것은 두 변수가 모두 측정 중인 데이터와 함께 동시 발생하는 경향이 있는 서로 다른 인과관계 변수와 관련있기 때문입니다.

예제: 운동 및 피부암

이 내용을 예제에서 살펴보겠습니다. 건강 데이터를 확인하고 있다고 가정합니다. 운동과 피부암 발병 사이에 통계적으로 유의한 양의 상관관계가 관찰됩니다. 즉, 더 많이 운동하는 사람들이 피부암에 걸릴 확률도 더 높은 경향이 있다는 의미입니다. 이 상관관계는 강력하고 신뢰할 수 있는 것 같으며 여러 환자 모집단에서 나타납니다. 추가적으로 탐색할 필요없이 어느 정도 운동으로 인해 암이 발생한다는 결론을 내릴 수 있습니다! 이러한 결과를 바탕으로 다음과 같은 가설을 세울 수도 있습니다. ‘운동으로 인한 스트레스가 신체의 특정 암에 대한 방어 능력을 일부 저하시킬 수 있다.’ 하지만 일반적으로 운동은 암 발병 위험을 줄이는 것으로 알려져 있기 때문에, 이러한 결론과 가설은 의문이 제기됩니다.

아마도 실제로는, 이 상관관계가 나타난 이유는 1년 내내 햇빛이 많이 드는 지역에 사는 사람들이 그렇지 않은 지역에 사는 사람들보다 야외에서 운동할 기회가 많기 때문일 수 있습니다. 이런 경우, 데이터에는 ‘운동량 증가’로 기록되지만, 동시에 일별 일광 노출 증가는 더 많은 피부암 사례가 있음을 의미합니다. 운동량과 피부암 발병률은 서로 직접적인 인과관계가 있는 것이 아니라, ‘햇빛 노출량’이라는 제3의 원인 변수에 의해 모두 영향을 받은 것입니다.

...하지만 잘 설계된 경험적 연구를 통해 인과관계를 설정할 수 있습니다!

인과관계 근거를 제공하는 항목과 제공하지 않는 항목을 구분하는 것은 데이터 활용 능력의 주요 부분입니다. 현실 세계에서는 인과관계를 완벽하게 확인할 수 없습니다. 그러나 여러 변수를 사용한 랜덤화, 대조 실험 및 예측 모델과 같이 인과관계에 대한 근거를 찾기 위한 다양한 실험, 통계 및 연구 설계 기법이 있습니다. 상관분석의 본질적인 한계(예: 상관분석은 두 변수 간의 관계만 측정하기 때문에, 제3의 변수와의 잠재적인 관계를 반영할 수 없음)를 넘어, 인과관계에 대한 근거는 일반적으로 관찰 자료가 아닌 세심하게 설계된 실험에서 나온다는 점을 이해하는 것이 중요합니다.

예제: 심장병, 식습관 및 운동

질병 비율, 식습관 및 기타 건강 행동의 대규모 데이터 집합을 살펴보고 있는 건강 연구자라고 다시 가정해 봅니다. 예를 들어, 운동량 증가가 심장질환 발병률 감소와 상관관계가 있다는 음의 상관관계를 발견했다고 가정해봅시다. 이 상관관계는 크고, 신뢰할 수 있는 것으로 나타났습니다. 분명히 이것은 인과관계의 단서를 제공합니다. 그렇죠?

이 건강 데이터의 경우 상관관계는 근본적인 인과관계를 제시할 수 있지만, 추가 작업 없이는 인과관계를 설정하지 않습니다. 이후 다음 단계로, 신체 활동이 심장과 순환계에 어떤 영향을 미치는지 조사하는 생물학적 연구를 수행한다고 가정해봅시다. 이 연구에서 운동량 증가가 혈압을 낮추는 생리학적 기전을 발견할 수 있습니다. 예를 들어, 운동이 산화질소(nitric oxide) 생성을 증가시켜 혈관이 확장되고, 그 결과 혈압이 낮아진다는 것입니다. 혈압이 낮아지면 심혈관질환뿐 아니라 다른 건강 위험 요인도 줄어듭니다. 이후 우리는 무작위 대조 실험을 설계하여, 신체 활동이 산화질소 수치에 미치는 영향을 연구하고, 그 둘 사이에 인과관계가 존재함을 확인할 수 있습니다.

이 예시에서 주목해야 할 점은, 인과적 증거가 상관관계 검정 자체에서 나온 것이 아니라는 것입니다. 상관관계 검정은 단순히 관찰 데이터(심장질환 발병률과 보고된 운동량)에서 변수 간의 관계를 정량화했을 뿐입니다. 대신, 우리는 통제된 실험을 통해 신체 활동이 산화질소(nitric oxide) 수치 변화를 유발할 수 있다는 증거를 찾았습니다.

그러면 인과관계는 어떻게 검토하나요? 적합한 조사를 사용합니다!

인과관계를 이해하는 것은 어려운 문제입니다. 현실 세계에서는 변수들 간의 모든 가능한 관계를 파악할 수 있을 만큼 충분한 데이터에 접근하는 것이 불가능합니다. 하지만 서로 다른 변수 간에 메커니즘을 격리하고 탐색하는 데 도움이 되는 몇 가지 주요 전략이 있습니다. 예를 들어 대조 실험에서는 2개 그룹을 신중하게 대조하고 무작위로 처리 또는 해결책을 그룹 중 하나에만 적용해 볼 수 있습니다. 따라서 실험 설계에서 무작위화(randomization)의 원칙이 핵심이 되는데, 이는 우리가 연구 중인 변수들과 동시에 발생하는 측정되지 않은 인과 변수를 걱정하지 않고, 한 변수가 다른 변수에 미치는 직접적인 효과를 추론할 수 있게 해주기 때문입니다.

물론, 통제된 실험을 수행하는 것이 항상 현실적이거나 가능하지는 않습니다. 그렇지만 앞서 언급한 운동과 피부암 발병률 간의 겉보기에 존재하는 관계 예시로 돌아가 봅시다. 인과관계를 추론하려면 어떤 데이터가 필요할까요? 전 세계에 분산된 대규모 사람 표본을 선택하고 수십 년 동안 매주 다른 수준으로 실내 운동을 시행하도록 무작위로 할당할 수 있다고 가정해 보겠습니다. 그 기간이 End되면 각 운동 그룹의 피부암 발병률을 기록합니다. 결국 운동과 피부암 간에 관계를 검정하도록 실험적으로 설계된 데이터 집합이 생성됩니다! 실험에서 무작위 할당을 통해 운동을 직접 조작했기 때문에 데이터 집합은 이 2개 그룹 간에 서로 다를 수 있는 다른 변수에 조직적으로 관련되지 않습니다(연구의 다른 모든 측면이 유효하다고 가정). 즉, 이 경우 데이터는 타당한 실험 설계를 통해 도출되었으므로 운동과 피부암 간의 상관관계(양수 또는 음수!)는 인과관계의 유의미한 근거가 됩니다.