相関と因果関係

相関は、2つの変数間の関係を定量化します。ただし、2つの変数が一緒に変動していることが確認されても、必ずしも1つの変数がもう1つの変数の原因であるかがわかるわけではありません。このことから「相関は因果関係を意味しない」とよく言われます。

強い相関は因果関係を示す 場合があり ますが、次のような他の説明も簡単につきそうです。

  • これは、変数が関連しているように見える単なる偶然の結果である可能性がありますが、根本的な関係はありません。
  • 関係を実際よりも強く(または弱く)見えるようにしている3つ目の潜在的な変数がある可能性があります。

観測データでは、相関から因果関係を確認することはできません...

変数間の相関は、データにパターンがあることを示しています。つまり、対象の変数同士は一緒に変動する傾向があります。ただし、相関関係だけでは、1つの変数が他の変数の原因となってデータが一緒に変動しているかどうかはわかりません。

実際には因果関係による結びつきがまったくない2つの変数について、統計的に有意で信頼性のある相関が確認されることがあります。実際、こうした相関は普通にあります。多くの場合、これは両方の変数が別の原因変数に関連しているためです。この原因変数は測定しているデータと同時に出現する傾向があります。

例: 運動と皮膚がん

例を挙げて考えてみましょう。健康データを調査しているとします。運動と皮膚がんの症例との間に、統計的に有意な正の相関が見られます。つまり、運動をする人は、より高い割合で皮膚がんを患う傾向があります。この相関関係は強く信頼性があるように思えます。複数の患者集団にわたって現れています。詳しく調査するまでもなく、運動が何らかの理由でがんを発生させると結論付けるかもしれません。これらの調査結果に基づいて、運動によるストレスが原因で、体がこれらの種類のがんから身を守る能力を失うのではないかという仮説を立てることもできます。しかし、運動は一般的にがんのリスクを低下させると考えられているため、その結論や仮説には疑問があります。

おそらく実際には、この相関関係は、一年中日光の多い地域に住んでいる人は、そうでない地域に住んでいる人よりも屋外でのレクリエーションの機会が多いからかもしれません。この状況は、運動量の増加としてデータ上に現れます。同時に、日光への露出が増えることは、皮膚がんの症例が増えることを意味します。運動率および皮膚がん率の両方の変数は、日射量という第3の原因変数の影響を受けますが、互いの間には因果関係はありません。

...しかし、適切に設計された実証的研究によって因果関係を明らかにすることができます

因果関係の証拠を表すものとそうでないものを区別することは、データリテラシーの重要な要素です。因果関係の特定は、現実の世界では決して完璧に行えるものではありません。しかしながら、因果関係に関する証拠を見つけるためのさまざまな実験的、統計的、研究デザイン手法があります。たとえば、ランダム化、対照実験、複数の変数を持つ予測モデルなどです。相関検定の本質的な限界(例えば、相関は変数ペア間の関係を測定するものであるため、第3の変数との潜在的な関係性を説明できない)を超えて、因果関係の証拠は通常、観察データからではなく、慎重な実験デザインから得られることを理解することが重要です。

例: 心疾患、食事と運動

再び、健康について調査しているとします。今回は、病気の発生率、食事、その他の健康行動に関する大規模なデータセットを調べています。仮に、運動量の増加が心疾患の発生率の低下と相関していることがわかったとします(負の相関)。この相関は大きく、再現性をもって確認できます。確かにこれは因果関係の手がかりを提供していますね。

これらの健康データの場合、相関関係は根本的な因果関係を示唆している可能性がありますが、詳細な調査を行わないと確証を得られません。この相関関係を見つけた後、次のステップとして、運動が心臓と循環器系にどのように影響するかを調査する生物学的研究を行うことを想像してください。運動によって血圧が下がる生理的なメカニズムが見つかるかもしれません。運動によって一酸化窒素の生成が増え、血管が拡張します。血圧が下がることで、心血管疾患を含むその他の健康リスクが減少します。次に、ランダム化された対照実験を設計し、運動が一酸化窒素の量に与える影響を研究し、両者の間に因果関係があることを確認できるかもしれません。

この例では、相関検定自体によって因果関係の証拠が提供されたわけではないことに注目してください。相関検定は、観察データ(心臓病の発生率と報告された運動量)から変数間の関係を単に定量化しただけです。代わりに、対照実験を用いて、運動が一酸化窒素の量に変化を引き起こすという証拠を見つけました。

では、どのようにして因果関係を探るのでしょうか?それは、正しい調査によってです

因果関係を把握することは難しい問題です。現実の世界では、変数間のすべての可能な関係を把握するために必要なデータすべてにアクセスできるわけではありません。しかし、異なる変数間のメカニズムを分離して調査するのに役立つ主要な戦略がいくつかあります。たとえば、対照実験では、2つのグループを慎重に対応させ、一方のグループのみにランダムに治療または介入を行うことができます。ランダム化の原則は、実験計画において重要です。ランダム化により、研究対象の変数と同時に現れる可能性のある群に測定されていない原因変数を心配することなく、ある変数が別の変数に及ぼす直接的な影響について推測することができるからです。

対照実験を実行することは必ずしも現実的ではなく、実施できないこともあります。しかし、運動と皮膚がんの発生率の見かけ上の関係を説明した最初の例に戻りましょう。因果関係を推定するには、どのような種類のデータが必要でしょうか?グローバルに分布した大規模な人々の標本を何らかの方法で集め、異なるレベルの屋内運動をランダムに割り当て、数十年間、毎週運動を行わせるとします。その期間の終わりに、運動グループごとの皮膚がん発生率を記録します。最終的には、運動と皮膚がんの関係を検証するために実験的に計画されたデータセットが得られます。運動はランダム割り当てにより実験で直接操作されているため、これら2つのグループ間で異なる可能性のある他の変数には体系的に関連しません(調査の他のすべての条件が妥当な場合)。つまりこの場合、データは適切に設計された実験から得られたものであるため、運動と皮膚がんの相関(正または負)は因果関係を示す意味のある証拠となります