「欠測値を調べる」プラットフォームでは、欠測値を調べる、いくつかの方法が用意されています。また、多変量の欠測値補完を行う手法もあります。このプラットフォームで行われる欠測値補完は、ランダムな欠測(MAR; Missing At Random)を前提としています。「ランダムな欠測(MAR)」とは、「データが欠測値となるか否かは、データが観測されている部分(非欠測データ)だけによって決められ、欠測値となっている部分の値によっては影響されていない」という状態です。ランダムな欠測(MAR)ではないと思われる場合は、多くのプラットフォームに備わっている[欠測値をカテゴリとして扱う]オプションの使用などを検討してください。『基本的な回帰モデル』の「欠測値をカテゴリとして扱う」を参照してください。
欠測値は、統計分析の結果に影響する場合があります。たとえば、もし寿命の調査において、多くの健康な人々のデータが欠測していると、それらを考慮せずに分析した結果は、寿命を短く見積もってしまう方向にバイアス(偏り)がかかります。統計分析を行う前には、欠測値があるかどうかだけではなく、どのような欠測が生じているかを理解しておかなければなりません。
注意: 欠測値を補完した後にデータを分析するときには注意が必要です。補完によってバイアスが生じる可能性があるからです。元のデータテーブルのコピーを作成しておくか、補完された値を含むデータを新しいファイルに保存することをお勧めします。
図22.1 「欠測値を調べる」プラットフォームの例