「Lipid Data.jmp」データテーブルは、カリフォルニア州の、ある病院で収集された、95人の患者に関する血液測定値・身体測定値・質問票データです。この例では、モデルの検証に用いることができる検証列を作成してみます。
1.
[ヘルプ]>[サンプルデータライブラリ]を選択し、「Lipid Data.jmp」を開きます。
3.
「性別」に[Y, 列]を割り当てます。[OK]をクリックします。
図2.13 「Lipid Data.jmp」での「性別」の分布
Distribution of Gender in Lipid Data.jmp
図2.13 は、データ内の「性別」の分布を示しています。被験者の男性と女性の割合は同じではないことに注目してください。女性のデータのほうが少ないので、検証セットと学習セット全体では性別のバランスをとる必要があります。
5.
[層化無作為抽出]をクリックします。
7.
[OK]をクリックします。
9.
「検証」を[Y, 目的変数]に、「性別」を[X, 説明変数]に割り当てます。
10.
[OK]をクリックします。
図2.14 検証セットと学習セットにおける性別の分布
Distribution of Gender across Validation and Training Sets
図2.14 は、検証セットと学習セットにおける「性別」の分布を示しています。男性と女性それぞれの約75%が学習セットに、男性と女性それぞれの約25%が検証セットに含まれていることがわかります。