実験データを使って交配をシミュレートするには、[分析]>[遺伝学]>[マーカーのシミュレーション]を選択して、「マーカーのシミュレーション」プラットフォームを起動します。
図4.3 「マーカーのシミュレーション」起動ウィンドウ
マーカー
分析対象のマーカーを指定するには、該当するマーカー列を選択し、[マーカー]をクリックします。
予測式
予測式を含む列を指定します。この予測式は、履歴データをもとに、マーカーから形質を予測する計算式です。「マーカーのシミュレーション」を行う前に、「モデルのあてはめ」・「応答のスクリーニング」・「XGBoost」などのプラットフォームでモデルをあてはめて、ここで指定する予測式を予め作成しておいてください。この予測式は、マーカーに基づいて形質を予測するのに使われます。詳細については、「Generating Predictor Formulas for Marker Simulation」を参照してください。
メモ: ある形質のシミュレーションを行うには、それに対応する予測式の列を用意してください。
交配
交配における両親を区別するための列を指定します。たとえば、「性別」を指定すると、性別が異なる親(男性/女性や雄/雌)のみが交配されます。
サンプル ID
単独で、または組み合わせることで各行を一意に識別できるような値を持つ変数を指定します。
By
By変数を指定すると、その変数の水準ごとに個別のレポートが作成されます。複数のBy変数を割り当てた場合は、それらのBy変数の水準の組み合わせごとに個別にレポートが作成されます。
倍数性
調査対象である生物の倍数性(ploidy)を指定できます。メモ: 偶数でなければなりません。
1交配あたり個体数
反復回数を指定します。
世代数
世代数を指定します。
注釈のデータテーブルを使用
別のデータテーブルに含まれている注釈(アノテーション)を参照できます。[OK]をクリックすると、注釈(アノテーション)のデータテーブルの名前と場所を指定するためのウィンドウが開きます。
予測式に含まれるマーカーのみを使用
予測式に使われているマーカーのみでシミュレーションを行う場合は、このボックスをオンにします。通常、予測式を作成する際には、何かしらの変数選択を行って、一部の有意なマーカーだけを含む予測式にすることが多いです。どのマーカーが使用されたかを確認するには、形質の予測式の列を右クリックし、[列情報]を選択します。
多様性指標も計算する
各交配で、子孫の多型情報含有値(polymorphism information content)・観測ヘテロ接合度(heterozygosity)・期待ヘテロ接合度(allelic diversity)・頻度の推定値を計算する場合は、このチェックボックスをオンにします。
欠測マーカーの補完法
データに欠測値があると、シミュレーションを行えません。そのため、欠測データを補完する必要があります。このオプションにおいて、欠測値の補完方法を指定します。
– データの観測度数に基づく多項分布の乱数によって、欠測している遺伝子型を補完したい場合には、[HWE オフ]を選択します。
– Hardy-Weinberg平衡での期待度数に基づく多項分布の乱数によって欠測している遺伝子型を補完したい場合には、[HWE オン]を選択します。
– [ランダム]を選択すると、許容値(0, 1, 2, ..., K(ここで、Kは倍数性における倍数))のいずれかがランダムに割り当てられます。
– ゼロから倍数までの指定された整数によって、欠測している遺伝子型を補完したい場合には、[指定値]を選択します。
補完値
欠測値している遺伝子型を補完するのに用いる整数値を指定します。
潜性ホモ接合・顕性ホモ接合・ヘテロ接合のいずれかで欠測している遺伝子型を補完するには、まず[指定値]を選択し、「補完値」ボックスに0から倍数までの数値を入力します。二倍体生物の場合は、「潜性ホモ接合」には0、「ヘテロ接合」には1、「顕性ホモ結合」には2を入力します。
メモ: このオプションは、「欠測マーカーの補完法」として[指定値]を選択した場合にのみ使用できます。
最良の個体を選択
各世代で指定の形質基準を満たす子孫のみが選択され、その後の交配に使用されます。選択に使用する形質基準を指定しなければなりません。下限・上限・目標値を指定できます。
下限を指定した場合、それ以上の値の形質を持つ子孫が次の世代に使用されます。上限を指定した場合、それ以下の値の形質を持つ子孫が次の世代に使用されます。目標値を指定した場合、それと等しい値の形質を持つ子孫が次の世代に使用されます。
メモ: 形質の値が連続量でない場合は、目標値を指定します。
1つの形質に上限と下限の両方を指定すると、値がその範囲内にある形質を持つ子孫が選択されます。目標値を上限または下限と同時に指定することはできません。
最終的には、指定された基準の、全形質での共通部分が選択されます。たとえば、指定された仕様限界が、L1<=形質1, L2<=形質2<=2, 形質3==T3の場合、「L1<=形質1」かつ「L2<=形質2<=U2」かつ「形質3==T3」である個体だけが選択されます。この基準を満たす子孫が次の世代に使用されます。
子孫の選択基準を指定する方法の詳細については、「Specifying Trait Selection Criteria for Marker Simulation」を参照してください。
メモ: 仕様限界を指定した予測式列が1つもない場合は、このオプションは無視されます。
選択される個体数
形質に関する選択基準を満たした子孫のうち、次回の交配で親として使用するものの数を制限できます。この制限は、すべての各世代に繰り返し適用されます。
選択される交配数
形質に関する選択基準を満たした交配に対し、上限を指定します。前の交配からの子孫には選択基準が適用され、交配数の制限は次の交配で必要に応じて適用されます。この制限は、すべての各世代に繰り返し適用されます。
折れ線グラフ描画の閾値
多世代における交配の折れ線グラフの描画は、コンピュータの負荷が高くなります。グラフの数があまり多いと、処理時間が非常にかかる場合があります。このオプションを使用すると、折れ線グラフに使う交配の数を制限できます。行われた交配の数が限度を超えた場合、それらのグラフは描画されません。
乱数シード値の設定
疑似乱数系列の開始値として、負でない整数を指定します。シード値が異なれば、シミュレーションの結果も異なります。
スレッドを使用しない
このオプションをオンにすると、マルチスレッドを使わないようになります。計算速度を速くしたい場合は、このオプションをオフにしてください。
JMPで処理や統計分析を行うほとんどの場合において、分析対象のデータテーブルが特定のデータ構造で作成されていることを前提としています。JMPでは、縦長形式(tall; トール)と横長形式(wide; ワイド)のデータ構造が区別されます。縦長形式のデータテーブルは、サンプルが列で、分子に関する情報(マーカー・遺伝子・クローン・タンパク質・代謝物など)が行です。一方、横長形式のデータテーブルは、縦長のデータテーブルを転置したもので、サンプルが行、分子に関する情報が列となります。
分析する入力データセットを指定する際には、ソフトウェアに必要な形式を知っておくことが重要です。「マーカーのシミュレーション」プラットフォームでは、分析対象のデータテーブルを横長形式にしておく必要があります。[テーブル]メニューの[転置]オプションを使用すると、縦長形式のデータテーブルを横長形式に、横長形式のデータテーブルを縦長形式に変換できます。
マーカーのデータは、数値で保存しておく必要があります。また、1つのマーカーに対する情報を、1列に保存しておく必要があります。通常、この形式では、2倍体の生物において、頻度の少ない方の(つまりマイナーアレルの方の)ホモ接合を「2」、ヘテロ接合を「1」で表します。そして、頻度の多い方のアレルのホモ接合は「0」で表します。