JMP Background

JMP®による統計、予測モデリング、
データマイニング

統計は、データを収集、記述、および分析してデータのばらつきを定量化し、そこから有益な情報を導き出す学問です。 不確実性が存在するとき、統計を活用することで、問題の解決、機会の発見、さらに結果に基づいた決断が可能になります。 どのような状況でも、統計を効果的に適用すれば、洞察や見込み、また今後の学習や改善につながる手段を得ることができます。

目標がデータの記述、予測、解釈のいずれの場合でも、視覚化とモデリングの相乗効果を利用したJMPの統計的発見の枠組みが、その力を発揮します。 JMPによる処理において、データの形式やサイズは関係ありません。JMPでは、データがメモリ内に収まる限り、ユーザーの統計知識の多少にかかわらず、それらのデータを最大限に利用できます。

JMPには、線形/非線形回帰、探索、次元削減、モデリングに便利な多変量のアプローチ、時系列およびカテゴリカルデータの分析など、豊富な機能が搭載されています。 JMPやJMP Proは、あらゆる場面においてユーザーの統計的ニーズを満たせるように設計されています。徹底的な分析を行いながらも、さまざまな手法や結果がわかりやすく表示されます。 JMPには、分析前の共通のデータの問題に対処するためのモデル化ユーティリティの機能があります。また、JMP Proには煩雑なデータでもより良いモデルを構築できるように、豊富なアルゴリズムが揃っています。

JMPを使えば、モデル化を素早く正確にできるだけではなく、計算式デポ(JMP Proのみ)を使って、異なる方法で構築したモデルを簡単に比較できます。また、新たなケースをスコアリングするためのC、Python、JavaScript、SASのコードを生成することができます。

JMPでは、分析の結果が複雑であるかどうかにかかわらず、視覚的かつ対話的なレポートやプロファイルを通じて、結果を他の人々に伝えることができます。結果を見る側が分析手法を理解している必要はありません。 また、JMPにより作られたモデルの結果は、モバイルまたはデスクトップのWebブラウザで動的に見ることができます。

JMP Proでは、モンテカルロシミュレーションにより、あてはめたモデル(単純なモデルから複雑なモデルまで)で標本サイズおよび検出力の計算を簡単に行うことができます。 これによって、目の前にある疑問を解決するために収集したデータに、どの程度の検出力があるか評価できます。

回帰分析

JMPでは、さまざまな線形回帰のモデルが利用できます。 また、さまざまなスキルを持った実務担当者が簡単に使用できるパワフルな手法が用意されています。

「二変量の関係」を使用すれば、単一の因子と応答との関係を調べ、それをモデル化できます。 JMPは、通常共通点がないとされる一連の統計的アプローチを1つのプラットフォームにまとめてグラフを出力するため、ユーザーは結果を簡単に理解することができます。

「モデルのあてはめ」を使えば、シンプルなものから複雑なものまで、モデルをあてはめることができます。たとえば、固定効果、変量効果の指定や、誤差項の定義が行えます。 効果の要約レポートでは、項目をドラッグ&ドロップすることにより、モデルに与える影響を確認できます。

JMPでは、どのようなモデル構築のアプローチを使用する場合でも、手動による手法と自動化された手法の両方、そして適切な診断統計量を利用できるため、ほとんどのタイプの線形モデルをすばやく構築できます。 また、欠測値を1つのカテゴリとして扱いながらモデルをあてはめることができるため、すべての行の情報を活用できます。 特定の目的に使用できる、あてはめの機能も用意されています。たとえばJMP Proには、混合モデル(反復・空間測定データの分析などに用いられる)や一般化回帰(説明力のあるX変数を識別するのに役立つ、弾性ネットなどの正則化または罰則付きの手法)などの機能が追加されています。 また、JMP Proでは分位点回帰をサポートしています。

JMPでは、候補となるモデルを簡単に比較できます。 複数の応答がある場合でも、プロファイルを使用すればさまざまなあてはめの解釈や結果を比較できます。 また、プロファイルではY変数を最適化するための設定を見つけることができます。モンテカルロシミュレーションを使用すれば、X変数の変動がどのようにY変数に伝わるかを評価できます。

「非線形回帰」プラットフォームを使用すると、非線形の関係をモデル化できます。 非線形モデルは、最小2乗推定またはユーザーが指定した損失関数を使用して推定することができます。 JMPには、バイオアッセイや薬物動態の研究に必要な非線形モデルのライブラリが搭載され、ユーザーが初期値やモデルの計算式を入力する必要はありません。 また、グループ変数がサポートされているため、グラフを使用して被験者間の違いを簡単に調べることができます。 さらに、ユーザーが損失関数を指定できるため柔軟なモデルを作成できます。たとえば、重み付き最小2乗法を使用して、ロバスト回帰をあてはめることもできます。

カテゴリカルデータ

測定された応答がカテゴリデータである場合には、JMPの「カテゴリカル」プラットフォームを使用できます。このプラットフォームでは、応答データや多重応答データの表やチャートの作成、および統計的検定を行うことができます。このようなデータは、試験の結果、不適合や副作用の分類、アンケート調査など、さまざまな場面で扱われます。

カテゴリカルデータは、さまざまな場面で扱われるため、形式も多岐にわたります。 「カテゴリカル」プラットフォームの特徴は、探索や分析の前にデータを加工しなくても、そのまま処理できるという点です。 分析を行うには1つまたは複数の列を使用します。また、「カテゴリカル」レポートには、シェアや度数のチャートがカテゴリ別に表示されます。 これらのチャートをJMPのデータフィルタと共に使用すれば、大規模なアンケートデータを簡単に確認できます。 このレポートには、関連する表やクロス表も表示できます。これらは必要に応じて、閲覧または印刷しやすいように転置した表やチャートを表示することもできます。

また、応答の性質に応じて、以下のような疑問に統計的に答えることができます。

  • 応答のパターンがグループごとに異なっているか。また、カテゴリが時間の経過に伴い変化しているか。
  • それぞれの応答カテゴリで、比率がグループ間で同じか。
  • 判定者間にどの程度の一致性が見られるか。
  • 異なる治療における相対リスクはどの程度か。

ディシジョンツリー

JMPの「パーティション」プラットフォームを使用すると、応答(Y変数)における変動を最もよく予測できる、因子(X変数)内のグループまたは分岐の値を見つけることができます。 X変数とY変数には、カテゴリカル変数でも連続変数でも指定できます。 適切なX変数と、X変数に対する適切なグループまたは分岐の値を見つけて、データを再帰的に分岐します。分岐は、有益なあてはまりが得られるまで続けることができます。 結果はツリー状になります。また、どのX変数がY変数の変動に最も寄与するかなど、重要な情報を得ることができます。

ツリーは欠測値がある場合でも堅牢です。また、X変数の組み合わせによる効果を扱うことができます。 「パーティション」プラットフォームでは、ディシジョンツリー、ブートストラップ森(JMP Proのみ)、またはブースティングングツリー(JMP Proのみ)を使用できます。 ただし、シンプルなディシジョンツリーを使って新しいデータにモデルをあてはめた場合、精度のよい結果が得られない場合があります。新しいデータに対しても精度のよい予測が必要な場合は、JMP Proの使用をご検討ください。

ニューラルネットワーク

JMPの「ニューラル」プラットフォームを使用すると、1つ(JMP)または2つ(JMP Pro)の層に隠れノードを含む、ニューラルネットワークを構築できます。 JMPでは、すべてのノードに同じ活性化関数を割り当てることができます。 JMP Proでは、各ノードに3種類の活性化関数のいずれかを割り当てることができ、 各層にはノードをいくつでも含めることができます。

また、JMP Proを使用すると、自動的に欠測値を処理でき、プラットフォーム内でX変数を変換できます。また、ブースティングを使用したり、4種類のペナルティ手法のいずれかを適用したりすることも可能です。

テキストエクスプローラ

JMPのテキストエクスプローラプラットフォームを使用すれば、アンケート回答、修理記録、エンジニアの報告書、コメント欄などのフリーテキスト内のデータを調査できます。テキストエクスプローラは「bag of words(単語の袋)」アプローチを使用してテキストをトークンに解析し、単語文書行列を構築します。これにより、これらを手動で処理したり、すべてを無視したりすることなく、テキストデータ内の意味を簡単に解釈したり、特定したりすることができます(ただし、この機能は日本語には対応していません)。

さらに、JMPのテキストエクスプローラは、基本的なキーワードを抽出する機能を提供し、元のテキストを変更せずにドキュメントをクリーンアップするローカルコードを持ち、トピックワードクラウドを開発するオプションを備えています。潜在情報をテキストデータで発見し、有益な方法でテキストデータを処理できます。

JMP Proのテキストエクスプローラには、特異値分解(SVD)を使用して類似のドキュメントをトピックにグループ化する追加の分析ツールが含まれています。このプラットフォームを使用すると、テキストドキュメントをクラスター化したり、大量の文書にある用語をクラスター化したり、潜在クラス分析を使用して文書をクラスター化することができます。また、予測モデルワークフローで判別分析を実行したり検証列を使用することも可能です。

目的変数がない多変量解析

多変量解析では、オブザベーション(行)または変数(列)のどちらかに焦点を置くことができ、また、変数を対等に扱うことも(目的変数がない多変量解析)、因子(X変数)と応答(Y変数)を区別することもできます(目的変数がある多変量解析)。しかし、分析の目的にかかわらず、JMPを使用してデータを分析することができます。(X変数とY変数を含む多変量解析については「目的変数がある多変量解析」セクションを参照)。

多変量データを扱う場合は、データの質、外れ値の特定と処理、および欠測値のパターンを考察することが重要です。JMPでは、このような単純作業を減らすことが可能です。通常は、分析を進めながら問題に対処する作業を繰り返す必要がありますが、JMPの対話的な操作性により、このような作業を効率的に進められます。  

「多変量の相関」プラットフォームは、多くの列を含む分析の出発点となります。 このプラットフォームを使用すると、すべての連続変数のペア間の関連性やパラメトリック/ノンパラメトリックの相関をすばやく評価し、外れ値を特定して、欠測値を補完できます。

目的変数がない多変量解析では、JMPには主成分分析(PCA)、因子分析、クラスター分析、潜在クラス分析、多次元尺度構成、アソシエーション分析(JMP Proのみ)、正規混合分布、自己組織化マップの機能が搭載されています。いずれも順に展開していくスタイルで分析が行われ、徐々に明らかになっていく事実に合わせてアプローチを調整できます。

PCA(主成分分析)では、値に相関関係がある場合、次元を減らすことができます。JMPでは、列数の多いデータを効率的に処理できます。 量的な変数ではなくカテゴリカルな変数がある場合、PCA(主成分分析)を行う代わりに、多重対応分析を実施し、同様の結果を得ることができます。 因子分析では、観測されなかった少数の因子の観点から、観測された変数における変動性をモデル化できます。 「因子分析」プラットフォームでは1つのレポートで複数のあてはめと回転が可能であり、条件付き表示形式を使用すると大きな因子負荷量の値をすぐに特定できます。

教師なし学習の重要な手法であるクラスター分析では、類似したケースを同じグループにまとめます。 JMPの「クラスター分析」プラットフォームを使用すると、分析の前に変数を標準化でき、さまざまな距離の計算法を用いることができます。また、このプラットフォームでは、階層型クラスター分析とK-meansクラスター分析を利用できます。 階層型クラスター分析では、対話的に操作できる樹形図が作成されるため、「クラスターの要約」などの機能を用いて、クラスター数を決めることができます。 積み重ねた形式のデータで空間的な指標の計算を行い、クラスター特有の不適合パターンを得ることもできます。

潜在クラス分析はクラスター分析に変わるものです。また、アソシエーション分析(マーケットバスケット分析とも呼ばれます)は特定の項目間の関連性(たとえば、一緒に購入されている商品など)を特定します。

目的変数がある多変量解析

目的変数がある多変量解析では、JMPには部分最小2乗回帰(PLS)、判別分析、単純Bayse、最近傍法、およびGauss過程の機能が搭載されています。

PLSでは、複数のX変数とY変数を扱えます。この手法は、X変数の数が行数より多いために線形回帰が使えないなどの場合によく適用されますが、予測モデリングにおける有益な手法としても広く利用されています。

JMPの「PLS回帰」プラットフォームには基本的な機能が備わっていますが、さらにJMP Proでは、「モデルのあてはめ」プラットフォームにPLS手法が用意されているため、多項式や交互作用項を含む複雑なモデルをあてはめることができます。 また、JMP Proには欠測値の補完の機能や、複数の検証方法が用意されています。

JMPには、PLS回帰モデルの手法としてNIPALSとSIMPLSの両方が用意され、モデルに含める最適な因子数を決めるためのレポートも表示されます。 一般的に使われる診断統計量も表示されるため、モデルの妥当性を確認できます。 また、グラフから変数選択を行なう、またはVIPの閾値を定義することにより、モデルの項数を減らしたPLSモデルを作成できます。 JMP Proでは、応答がカテゴリカルな場合にPLS判別分析を使用できます。

「判別分析」プラットフォームを使用すると、どのようなY変数の組み合わせが、カテゴリカルな分類変数(X)を予測できるかを理解できます。判別の手法には線形、2次、正則化があります(必要に応じてY変数のステップワイズ変数選択を実施できます)。不確実または誤判別された行を簡単に確認して、どのような対応や修正が必要であるかを決定することもできます。判別分析では、非対角要素を縮小して推定した共分散行列を使用することで、列数の多いデータを効率的に処理できます。

Gauss過程は、任意の数のX変数の関数からY値を補間するため(決定論的システムの近似モデルを構築するため)、または、より一般的なモデリングツールとして使用されます。

時系列分析

JMPの「時系列」プラットフォームを使用すると、一変量の時系列データを探索、モデル化、そして予測できます。 分析結果は、自己相関プロット、偏自己相関プロット、バリオグラム、AR係数やスペクトル密度プロットなど、通常の診断統計量とともに表示されます。 時系列分析を簡単に分解し、X11手法を使用して、傾向や季節的影響を除外することができます。

さまざまなパラメータがある場合でも、簡単なマウス操作で1つの時系列データに対するARIMAモデルを複数作成できます。その後、AIC、SBC、MAPE、MAEなどの適合度統計量を使用して最適なモデルを選択します。 また、複数の入力時系列がある場合には、必要に応じて入力時系列を白色化して、出力時系列をモデル化するための伝達関数モデルも作成できます。 さらに、必要に応じて、SASでモデルを実行するためのPROC ARIMAコードを生成できます。

「時系列」プラットフォームには、Holt指数平滑化法、季節指数平滑化法、Winter法など、時系列のための多数の平滑化法も含まれています。

伝達関数モデルでは、信頼区間を用いて、将来の予測を対話的に行うことができます。

Back to Top