予測モデルの作成とモデルの検証

前年の業績を説明することは、難しい仕事ではありません。しかし、新しい顧客、新しいプロセス、新しいリスクについて予測するのは、適切なツールや最新の手法がないと非常に困難です。JMP Proには、手持ちのデータを使ってより適切なモデルを構築するためのアルゴリズムが豊富に揃っています。予測モデリングの中でも最も便利な手法は、ディシジョンツリー、ブートストラップ森、単純Bayes、そしてニューラルネットワークです。

JMP Proの「パーティション」プラットフォームは、最新の方法でディシジョンツリーの構築プロセスを自動化します。このプラットフォームは、K近傍法(K-NN)モデルにも対応しています。

「ブートストラップ森」プラットフォームは、ランダム森の手法を用い、データからランダムに抽出したサブセットを使って多数のディシジョンツリーを作成し、それらのツリーで算出された各因子の影響を平均化する手法です。ブースティングツリーは、あてはめたツリーの残差にツリーを次々にあてはめ、多数のシンプルなツリーを構築します。

「単純Bayes」プラットフォームでは、Bayesの定理を用いて、カテゴリカル応答の予測を行えます。このプラットフォームでは、データに現れないさまざまな因子の組み合わせに対して予測することも可能です。

「ニューラル」プラットフォームでは、選択可能な3つの活性化関数および勾配ブースティングを使用したモデル作成を含む、1層または2層のニューラルネットワークを構築できます。このプラットフォームは、欠測値の処理を自動的に行ったり、連続量のX変数を自動的に変換します。これによって時間と労力が軽減されます。また、ロバストなあてはめオプションも用意されています。

JMP Proの各プラットフォームは、モデルの検証機能を備えています。これによって将来のデータにもあてはまるモデルを作成できるようになります。効果的な予測モデルを作成するには、モデルを検証するための実質的な手段が必要です。また、複雑なモデルを扱うときにはオーバーフィットの問題に陥りがちです。複雑なモデルにはモデルの検証が必要になりますが、JMP Proではデータ分割や保留により検証を行えます。モデルの検証により、将来のデータ(新しい顧客、新しいプロセス、または新しいリスク)を適切に一般化するモデルを構築できます。つまり、将来について、データに基づく推論を行うことができるのです。

データを学習、検証、テストの各データセットに分割する方法は、オーバーフィットを防ぐ手段として長く用いられてきました。この方法であれば、作成するモデルが、使用した特定の標本の属性に依存しないからです。
JMP Proのモデルの検証における一般的なアプローチでは、検証列を使用します。検証列の作成の機能を使用することで、データを目的が異なる別々のセットに簡単に分割できます(単純無作為抽出または層化無作為抽出)。

学習セットはモデルを構築するために使用され、検証セットはモデル構築プロセスにおいて、モデルの複雑度を選択するために使用されます。最後に、モデル構築プロセスではまったく使用しなかったテストセットを用いて、モデルの精度を評価します。小規模なデータセットでは、K分割交差検証も使用できます。この方法はオーバーフィットを避けたモデルを構築するのに役立ちます。

しかし、データから導き出せるものが限られているのも事実です。­原因や効果を本当の意味で理解するには、多くの場合、実験計画法(DOE)を使用すると良いでしょう。JMPには、簡単に使える、世界トップレベルの優れたDOEの機能が用意されています。

モデルの比較

現実の世界では特定の状況でうまくあてはまるモデルも、別の状況ではあてはまりが悪くなることがあります。JMP Proにはモデリングの手法が多数あるため、特定の状況に最も適したモデルがどれかを見極める必要があります。モデル構築の典型的なアプローチは、モデルの複雑度、特定の因子/予測変数がある/ないモデル、異なる種類のモデリング手法を使用して構築されたモデル、さらに複数モデルの平均(アンサンブルモデル)など、異なるモデルを複数試すというものです。

これらのモデルそれぞれには共通する品質の指標があり、これをモデルの評価に使用します(R2、誤分類率、ROC曲線、AUC、リフトチャートなど)。

JMP Proのモデルの比較機能を使用して、さまざまなモデリングの手法で得た予測式を比較すれば、適合度、モデルのシンプルさ、検証結果などの観点から複数のモデルを比較できます。

JMP Proでは、こうした比較を自動的に行います。同時に、ユーザーは視覚的なモデルのプロファイルを対話的に操作しながら、それぞれのモデルで選択された重要な因子を確認できます。JMP Proにおけるモデルの比較では、同時に複数のモデルを簡単に比較できます。また、必要に応じてモデルの平均化も行えます。

計算式デポとスコアコードの生成

モデルの管理は難しくありません。JMP Proの計算式デポは、数多くのモデルを分析する際に作業を整理するのに役立ちます。この管理ツールを使うことにより、JMP Proのモデルを格納し、プロファイルを作成したり、比較を行ったり、C、SQL、SASを始めとするさまざまな言語でコードを生成できます。

複数のモデルを構築した際に、モデル比較を行うために必要な数多くの予測式列をデータテーブルに作成する必要は、もはやありません。スコアコードを計算式デポに保存し、そのまま新しいデータに適用できます。計算式デポは、モデルに簡単にアクセスでき、その他のシステムに素早く実装できる集中管理が可能なモデルのハブなのです。

SAS®への接続

JMP Proは、SASに簡単に接続し、さまざまなオプションを使用したり、優れたSAS Analyticsの機能やデータ統合の機能にアクセスすることができます。JMP Proでは、アクティブなSAS接続がない場合でも、JMPで作成したモデルを使って素早く簡単に新しいデータをスコアリングするSASプログラムを生成できます。

最新のモデリング

一般化回帰は新しいモデリング手法で、さまざまなデータに対して、優れたモデルを構築できます。正則化回帰または罰則付き回帰の手法を使用して一般化線形モデルをあてはめます。

変数間に強い相関関係がある場合、変数がオブザベーション数より多い場合は、通常の回帰分析は役に立ちません。高い相関性がある説明変数が多くある場合(観測データでよく見られます)、ステップワイズ回帰やその他の標準的な手法から満足のいく結果を得ることはできません。これらのモデルはオーバーフィットになる傾向があり、新しいデータにはうまくあてはまりません。しかし、モデル構築前に変数選択を行うことは難しい場合もあります。それに、手作業で変数を選び出すのは時間もかかり、大変な作業になってしまいます。

モデルのあてはめでの一般化回帰の手法は、回帰モデルを作成するための包括的なアプローチです。変数選択、モデル診断、最小2乗平均比較、逆推定、プロファイルの表示を行える、完全なモデリングのフレームワークです。これはJMP Proだけに搭載された機能です。

一般化回帰で使用できる正規化手法には、リッジ、Lasso、適応型Lasso、弾性ネット、適応型弾性ネットがあり、影響力があると思われるX変数を識別するのに役立ちます。これらの手法は「モデルのあてはめ」プラットフォームの他のモデリング手法と同様に簡単に利用できます。変数と手法を選択して、検証法など適切な設定を行うだけです。JMPは、モデルのあてはめを自動的に行います。適切な変数選択を行い、新しいデータに対して一般化できる予測モデルを構築します。変数増加法を使用したり、分位点回帰または単純な最尤法によるあてはめを実行することもできます。

最後に、一般化回帰では、応答の分布を選択できます。これにより、カウントデータや外れ値の多いデータ、歪んだデータなど、幅広いデータに対してモデリングが行えます。また、JMP Proのすべての高度なモデル化のプラットフォーム同様、データ分割による検証を行うこともできます。

信頼性ブロック図

複数のハードドライブを備えたRAIDストレージや4台のエンジンを積んだ航空機など、より複雑なシステムの信頼性を分析しなければならないことがあります。

JMPがあれば、さまざまなツールを使用してシステム内の単一コンポーネントの信頼性を分析できます。
さらにJMP Proなら、単一コンポーネントの信頼性を基に複数のコンポーネントから成る複雑なシステムを構築し、システム全体の信頼性を分析できます。

信頼性ブロック図を使用すると、システムを簡単に設計でき、その弱点を修正できます。また、システム障害を回避するための情報を得ることができます。

また、このプラットフォームを用いて、プロットで複数のシステム設計を比較し、what-if分析も簡単に実行できます。そして、冗長性を持たせる最適な箇所を見極め、システム障害の発生確率を下げます。

修理可能システムのシミュレーション

複雑なシステム内の部分システムや構成要素のダウンタイムが長引くと、その損失コストは極めて高いものになります。

これらのシステムが問題なく動き続けるには、システム内の構成要素の修理を予定するか、システムが利用できない間に他の修理もまとめて行うことで、計画外のシステム停止が起きた時に得られる利益を最大化することが求められます。

JMP Proの修理可能システムのシミュレーション機能を使うことにより、システムがどのくらいの時間にわたって利用不可となるかを見極め、一定期間内にできる修理はいくつあるか、修理にいくらかかるかという重要な質問に答えることができるようになります。

被覆配列

実験の実施費用が高くなる可能性があり、かつ因子間の交互作用によって不具合が発生することがあるアプリケーションのテストにおいて、被覆配列を使用できます。不具合を見つける確率を最大化する一方でコストと時間を最小化する実験を計画する必要があります。被覆配列が、まさにこれを実現します。JMP Proでは、決定論的システムをテストし、あらゆる可能な因子の組み合わせを、特定の次元の交互作用までカバーする実験を計画できます。

テストする意味がない因子の組み合わせがある場合、対話式の「許可しない組み合わせ」フィルタを使用して、これらの組み合わせを計画から自動的に排除できます。

JMP Proの被覆配列の大きな利点のひとつに、被覆配列を計画できるだけではなく、統計分析の手法も備えていることが挙げられます。JMP Proではあらゆる種類の統計分析を行えます。たとえば、一般化回帰と被覆配列の計画が可能なソフトウェアは、JMP Proの他にはありません。これが、他の被覆配列の計画用ツールと比較した場合の、JMP Proの大きな利点です。

JMP Proは単なる計画ツールではありません。JMP Proは、任意のソフトウェアで作成された任意の被覆配列計画を読み込み、さらに最適化して、結果を分析できます。実験計画の構築を他者に頼る必要なしに、独自で配列を計画できます。JMP Proでは、被覆配列でテストをより効率的に行えます。

混合モデル

混合モデルには、分析の中に固定効果と変量効果の両方が含まれています。これらのモデルは、経時データや空間データを分析できます。たとえば、新薬開発の臨床試験で複数の被験者が反復測定されるような試験デザインや、製薬、製造、または化学業界におけるクロスオーバー試験などに使用します。

JMP Proなら、データに混合モデルをあてはめられるため、固定効果、変量効果、反復効果を指定したり、被験者内における誤差の相関構造を指定できます。また、ランダム係数モデルも指定できます。これらの操作はすべてドラッグ&ドロップで簡単に行うことができます。

さらに、以下のような場面で、さまざまな相関構造を指定できるようになりました。一例として、実験対象のデータがクラスターにまとめられ、クラスター内でデータに相関関係がある場合が挙げられます。別の例としては、実験対象が反復測定され、これらの測定値に相関関係がある場合や、変化が見られる場合が挙げられます。

また、JMP Proの混合モデルを構築する際に、モデルの指定に使用するのに、どの空間相関構造が最適かを視覚的に決定する場合に便利です。

アップリフトモデル

限られたマーケティング予算の効果を最大化するため、広告などを、それに好意的に反応すると思われる個人だけに送付したい場合があります。しかし、データセットが大きく、顧客背景や行動に関して多くの変数がある場合には、その作業も困難になります。ここでも、アップリフトモデルが活躍します。

アップリフトモデルは増分モデル、実質リストモデル、または正味モデルとも呼ばれ、マーケティングに関する決定の最適化やパーソナライズされた治療計画の決定、あるいは、より一般的な用途として、ある行動に反応すると予測される個人の特徴の識別を目的として開発されました。

JMP Proのアップリフトモデルにより、これらの予測を行うことができるようになります。
JMP Proは、パーティションモデルをあてはめ、処置の差を最大にする分岐を見つけます。モデルにより、ある行動に好意的に反応すると思われる個人のグループを識別します。個人に対するリソースの割り当てや影響を最適化するための、効率的かつ目標化された決定を下すのに役立ちます。

高度な計算機を駆使した手法

JMP Proには、分割表における正確確率検定、一元配置分散分析におけるノンパラメトリックな正確確率検定が用意されています。また、JMP Proには、JMPレポートの大部分でブートストラップ法による分析を行えます。

ブートストラップ法は、統計量の標本分布を近似する手法です。JMP Proでは、プログラムを書かずにブートストラップ標本を作成できます。JMPのレポート上に表示されているさまざまな統計量をマウスで操作するだけで、その統計量のブートストラップ標本が生成されます。

ブートストラップ法は、統計学の教科書に書かれている仮定が成り立っていない場合や、確信が持てない場合に役立ちます。たとえば、非線形回帰モデルのパラメータに対する信頼区間を求めたいときに役立つでしょう。既存の方法で求められた信頼区間や標準誤差と、ブートストラップ法で求められた値を比較しても良いでしょう。ブートストラップ法は、特定の分布を仮定せずに、推定量に対する推測を行います。JMP Proでは、こうした推定も、マウス操作だけで簡単に実行できます。

結果の共有

DOW Flags

ダウ・ケミカルは、大規模なデータセットを探索し、そこからできるだけ多くの情報を効率的に得るための最適なツールを求め、JMP Proを導入しました。

ストーリーを読む(英語)

JMPは、「発見」の方法、そして発見を組織内で効率的に伝達する方法を追求してきました。

JMP Proには、JMPの視覚的かつ対話的な機能がすべて含まれており、ユーザーはそれらの機能を使用して、今まで経験したことがないような方法でデータを分析することができます。

JMP Proでは、ダイナミックにリンクされたデータやグラフ、統計量を使うことで、データ分析を生き生きとしたものにします。3次元のグラフやアニメーションでデータを検討することで、時間の経過に伴う変化や、モデルの作成と説明のプロセスに関する貴重な洞察が得られます。

JMP Proの主な機能

JMP Proには、JMPのすべての機能に加えて、以下の分析機能が含まれています。


予測モデルの作成とモデルの検証

ニューラルネットワークモデリング
  • 欠測値のコード変換
  • 勾配ブースティングを使用したニューラルネットワークのあてはめ
  • 1層または2層のニューラルネットワークのあてはめ
  • 説明変数の変換
  • 3種類の活性化関数(双曲正接、線形、Gauss)
  • ランダムに生成された交差検証列の保存
  • 変換した共変量の保存
  • データ分割による検証法
再帰的パーティション
  • 手法の選択:ディシジョンツリー、ブートストラップ森(ランダム森手法)、ブースティングツリー、K近傍法、単純Bayes
  • 乱数シード値の設定、マルチスレッドのオフ、調整計画テーブルの使用、確率的ブースティングの指定(ブースティングツリーやブートストラップ森で利用可能)
  • データ分割による検証法
  • 専用のメニュー:ブートストラップ森、ブースティングツリー、K近傍法、単純Bayes
モデルの比較
  • JMP Proで構築したモデル間の比較
  • プロファイル
  • 適合度統計量(R2、誤分類率、ROC曲線、AUC、リフトチャート)
  • モデル平均化
検証列の作成
  • データを学習用、検証用、テスト用へ分割、検証列の作成
  • 計算式による無作為抽出、無作為抽出結果を固定値として入力、層化無作為抽出、グループ化無作為抽出、カットポイント法を用いた保留セットの作成
  • プラットフォームの起動ダイアログからの検証列の作成(計算式無作為抽出のみ)
計算式デポ
  • 計算式列スクリプトの格納および管理
  • 判別分析、最小2乗法によるあてはめ(7コマンド)、ロジスティックのあてはめ(名義および順序尺度)、ディシジョンツリー、ブートストラップ森、ブースティングツリー、アップリフト、k近傍法、単純Bayes、ニューラル、潜在クラス分析、主成分分析(横長、スパース)、一般化回帰、PLS、Gauss過程で使える発行の機能
  • スコアコードの生成:SAS(DS2)、C、Python、JavaScript、SQL(さまざまな保存先に対して構文オプションを選択可能)
  • モデルの比較機能を用いた計算式デポで収集されたモデルの比較
  • プロファイル
  • スクリプトの表示、スクリプトのコピー、列変換としての計算式のコピー、スクリプトの実行によるデータテーブルでの計算式列の生成
  • データテーブル列から計算式の追加

「テキストエクスプローラ」プラットフォームを用いた分析

  • 潜在クラス分析
  • 潜在意味分析(スパースSVD)
  • トピック分析(回転SVD)
  • 単語およびドキュメントのクラスター分析
  • SVDおよびトピック散布図行列
  • 列の保存:文書特異ベクトル、トピックベクトル、積み重ねた文書単語行列の保存
  • 式の保存:特異ベクトル、トピックベクトル
  • ベクトルの保存:単語とトピック(この機能は日本語には未対応)

信頼性/生存時間分析モデル

信頼性ブロック図(RBD)
  • 複雑なシステムの信頼性のモデル化
  • 直列系・並列系・直並列系/並直列系・k-out-of-n系などのシステムの信頼性の評価
  • ライブラリから既存のデザインを選択し、それらを組み合わせてデザインすることが可能
修理可能システムのシミュレーション(RSS)
  • 離散事象のシミュレーションエンジン
  • 従来型保守をサポート:修理保守と予防保守を基本セットとして提供
  • 保守計画とRBDを1つのワークプレイス内で図式化
  • 複数の保守および保守の依存関係の概念を分かりやすくするため、システム全体の事象とアクションの間の関係を図式化
生存時間(パラメトリック)
  • モデルのあてはめの一般化回帰の手法を用いて変数選択が可能
一般化回帰(罰則付き推定による回帰分析)
  • 生存時間/信頼性分析による変数選択を可能にした打ち切りのあるデータの取り扱い
  • Cox比例ハザードをサポート
  • Weibull分布、対数正規分布、指数分布、ガンマ分布、正規分布、ZIファミリー分布をサポート

モデルのあてはめ

一般化回帰(罰則付き推定による回帰分析)
  • 正規化手法:リッジ、Lasso、適応型Lasso、ダブルLasso、弾性ネット、適応型弾性ネット
  • 変数増加法および2段階変数増加法
  • 分位点回帰
  • 打ち切りデータを含む生存時間/信頼性分析において、変数選択が可能
  • Cox比例ハザード
  • 一般的なシミュレーションプラットフォームで使えるシミュレーション計算式の保存
  • 正規分布、対数正規、Weibull、Cauchy分布、指数分布、ガンマ分布、ベータ分布、二項分布、ベータ二項分布、Poisson分布、負の二項分布
  • ゼロ強調二項分布、ゼロ強調ベータ二項分布、ゼロ強調Poisson分布、ゼロ強調負の二項分布、ゼロ強調ガンマ分布
  • 検証手法の選択:検証列、K分割、保留、1つ取って置き法、BIC、AICc、ERIC
ステップワイズ回帰
  • データ分割による検証法
ロジスティック回帰(名義尺度と順序尺度)
  • データ分割による検証法
標準最小2乗法
  • データ分割による検証法
PLS回帰
  • 「モデルのあてはめ」でPLS回帰の手法を選択することで、連続量またはカテゴリカルな応答の指定、連続量またはカテゴリカルな因子の指定、交互作用、べき乗項の指定が可能
  • NIPALSモデルに沿ったEM法による欠測値補完
  • ランダムに生成された交差検証列の保存
  • 中心化や尺度化のオプションを適用する前に、交互作用やべき乗項に含まれている個々の変数を標準化
  • 検証手法の選択:検証列、K分割、保留、1つ取って置き法
混合モデル
  • 固定効果だけではなく、変量効果、および誤差における相関構造を指定可能
  • 変数間の相関構造や被験者と連続尺度の効果を指定可能
  • 誤差間の相関構造を選択可能
  • どの空間的相関構造が最適かを決定するバリオグラムが利用可能

被覆配列

  • 被覆配列の計画および分析
  • 作成後の計画を、実験回数を低減するために最適化
  • 「許可しない組み合わせ」フィルタを使用した、実行不可能な実験領域を指定
  • 他のソフトウェアで作成された被覆配列を読み込み、さらに最適化

多変量分析

判別分析
  • データ分割による検証法

発展的なモデル

Gauss過程
  • 高速GASPにより、数千個もある行でモデルのあてはめが可能
  • Gauss過程モデルにカテゴリカルな変数を追加

消費者調査

アップリフトモデル
  • ディシジョンツリーの手法により、提案または処置に好意的に反応する可能性が最も高い消費者セグメントを識別
  • 増分モデル(incremental model)、実質リフトモデル(true-lift model)、正味モデル(net model)などとも呼ばれている手法
  • データ分割による検証法
選択モデル
  • 選択モデルにおいて、階層型Bayes分析をサポート
  • 個体の推定値とBayesチェーンを保存
アソシエーション
  • マーケットバスケット分析をサポート
  • 「テキストエクスプローラ」プラットフォームにより生成された積み重ねた文書単語行列を分析

高度な計算機を駆使した手法

一元配置分析
  • ノンパラメトリックにおける正確確率検定
分割表分析
  • 正確確率検定
一般的なブートストラップ
  • 多くのレポートに対して、マウス操作でブートストラップ法を実行
シミュレーション機能
  • マウス操作だけでほとんどのレポートで統計量をシミュレート
  • あらゆるデータ上で検出力の計算が可能
  • パラメトリックなブートストラップをサポート
  • 無作為化検定(ランダム化検定, 並び替え検定)

システム要件

JMPは、Microsoft WindowsおよびMac OS上で稼動します。

Back to Top