預測建模與交叉驗證

任何人都能以一般水準描述去年的表現,但要是少了正確的工具和最先進的技術,要建立出預測新客戶情況、新製程或新風險的模型則會更加困難。JMP Pro 提供一組豐富的演算法,可以讓您建構出更好的資料模型。最有用的預測建模技術包括決策樹、拔靴森林、簡易貝氏分類以及神經網路。

JMP Pro 中的「分割平台」運用現代方法自動處理決策樹的建立流程。這個平台也會擬合 K 近鄰 (K-NN) 模型。

「拔靴法森林」平台運用隨機森林技術,能透過隨機的資料子集建立出許多決策樹,再將這些樹每一項因子的運算影響值平均。拔靴樹技術能反覆擬合其中一棵樹與下一棵樹之間的任何殘差變異,從而建構出許多單純的樹。

單純貝式分類平台運用貝氏定理,能幫助您預測類別反應。這個平台甚至可以在進行預測時,結合未出現在資料中的預測因子。

進階的「神經」平台可讓您建立單層或雙層神經網路,搭配您自選的三種激勵函數,以及使用梯度提升技術的自動建模。這個平台會自動處理缺少值和轉換連續 X,能省時省力,更提供穩健的擬合選項。

JMP Pro 中的每一個平台均使用交叉驗證,能驗證您的模型並充分歸納出未來可用的資料。為了更有效的進行預測建模,您需要以可靠的方法驗證模型,而面對大型的模型時,很容易會發生過度擬合的問題。大型預測模型一定要交叉驗證,而 JMP Pro 可透過資料分割或保留的方式進行這項操作。交叉驗證幫助您建構模型,充分歸納出未來可用的資料,這些資料與新客戶、新製程或新風險息息相關,因此,您可以依據資料做出與未來相關的推論。

一直以來,我們都會將資料分割成訓練、驗證和測試資料集,以避免過度擬合,確保您建立的模型不會依賴用來建模的特定樣本屬性。JMP Pro 中常用的交叉驗證方法是使用驗證欄。使用驗證欄公用程式 (不管是純隨機樣本或分層隨機樣本),您都很容易就能將資料分割成不同的組合,應用於不同的用途。

訓練集的用途是建構模型,驗證集則是在建構模型的過程中輔助選擇模型複雜程度的工具。最後,整個模型建構過程中均會進行測試集,用途是評估模型品質。對於較小的資料集,也可以使用 K 折交叉驗證。這個流程可以幫助您建構能夠有效推論出新資料的模型。

需要注意的是,觀察資料的作用僅止於此。若要真正了解因果關係,您往往會需要採用實驗設計 (DOE)。JMP 是建立 DOE 的全球一流工具,您可以製作出輕鬆使用的最佳 DOE。

模型比較

在真實世界中,某些類型的模型只適合某些特定情況,而不適合其他情況。JMP Pro 提供許多擬合方式,您需要找出特定情況之下最適合使用哪種方式。典型的建模方式是嘗試許多不同模型:複雜度較高或較低的模型、有或沒有特定因子/預測因子的模型、使用不同方式建立的模型,甚至是多個模型的平均 (集成模型)。

這些模型都有相同的品質量測方式,可用來評估模型:R2、分類錯誤率、ROC 曲線、AUC、升降曲線圖等。

您可以使用 JMP Pro 的模型比較功能,比較不同擬合之下的已儲存預測欄­,並依據適合度、簡約性和交叉驗證做出最佳選擇。JMP Pro 會自動進行此項比較。同時,您能透過視覺模型分析工具看看每個模型選擇了哪些重要因子。JMP Pro 的模型比較功能讓您可輕鬆同時比較多個模型,並能依據需要進行簡單的模型平均。

公式庫及產生評分代碼

處理模型可以輕鬆點:當您需要處理大量模型時,JMP Pro 的「公式庫」能夠幫助您輕鬆進行工作管理。這個中央存放庫可以讓您使用 C、SQL、SAS 或其他語言,進行 JMP Pro 模型的儲存、分析、比較以及選擇部署。

現在,當您建構多個模型時,再也不會因為執行模型比較需要多出無數個預測公式欄,使得資料表變得複雜不已。您可以將分數代碼儲存在公式庫中,方便套用於新資料。如此一來,您就有了一個中央建模中心,採用模型變得更方便,要部署到其他系統也非常容易。

連結 SAS® 的豐富功能

JMP Pro 作為 SAS 提供的預測分析與資料探勘解決方案之一,可輕鬆連結 SAS,擴充您的選擇,讓您可享有最卓越的 SAS 分析與資料整合能力。無論是否有效連結 SAS,JMP Pro 都可以輸出 SAS 程式碼,以使用 JMP 內建的模型輕鬆快速地對新資料進行評分。

現代化建模

廣義迴歸是一類新的建模技術,非常適合用於建置更好的模型,即使資料相當複雜也不影響。這項技術使用正規化迴歸法或懲罰迴歸法擬合廣義線性模型。

當您的預測因子有強烈關聯、或是預測因子多於觀察時,將無法運用標準的估計技術。而在有許多預測因子互相關聯的情況下 (在觀察資料中常發生這種情況),使用逐步迴歸或其他標準技術可能無法得到令人滿意的結果。這類模型常常過度擬合,且無法應用在新資料上。不過,要如何在建模前決定該剔除哪些變數呢?還有更糟的情況:您為了準備建模,花費多少時間手動前置處理資料集?

擬合模型具備「廣義迴歸」特質,是一種進行迴歸的全面式方法,提供了一個完整的建模框架,無論是透過模型診斷的變數選擇,或是最小平方平均數比較,您都可以透過這個方法進行逆預測與分析。這些都是 JMP Pro 的獨家功能。

廣義迴歸特性適用的正規化技術包括 Ridge、Lasso、適應性 Lasso、Elastic Net 以及適應性 Elastic Net,能幫助您進一步分辨可能具有解釋力的 X。要駕馭這些技術,就與駕馭任何其他建模特性一樣簡單。在「擬合模型」中,只要指出您的反應、建立模型效應,並選擇想要的估計與驗證方式即可。JMP 會自動擬合您的資料、適時選擇變數,建構出可以應用在新資料上的預測模型。您也可以使用順向逐步迴歸技術、執行分量迴歸,或者是使用最大概似估計的單純擬合。

最後,「廣義迴歸」可以為您所建立的反應模型提供適當的分配選項,讓您可將更多樣化的反應建模,像是計數、擁有許多離群值或不準確的資料,而且正如 JMP Pro 中的所有進階建模平台一樣,有多種交叉驗證供您選擇。

可靠度方塊圖

您往往會需要分析較為複雜的分析系統可靠與否,例如有多個硬碟的 RAID 儲存陣列,或是有四組引擎的飛機。JMP提供您許多工具,分析這些系統內單一組件的可靠度。只要使用 JMP Pro,您便可以用單一組件的可靠度建立出一個擁有多項組件的複雜系統,並分析整個系統的可靠度。使用「可靠度方塊圖」,可以輕鬆進行設計以及修復系統中的弱點,並獲得更完善的資訊,以預防未來系統發生故障。

有了這個平台,您就可以透過檢視不同設計、比較跨多個系統設計的圖表,輕鬆進行假設分析。您還可以決定新增冗餘的最佳位置,並降低系統故障的機率。

可修復系統模擬

某些系統或複雜系統中的組件若離線過久,可能會造成昂貴的損失。若要維持這類系統的完整性,您就需要安排系統組件的維修時程,或是善加利用意外發生的故障:在系統無法使用時完成額外維修。有了 JMP Pro,您就能使用「可維修系統模擬」決定一個系統會斷線多久,並得知以下重要問題的答案:在特定期間內預期會有多少個可維修事件,以及一個維修事件的成本是多少。

覆蓋陣列

「覆蓋陣列」是用於檢測因子交互作用可能導致故障、且每次進行實驗的成本高昂的情況。因此,您需要設計出一項實驗,以最低時間與成本,盡可能提高找出缺陷的機率。「覆蓋陣列」正能讓您達成這個目標。JMP Pro 讓您能設計出一項實驗來檢測確定性系統,並依照特定的交互作用順序來涵蓋所有可能的因子組合。

當出現不合理的因子組合時,可以使用互動式的「禁用組合」篩選器,從設計中自動排除這類因子設定組合。

JMP Pro 覆蓋陣列的主要優勢,在於這不只是涵蓋陣列設計工具,更是一項強大的統計分析工具。您可以在 JMP Pro 中進行所有類型的統計分析。舉例來說,目前還沒有其他覆蓋陣列設計的軟體,可讓您同時使用廣義迴歸進行資料分析。這是 JMP Pro 優於其他覆蓋陣列設計工具的主要特點。

JMP Pro 不僅僅是設計工具;它也可以讓您匯入任何由其他軟體產生的覆蓋陣列設計,並且將其進一步最佳化及分析結果。您可以自行設計陣列,不需要仰賴他人為您建立實驗。使用 JMP Pro 的覆蓋陣列,能讓測試變得更聰明。

混合模型

混合模型在分析時一併運用固定效應和隨機效應。這些模型可以讓您分析涉及時間和空間的資料。例如,您可以在研究設計中使用混合模型,在藥物試驗過程中多次測量多個受試對象,也可以運用於製藥、製造或化學業的交叉設計。

使用 JMP Pro 可以按照您的資料調整混合模型,讓您指定固定、隨機和重複效應;建立不同變數群組織間的關聯;以及安排受試對象與連續效應 – 這些全都可以透過一個符合直覺操作概念的拖放介面進行。

此外,您現在可以計算多種相關結構的共變異數參數。這類範例包括可以將測量資料所用的實驗單位分成叢集群組時,以及源自共同叢集的資料彼此相關時。另一個範例則是重複測量同一個實驗單位,且這些重複的測量值彼此相關或出現會改變的變異數時。

在 JMP Pro 中建立混合模型時,如果有空間共同變異結構,以目測方式判斷模型規格使用哪一個結構比較恰當也很容易。

增益模型

您可能只想將優惠對象限制在比較有可能對您有利的人,讓有限的行銷預算發揮最大的影響力。但是,這麼做換來的結果可能令您感到灰心喪志,如果您有大量資料集,而且可能的行為或人口統計預測因子非常多,尤其容易導致這樣的後果。這個時候,增益模型可以幫上您的忙。增益模型又稱漸進建模、真正增益建模或淨建模,其開發宗旨是協助人們做出更好的行銷決策、制定符合個人需求的藥物實驗計畫,更廣泛來說,是要分辨出可能會對某些舉動出現反應的個人特質。

JMP Pro 中的增益建模功能可以讓您進行這類預測。分割模型的理論認定分割是最能凸顯治療差異的方式,JMP Pro 就符合這樣的理論。分割模型有助於分辨最有可能對某個舉動做出有利反應的人群;這些人有助於促成有效率且切中目標的決定,以利根據這些決定做出最好的資源分配,在人的身上發揮最大的影響力。

進階計算統計

JMP Pro 包含用於列聯表的精確統計檢定,以及用於單因子獨立變異數分析 (ANOVA) 的精確非參數統計檢定。此外,JMP Pro 也包含可在大部分的 JMP 報告中進行拔靴法等一般方法。

拔靴法可估計統計資料的樣本分佈。JMP Pro 是唯一一款無需撰寫程式碼即可進行拔靴法統計的統計軟體套件,一鍵式拔靴法功能意味著您只需要按一下即可對 JMP 報告中的任何數量進行拔靴法統計。

在教科書的假設有問題或根本不存在時,此技術非常有用。舉例來說,您可以針對用於預測或決定分位數周遭涵蓋區間的非線型模型結果,嘗試應用拔靴法。您也可以將拔靴法當作另一種估計預測模型中不確定性的方式。拔靴法可讓您以更少的假設來評估預測的可信度,而 JMP Pro 的一鍵式拔靴法使操作輕而易舉。

分享與說明結果

Dow Chemical 為其員工採用了 JMP Pro,希望為員工提供最好的工具來探索大型資料集,並以高效率的方式從中擷取資訊。

閱讀案例

JMP 一直以來注重探索,以及尋找在您的組織內溝通探索結果的最佳方式。JMP Pro 提供所有 JMP 的視覺與互動式功能,使您能以前所未有的方式取得您的資料。JMP Pro 可透過動態連結的資料、圖表與統計資料,將您的調查生動呈現在 3D 繪圖或動畫圖中,顯示出隨著時間發生的變化,進而產生極具價值的新見解,可以應用在建模與解說流程上。

JMP® Pro 主要特色

JMP Pro 包含 JMP 提供的所有功能,外加下列進階分析功能。


預測建模與交叉驗證

神經網路建模
  • 自動處理遺漏資料。
  • 使用梯度提升技術自動選擇隱藏單位數。
  • 擬合單層和雙層神經網路。
  • 自動轉換輸入變數。
  • 三種激勵函數 (雙曲正切、線性、高斯)。
  • 儲存隨機產生的交叉驗證欄。
  • 能儲存轉換過的共變數。
  • 支援驗證欄。
遞迴分割建模
  • 可選擇的方法:決策樹、拔靴法森林 (隨機森林技術)、提升決策樹、K 近鄰、簡單貝氏分類。
  • 設定隨機種子、隱藏多執行序,使用調整設計表、提升決策樹和拔靴法森林適用的隨機梯度下降。
  • 支援驗證欄。
  • 專用模型啟動選項,適用於:拔靴法森林、提升決策樹、K 近鄰以及簡單貝氏分類。
模型比較
  • 比較在 JMP Pro 中建構的模型。
  • 分析工具。
  • 擬合統計 (R2、分類錯誤率、ROC曲線、AUC、升降曲線圖)。
  • 模型平均。
建立驗證欄
  • 自動將資料分割成訓練、驗證和測試等部分;建立驗證欄。
  • 公式隨機、固定隨機、分層隨機、分組隨機、切點法,用於建立抑制集。
  • 按一下驗證欄角色就能在啟動平台時建立驗證欄 (只限公式隨機)。
公式庫
  • 儲存及管理公式欄指令碼。
  • 發佈以下適用項目的命令:判別式、擬合最小平方 (7 個命令)、擬合邏輯 (名目及排序)、決策樹、拔靴法森林、提升決策樹、增益、K 近鄰、簡單貝氏分類法、神經、潛在類別分析、主成分分析 (寬和稀疏)、廣義迴歸、PLS、高斯過程。
  • 產生分數代碼:SAS (DS2)、C、Python、Javascript、SQL (可針對不同目的選擇語法選項)。
  • 使用模型比較,直接比較收集在公式庫中的模型。
  • 分析工具。
  • 顯示指令碼、複製指令碼、複製公式、複製公式轉換欄、執行指令碼在資料表中產生公式欄。
  • 自資料表欄新增公式。

文字探索工具分析

  • 潛在類別分析。
  • 潛在語意分析 (稀疏 SVD)。
  • 主題分析 (旋轉 SVD)。
  • 叢集詞彙和文件。
  • SVD 和主題散佈圖矩陣。
  • 儲存欄:記錄特異向量和主題向量,關聯堆疊 DTM。
  • 儲存公式:特異向量、主題向量。
  • 儲存向量:詞彙和主題。

可靠度模型與存活模型

可靠度方塊圖 (RBD)
  • 建立複雜系統可靠度模型。
  • 使用基本、序列、平行、節點,以及 K out of N 節點建立系統。
  • 使用設計庫裡的項目建立巢狀設計。
可修復系統模擬 (RSS)
  • 離散事件模擬型引擎。
  • 支援傳統維修:維修保養及預防性保養,做為現成建構組件。
  • 在一個工作空間內引進了維護安排圖表以及可靠度方塊圖。
  • 不同構成要素之間以事件與動作項目圖表連結,傳達分組保養與保養相依關係的概念。
參數化存活
  • 銜接擬合模型的廣義迴歸特性,支援選擇不同變數。
廣義迴歸
  • 處理設限資料,讓您使用存活/可靠度資料進行變量選擇。
  • 支援 Cox 比例風險。
  • 支援偉伯 (Weibull)、對數常態 (LogNormal)、指數 (Exponential)、伽瑪 (Gamma)、常態 (Normal) 及 ZI 系列分佈。

擬合模型

廣義迴歸
  • 正規化技術:Ridge、Lasso、適應性 Lasso、Double Lasso、Elastic Net 以及適應性 Elastic Net。
  • 向前選擇及兩階段向前選擇。
  • 分位數迴歸。
  • 處理設限資料,讓您使用存活/可靠度資料進行變量選擇。
  • Cox 比例風險。
  • 儲存模擬公式在通用模擬平台中使用。
  • 常態 (Normal)、對數常態 (LogNormal)、偉伯 (Weibull)、柯西 (Cauchy)、指數 (Exponential)、伽瑪 (Gamma)、貝他 (Beta)、二項 (Binomial)、貝他二項 (Beta binomial)、浦式 (Poisson)、負二項分佈 (Negative binomial distribution)。
  • 零膨脹二項 (Zero inflated binomial)、貝他二項 (Beta binomial)、浦式 (Poisson)、負二項 (Negative binomial)、伽瑪 (Gamma) 分佈。
  • 驗證方法選擇:驗證欄、K 折 (KFold) 驗證、保留驗證、留一驗證、BIC、AICc、ERIC。
逐步迴歸
  • 支援驗證欄。
邏輯迴歸 (名目及排序)
  • 支援驗證欄。
標準最小平方
  • 支援驗證欄。
偏最小平方 (PLS)
  • 擬合模型中的 PLS 特性支援連續或分類反應;連續或分類因子、交互作用項和多項式項。
  • NIPALS 式缺少值估算。
  • 儲存隨機產生的交叉驗證欄。
  • 標準化 X 選項,可在套用置中和縮放選項之前,對多項式效果中包含的個別變量進行置中和縮放。
  • 驗證方法選擇:驗證欄、K 折 (KFold) 驗證、保留驗證、留一驗證。
混合模型
  • 指定固定、隨機和重複效果。
  • 相關變量群組,設定受試對象和連續效果。
  • 選擇重複的共變數結構。
  • 變異圖,可做為視覺診斷,確定哪種空間相關結構最合適。

覆蓋陣列

  • 設計與分析覆蓋陣列。
  • 建立設計後進行最佳化,進一步減少分析次數。
  • 使用禁用組合篩選條件標明不可用的測試區域。
  • 匯入其他軟體建立的覆蓋陣列;分析覆蓋範圍並可選擇進一步最佳化。

多變量法

判別分析
  • 支援驗證欄。

專門模型

高斯過程
  • 能透過快速 GASP 擬合含上千個資料列的模型。
  • 在高斯過程模型中加入類別變數。

消費者研究

增益模型
  • 決策樹法,用於找出最有可能對某項優惠或待遇表現出有利反應的消費客群。
  • 遞增的真實增益淨建模技術。
  • 支援驗證欄。
選擇模型
  • 支援選擇模型使用層級貝式分類法。
  • 儲存對象估計值和貝式鏈。
關聯分析
  • 支援購物籃分析。
  • 分析文字探索工具平台所產生的堆疊文件詞彙矩陣。

進階計算統計

單因子分析
  • 無母數精確檢定。
列聯表分析
  • 精確測量關聯性。
一般拔靴法
  • 單鍵就能在大多數報告中分析出拔靴統計數據。
一般模擬功能
  • 在大多數報告中都能單鍵模擬統計數據。
  • 能計算絕大多數資料的檢定力。
  • 支援參數拔靴法。
  • 隨機檢定。

系統需求

JMP 執行於 Microsoft Windows 和 Mac OS。