使用 JMP®
進行統計、預測建模以及資料探勘

統計是一門收集、說明及分析資料的學科,目標是量化變數並找出能發揮實際效用的關係。這項技術能幫助您解題、發掘機會,以及在不確定的情況下做出明智的決定。只要能妥善運用統計,不論在什麼樣的環境下,您都能夠從中得到深刻見解、先見之明,以及不斷學習與進步的方法。

不論您的目標是說明、預測或解釋,JMP 的統計開發範式都會讓您刮目相看,因為它充分運用了視覺呈現與模型技術之間原本就存在的協同作用。資料不分形狀與大小,只要將資料存入記憶體中,不論您目前具備的統計專業知識到哪裡,您都能夠運用 JMP 充分發揮資料的價值。

JMP 提供完善的工具,能夠分析單變量線性和非線性迴歸,可以用更實用的多變量方法進行探勘、降維和建模,以及能夠分析時間序列與分類資料。JMP 和 JMP Pro 旨在因應多數使用者在多數情況下的需求,以易於領會又不破壞分析深度的方式呈現各種技術與結果。JMP 另有一組建模公用程式,能夠預先處理常見的資料問題,而 JMP Pro 則提供一組豐富的精密演算法,可將複雜資料建構出更好的模型。

有了 JMP,您不僅可以快速而正確地完成建模,還可以使用公式庫 (JMP Pro) 輕鬆比較和對比以不同方法建構的模型,並產生可部署於新案例的 C、Python、JavaScript 或 SAS 程式碼。

透過視覺化與互動式報告和分析器,JMP 可以幫助您將簡單或複雜的統計成果,傳給不見得熟悉統計方法、但又需要瞭解您的成果並採取行動的人。產生自 JMP 的模型結果也可以在行動或桌面 Web 瀏覽器中進行動態剖析。

最後,使用整合設施,JMP Pro 可以透過蒙地卡羅模擬法輕鬆地為擬合模型 (簡單或複雜) 執行樣本量計算。這可以幫助您評估收集到的資料是否有用,以解決目前的問題。

迴歸

線性迴歸模型類別相當多元且普及。JMP 將這些功能強大的方法交給各種技能程度的從業人員,讓他們方便使用。

您可以使用「以 X 擬合 Y」測試單一輸入與結果之間的任何模型相依性。JMP 將一般認定不相同的統計方法組合成一個易懂的整體,並且提供圖形輸出,讓您更容易理解結果。

擬合模型平台提供的環境可使用指定的固定和隨機效應與既定的錯誤條件擬合單純或複雜模型。您可以在效應摘要報告中拖放條件,查看這些條件對於模型造成的影響。

無論您慣用哪一種建模方法,JPM 都提供一套完整的手動和自動方法,以及適當的診斷,讓您能夠快速建構最多類型的線性模型。「資訊缺失」法可以讓所有資料列中的資訊派上用場。具體擬合選項能讓您保持適當的注意力;JMP Pro 增加了混合模型,用於正確處理重複量測及空間量測;廣義迴歸,用於正規化迴歸法或懲罰迴歸法,例如有助於分辨可能有解釋力的 X 的 Elastic Net。JMP Pro 也支援分位數迴歸。

JMP 讓您能夠輕鬆比較競爭模型。可以使用整合方式處理多個反應,而且分析工具能夠簡化比較和對照不同擬合可解讀性和結果的流程。分析工具也可用於尋找能將 Y 最佳化的設定,而蒙地卡羅模擬則可幫助您評估如何將 X 中的變異傳達到 Y。

非線性平台可用於模擬非線性關係。非線性模型使用標準最小平方或自訂損失函數。JMP 提供非線性模型類型庫,類型庫中包含生物化驗和藥物動力學研究所需的模型類型,您不需要輸入開始值或輔助方程式。支援分組變數,您可以快速輕鬆地使用圖形顯示功能隔離任何受試對象效應。自訂損失函數工具提供更大的彈性,例如,它可以讓您使用重複再加權最小平方進行穩健迴歸。

分類資料

量測的回應指示特定所屬類別時,JMP 的分類平台可提供回應資料和多重回應資料的表格、摘要和統計檢定。可透過各種設定產生此類資料,包括檢定結果、分類缺陷或副作用,以及管理調查。

分類資料能以各種格式表示,部分原因是由於其應用廣泛。分類平台的一個特別優勢在於可以處理這種多樣性,且無需在探索和分析之前變更資料。可以使用一個或多個欄位來定義在什麼樣的類別之中和之間評估回應的變化,且「分類」報告會按類別納入產生的份額和頻率圖表。將這些圖表與 JMP 的資料篩選器相結合,可輕鬆快速地檢視大規模的調查資料。報告也可以顯示相關列表和交叉列表,視需要快速轉置以便檢視或列印。

根據回應的性質,您還可以透過統計方法解決以下問題:

  • 回應模式是否隨樣本類別而變化?是否隨時間變化?
  • 在各個回應類別中,所有樣本類別的評分是否相同?
  • 評分者的評分有多接近?
  • 不同方法對應到的風險是什麼?

決策樹

JMP 的分割平台讓您能夠在輸入值 (X) 中找到最能預測輸出值 (Y) 變異的片段或群組。X 和 Y 都可以是類別值或連續值。尋找適當的 X 和適當的群組或適合這個 X 的切點,再據以分割資料,這是個遞迴流程 – 您可以繼續執行到找出適用的結果為止。結果自然會以樹狀結構呈現,您也可以掌握到哪一個 X 最有助於說明 Y 變異的重要資訊。

在缺少值的情況下,樹狀結構仍然完整,可以直接順應 X 的任何聯合效應進行調整。您可以使用決策樹、拔靴法森林 (限 JMP Pro) 或提升決策樹 (限 JMP Pro) 來擴充您的樹狀結構。請注意,以單純決策樹歸納出新資料的可能性不高,因此,如果需要預測檢定力,您應該研究 JMP Pro。

神經網路

透過 JMP 的 Neural 平台,您可以建構具備一層 (JMP) 或兩層 (JMP Pro) 隱藏節點並充分連結的神經網路。在 JMP 中,所有節點都有相同的啟動功能。在 JMP Pro 中,每個節點都可以具備三種不同啟動功能中的一種。各層的節點數量不拘。

JMP Pro 還能自動處理遺失資料、在平台內轉換 X,並結合應用四種懲罰法中的一種,來使用增強功能幫助您解決神經網路複雜的情況。

文字探索工具

JMP 中的文字探索工具平台讓您能夠探索許多形式的自然語言文字資料—例如調查回應、維修記錄、工程報告以及自由作答欄位。文字探索工具運用「詞袋」法,將文字剖析成 token,用於建構文件字詞矩陣。您可以利用這個矩陣輕鬆分類並發掘出文字資料蘊藏的意義,而不需要選擇手動處理或完全忽略。

此外,JMP 的文字探索工具提供擷取基本關鍵字的方法、提供能清理文件而不改變原始文字的本機重新編碼,而且可以選擇依主題字詞雲開發。您可以找到文字資料中的潛在資訊,也可以運用資訊更豐富的方式處理文字資料。

JMP Pro 的文字探索工具包含更多分析工具,這些工具使用奇異值分解 (SVD) 將類似文件按主題分組。這個平台讓您能夠叢集文字文件、叢集屬於同一個文件集的字詞,或是使用潛在類別分析叢集文件。您也可以在預測建模工作流程中進行判別分析,以及使用驗證欄。

多變量相依法

多變量分析既可以聚焦於觀察 (列),也可以聚焦於變數 (欄),而且可以平等地看待變數 (相依法),也可以區分效果 X 和反應 Y (依賴法)。但無論您的分析目標為何,JMP 都會幫您把工作做好。(關於 X 和 Y 的多變量方法,請參見「多變量依賴法」部分。)

在多變量環境中,考慮資料品質、離群值的識別和處理、缺失值的模式非常重要。JMP 提供的公用程式不需繁瑣的工作即可解決這些問題。一般而言,這些問題需要隨著分析的進行迭代解決,而 JMP 的互動功能就是為這種工作方式而設計的。

多變量平台通常是多資料欄分析的切入點。它可以讓您快速評估所有成對數字變量之間的關聯以及參數與非參數相關性、識別離群值並推算缺失值。

JMP 為相依法提供了主成分分析 (PCA)、因子分析、叢集、潛在類別分析、多維標度、關聯分析 (JMP Pro)、常態混合和自我組織映射,各採用展開式的分析方法,因此您可以根據資料的樣貌來形塑自己的方法。

相關性存在時,PCA 可讓您減少描述的維度,而且 JMP 的實作可以有效地容納非常大的資料。如果您使用的是分類變數而不是定量變數,則可以使用 JMP 來執行多重對應分析 (而非 PCA) 來獲得類似的結果。因子分析可讓您根據較少數未觀察到的因子,對觀察到的變數進行變異性建模。因子分析平台可供您在一份報告中執行多個擬合和旋轉,而條件格式可供您抑制較小的值。

叢集是非監督式學習中的一項關鍵技術,它會形成子群組,使特定子群組中的案例比另一個子群組中的更相似。JMP 的叢集平台可讓您在分析之前調整和轉換變數、提供各種距離度量,並包含階層與 k 平均演算法叢集。階層叢集會產生一個樹狀圖,供您使用叢集摘要或其他經驗法則進行互動操作,以決定最有用的叢集數。您也可以在堆疊資料中加入空間量度,以叢集特定的缺陷模式。

潛在類別分析提供了叢集的替代方法,而關聯分析 (也稱為購物籃分析)可識別特定物件 (例如經常一起購買的物品)之間的關聯。

多變量依賴法

針對多變量相依法,JMP 提供偏最小平方迴歸 (PLS)、判別分析、單純貝氏和近鄰分類法,以及高斯過程。

PLS 是多功能技術,可以使用任何形狀的資料,也可以使用任意數量的 X 和 Y。通常適用於 X 數量多於資料列數而不適合使用線性迴歸的情況,但廣義而言,這也是相當適合用於預測建模的方法。

JMP 的 PLS 平台提供基本功能,但 JMP Pro 的擬合模型平台中也有一個 PLS 特性,可以讓您擬合更多與檢定力和交互作用條件相關的複雜模型。使用 JMP Pro 時,也可以使用任何一種驗證方法推算遺漏值與建構 PLS 模型。

JMP 提供 NIPALS 和 SIMPLS 擬合演算法,並且以自動作業方式找出最適合納入模型中的潛在因子數量。JMP 提供所有常用的診斷功能,讓您能夠確認模型適合度。您也可以使用數量較少的條件快速產生精簡的 PLS 模型,只要在圖形輸出中選擇適當的項目,或者定義一個 VIP 門檻值即可。如果您得到的是分類回應,您可以使用 JMP Pro 中的 PLS 判別分析。

判別平台可以讓您了解哪一種 X 組合有助於解釋 Y 所屬的類別。這個平台提供線性、二次或正規化判別方法,可以視需要逐步選擇 X,也可以讓您輕鬆檢驗不確定或分類錯誤的資料列,從而決定必須採行的後續措施或補救措施。判別能夠有效率地克服廣泛或非常廣泛的問題,方法是使用最理想的預估共變異數矩陣,而取得這個矩陣的方法則是適度減少非對角項目。

高斯過程可以用於確切插入屬於 X (任何數量) 之函數的 Y 值 (用於建構判別系統的替代模型),或者當成較普遍的建模工具。

時間序列

JMP 中的時間序列平台讓您可以探索、模擬及預測單變量時間序列。您可以運用一般診斷方式加強您所用的統計建模法,包括自相關圖和部分自相關圖、變異圖、AR 係數圖以及譜相密度圖。您很容易就能拆解時間序列,以利去除趨勢和季節效應,包括使用 X11 方法。

您只要按一下就可以使用多種參數建構數個時間序列 ARIMA 模型,也可以使用各種優良指數選取最佳模型,例如 AIC、SBC、MAPE 和 MAE。您可以建構轉換模型,以一或多個輸入序列為條件模擬輸出時間序列,如有必要可以應用前置白化功能處理輸入值。如有需要,您也可以產生等效的 PROC ARIMA 程式碼,在 SAS 中執行您的模型。

時間序列平台也包含許多時間序列平滑法,包括 Holt 指數平滑法、季節指數平滑法,以及 Winter's 方法。

在任何情況下,您都可以根據您所預測的未來行為,產生符合信賴區間的互動預測。