JMP Background

JMP®的统计、预测建模和数据挖掘

统计是进行数据收集、描述和分析,以便将变异量化并发现有意义关系的学科。 它可以帮助您解决问题、揭示可能性并在不确定的环境中做出明智的决定。 通过有效地应用统计结果,无论您的工作背景如何,都可以深入了解具体信息、制定长远计划并获得持续学习和改进的方法。

无论您的目标是描述,预测,还是说明,都可以借助JMP可视化和建模之间的内在协同关系,从统计发现中受益。 无论数据的形式和规模如何,只要与内存条件匹配,JMP就能最大程度地加以利用,而无需考虑您当前的统计专业知识水平如何。

JMP为一元线性和非线性回归分析提供了一系列完善的工具;为探索方法、减少数据维度和建模、时间序列和分类数据的分析提供了更有效的多元工具。 JMP和JMP Pro旨在满足多数用户的普遍性统计需求,以简单易用的方式提供多种技术和分析结果,但也不需要放弃深层次的分析。 此外,JMP还具有一系列处理前期常见数据问题的建模工具,而JMP Pro则纳入了大量高级算法,用于对杂乱的数据进行更好地建模。

使用JMP,不仅可以快速、正确地完成建模,还可以通过公式存储库(JMP Pro)轻松比较和对比使用不同方法构建的模型,并用C、Python、JavaScript或SAS生成能够部署以对新案例评分的代码。

通过可视化和交互式的报表和刻画器,JMP可帮助您就简单或复杂的发现结果与不熟悉统计方法的人进行沟通,通常此类人员需要理解您的发现结果,并根据结果采取相应的行动。 您还可以在移动或桌面的网络浏览器中动态刻画用JMP生成的模型结果。

最后,通过一种集成设备,JMP Pro可以轻松地运用蒙特卡罗模拟对简单或复杂的拟合模型执行样本大小计算。 这将帮助您评估为解决现有问题而收集到的数据的功效。

回归

线性回归模型类别丰富而普遍。 JMP将这些强大的统计方法以简单易用的方式提供给各种技能水平的从业者。

借助“以X拟合Y”,您可对单个输入和输出之间的相依性进行检验和建模。 JMP将通常被视为不同的一组统计方法统一为一个紧密结合、易于理解的整体,并提供图形输出,让您可以方便地理解结果。

“拟合模型”平台提供一种环境,能用指定的固定效应、随机效应和限定的误差项拟合简单或复杂的模型。 效应汇总报表让您可以通过拖放不同的模型项来了解它们对于模型的影响。

无论您偏好什么模型构建方法,JMP都能提供一整套手动和自动方法,并附带适当的诊断功能,让您能够迅速构建大多数线性模型类型。 “信息性缺失”方法可让所有行中的信息都发挥作用。 特定的拟合选项可让您保持专注;JMP Pro通过添加混合模型(用于正确处理重复和空间测量值)和广义回归(采用正则或惩罚回归技术,如可帮助您识别具有解释功效的X变量的弹性网络)扩展了整体功能。 JMP Pro还支持分位数回归。

JMP让您能够轻松比较竞争模型。 以集成的方式处理多个响应,并且借助刻画器,使对比各个拟合的可解释性和结果变得更加简单。 刻画器还可让您找到优化Y值的设置,而蒙特卡罗模拟可帮助您评估X中的变异是如何传输至Y的。

非线性平台可对非线性关系进行建模。 非线性模型使用标准最小二乘法或自定义损失函数。 JMP提供了一个用于生物测定和药代动力学研究的非线性模型类型库,无需输入起始值或辅助公式。 JMP支持分组变量,您可以使用图形显示迅速、方便地分离任何对象的效应。 自定义损失函数工具可提供更大灵活性,例如让您可通过迭代再加权最小二乘进行稳健回归。

分类数据

在测量的响应表示特定类别的成员关系时,JMP中的分类平台提供响应数据和多重响应数据的表格、汇总和统计测试。这些数据是通过多种不同的形式产生的,包括检验结果、缺陷分类或副效应以及调查管理。

在一定程度上,由于分类数据的应用多样性,分类数据要能够用各种格式来呈现。 分类平台的一个特别优势在于:它可处理这种多样性,而无需在探索和分析之前重新塑造数据。 可以用一列或多列来定义被评估响应各类别之间的变异,分类报告各包含各类别份额和频数的图表。 将这些图表与JMP中的数据过滤器一起结合使用,可以提供大型调查数据快速而简便的查看方法。 报表还可显示关联表和交叉表,如果需要,可以将这些表格快速转置,以便轻松查看或打印。

根据响应的性质,可用统计方式解决如下问题:

  • 响应模式是否会随样本类别变化?是否会随时间改变?
  • 对于每个响应类别,不同样本类别的评级是否相同?
  • 评级员达成一致的程度如何?
  • 不同处理的相对风险是什么?


JMP中的分割平台让您可以从众多输入值(X)中找到截断点或分组依据,进而准确地预测输出值(Y)中的变化。 X和Y都可以是分类或连续数据。 通过找到适合的X值和该X值中适合的分组依据或截断点来分割数据是一个递归的过程 - 您可以持续查找,直到找到一个有用的拟合。 结果将自动以树的方式呈现,您还可得到有关哪个X对解释Y变异作用最大的重要信息。

即使存在缺失值,树也是稳健的,而且树可以容纳X之间的各种联合效应。 您可使用决策树、自助法森林(仅限JMP Pro)或提升树(仅限JMP Pro)来完善树。 请注意,简单决策树可能无法很好地推广到新数据,因此如果需要预测功能,应当使用JMP Pro。

神经网络

JMP中的神经平台让您可以使用一层(JMP)或两层(JMP Pro)隐藏节点构建全面关联的神经网络。 在JMP中,所有节点的激活函数全都相同。 在JMP Pro中,每个节点可以从三种不同的激活函数中选择一种。 每层可以包含任何数量的节点。

JMP Pro还能够自动处理缺失数据,在本平台中转换X,并结合应用四种惩罚方法中的一种来使用提升法促进神经网络分析复杂情况。

文本分析器

JMP中的“文本分析器”平台可用于研究多种形式的自由文本数据——调查响应、修复日志、工程报表或自由响应字段等。文本分析器采用“词袋”方式,将文本解析为构建文档词条矩阵的令牌。通过文本分析器,可以轻松地对文本数据进行分类并发现其中的含义,而不必选择手动处理或完全忽略。

此外,JMP中的文本分析器提供多种基本关键字提取方法,通过本地重新编码清除文档,不必更改原始文本,而且可按主题构建词云。您可以找出文本数据中潜藏的信息并以信息方式处理文本数据。

JMP Pro中的文本分析器还提供其他分析工具,使用奇异值分解(SVD)来按照主题分组相似的文档。使用此平台,可对文本文档进行聚类,对一系列文档中的词条进行聚类,或对采用潜在类分析的文档进行聚类。还可进行判别分析,以及在预测建模工作流程中使用验证列。

多元相互依赖性技术

多元分析可专注于观测值(行)或变量(列),以平等的方式(相互依赖性技术)处理变量或在效应X和响应Y之间进行区分(相依性技术)。然而,无论您的分析目标是什么,JMP都可助您完成工作。(有关X和Y的多元方法,请参见“多元相依性技术”一节)。

在多元情景下,关键在于考虑数据质量、离群值的识别和处理以及缺失值的模式。JMP提供的丰富工具让这些问题的处理不再单调乏味。通常这些问题需要随着分析的展开以迭代的方式进行处理,JMP的交互式操作方式就是针对这一处理方式而设计的。  

多元平台通常是对众多列做任何分析的入口点。 它可让您迅速评估所有数值型变量对之间的关联性、参数及非参数相关性,识别离群值和对缺失值补缺。

对于相互依赖性技术,JMP提供主成分分析(PCA)、因子分析、聚类、潜在类分析、多维尺度、关联分析(JMP Pro)、正态混合和自组织图。每一种技术都采用展开式分析方式,使您可以根据数据揭示的信息来塑造自己的分析方法。

主成分分析让您可以在具有相关性的情况下减少描述的维度,在JMP中执行这种分析可以高效地处理十分宽泛的数据。 如果您拥有的是类别变量而不是定量变量,那么您可以使用JMP进行多重对应分析(而不是主成分分析)来获得类似的效果。 因子分析使您可以根据较小数量的非观察因子对观察变量之间的变异性进行建模。 因子分析平台允许在一个报告中有多个拟合和旋转,而条件格式化可让您隐藏较小的值。

聚类是无监督式学习的关键技术,可形成子组,从而使同一特定子组中的案例比另一子组中的那些案例更为相似。 JMP中的聚类平台使您可以在分析之前转换变量,更改变量的尺度,还提供了多种距离测量方法,并且加入了分层和K均值聚类算法。 层次聚类可生成一张树状图,您可以通过交互的方式对树状图进行操作,使用聚类汇总或其他启发式分析方法来确定最有用的聚类数。 您也可将空间度量添加到堆积的数据中,从而对特定缺陷模式进行聚类。

潜在分类分析可以作为聚类的替代方法,而关联分析(又称为购物篮分析)则能够识别特定对象(比如经常一同购买的物品)之间的联系。

多元相依性技术

对于多元相依性技术,JMP提供偏最小二乘法回归(PLS)、判别分析、朴素 Bayes 和最近邻分类器以及高斯过程。

偏最小二乘是一种通用分析技巧,可使用任何形式以及具有任何数量X和Y的数据。它通常适用于X数量大于行数而无法进行线性回归的情况,也是广义预测建模中的一种有用技术。

JMP中的偏最小二乘平台提供了一些基本功能,而JMP Pro的拟合模型平台有一个偏最小二乘的特质,让您可以拟合涉及幂和交互作用项的复杂模型。 借助JMP Pro,您还可以插补缺失值,并使用一系列验证方法来构建偏最小二乘模型。

JMP同时提供了NIPALS和SIMPLS两种拟合算法,并且可以自动查找最适合加入到模型中的潜在因子数。 它提供所有有用的诊断,从而使您可以检查模型的适当性。 您只需要在图形输出中进行适当选择或定义VIP阈值,就可以减少模型项数,快速生成精简的偏最小二乘模型。 如果您的响应为分类响应,则可以使用JMP Pro中的偏最小二乘判别分析。

“判别”平台可让您了解哪些X的组合有助于解释Y的类别成员关系。它提供用于判别的线性、二次或正则方法,可根据需要逐步选择X,并且可让您方便地检查不确定或误分类的行,从而确定所需的后续措施或补救措施。通过正确使用收缩非对角线项而得到的最优协方差估计矩阵,判别平台可以高效地处理范围宽广甚至极为宽广的问题。

高斯过程可用于精确内插Y值,而Y值是一个任意多X变量的函数(用于构建确定性系统的替代模型),或者被当作一个更具通用性的建模工具。

时间序列

JMP中的时间序列平台让您可以对一元时间序列进行探索、建模和预测。 您的统计建模方法可通过有效诊断变得颇具见解,这些诊断包括自相关和偏自相关图、方差变化图、自回归系数和谱密度图。 您可以轻松分解时间序列,以此来去除趋势性和季节性效应(包括使用X11法)。

您只需单击鼠标即可对某个时间序列构建多个具有大量参数的ARIMA模型,并使用各种评价值(例如AIC、SBC、MAPE和MAE)来选择最佳模型。 您可以构建转换模型,根据一个或多个输入序列对一个输出时间序列进行建模,并根据需要对输入序列进行预白化处理。 如果需要,您也可生成等同的PROC ARIMA代码在SAS中运行此模型。

时间序列平台还包含大量用于时间序列的平滑功能,其中包括霍尔特指数平滑法、季节性指数平滑法和温特法。

无论什么情况,您都可以交互式地生成可预测未来行为的报告结果,其中包含了置信区间。

Back to Top