质量管理中回归建模的可视化解决方案
在实际工作或生活中,我们常常会与相互关联的变量打交道,并且想研究它们之间的关系,例如:钢铁强度与含碳量、汽车使用年限与年平均维修成本、销售收入与广告费用等等。理论上讲,回归建模(Regression Modeling)往往是揭示这些内在规律的理想工具。但是,专业的回归建模并不是像从任意几组数据中得到一个类似Y = a*X + b的方程那么简单,它还包括了相关系数的预览、最小二乘法的求解、模型的方差分析检验等诸多概念抽象、计算复杂的统计学专业内容,这使得不少非统计专业出身的工程技术和科研人员望而却步,甚至碰都不敢碰,长期将回归建模这样的好方法束之高阁。
诚然,回归建模的种类繁多,应用广泛,但是万变不离其宗,回归分析的核心进程可以概括为五大步骤,具体内容参见图一。而且,在回归建模的实施过程中,我们完全可以将枯燥乏味和晦涩难懂转化为情趣盎然和直观形象,在鼠标的轻松点击中解决实际问题。怎样才能实现这一切呢?让我们以一个典型的流程改进案例为研究背景,以高级统计分析软件JMP为分析平台,切实体验一下回归建模的可视化解决方案。
图一 回归分析的执行路径图

首先,明确研究的对象和范围。如图二所示,用流程图的形式详细描述我们正在研究的制造或服务流程,了解流程输出的关键质量参数是什么(如良品率等),影响关键质量参数的输入因素又有哪些(如清洁度、材料厚度、电流和加工时间等)。根据上述结果,收集并整理相关数据,得到如图三所示的表格(图中仅显示所有数据中的前12条记录),为下一步分析做好准备。
图二 通用的业务流程图

图三 制造流程中的相关数据表格

其次,了解数据,选择回归模型。显然,良品率是因变量,清洁度、材料厚度、电流和加工时间等是自变量。为了获取最简洁有效的回归模型,我们只能从中选择一个最有代表性的自变量。究竟选择哪一个最合适呢?从图四所示的多元变量散点图矩阵中可以轻松地发现:电流与良品率的线性相关特性最为明显。因此,我们确定将以良品率为因变量,以电流为自变量去构建一个一元线性回归模型。
图四 多元变量的散点矩阵图

再次,模型求解。通过最小二乘法的计算,我们可以分别求得斜率和截距,从而得到回归拟合直线的方程为良品率 = 56.70 + 4.79*电流,说明当电流每提高1个单位时,良品率可大约提高4.79个百分点。这个结果也可以通过图五中的那条绿色拟合直线来展示。观察该图形可知,回归模型的拟合效果还可以,但是遵循回归建模的总体分析思路,还不能马上进入模型应用阶段。
图五 一元线性回归的拟合图

然后,模型检验。用于模型检验的统计量和方法很多,其中最基础和最重要的就是残差诊断,即检验残差(实际值与拟合值的差值)是否具备独立性、正态性、不同预测值时的等方差特性和不同自变量时的等方差特性。图六所示的残差分析的整合图包含了残差的运行图、正态分位数图、电流与残差的散点图和预测值与残差的散点图,从这些图形中可以观察到,除正态分位数图中的数据点呈线性关系外,其余图形中的数据点均呈随机分布。因此我们有比较充足的把握说,该模型没有违背线性回归成立时残差必须具备的基本假设条件。
图六 残差分析的整合图

最后,实际应用。在确认回归模型有效的情况下,我们终于可以依据原有的线性模型,在[4.0, 7.5]的电流范围内,对良品率进行估计和预测。如图七所示,深绿色的区域是良品率的95%均值置信区间,浅绿色的区域是良品率的95%单值置信区间。具体举例来说,当电流等于6时,平均良品率的波动范围是[84.8, 86.1],单次良品率的波动范围是[80.6, 90.3]。
图七 一元线性回归的区间预测图

西方有一句谚语:A picture is more than one thousand words.(一幅合适的图形胜过千言万语。)这个道理在我们进行企业管理、技术革新的时候同样适用。以上的实例分析虽然简单,但也是可视化回归建模的有效实践。特别值得一提的是,除去现场调查和数据收集的工作,所有基于数据分析的图形制作借助互动式可视化统计探索分析软件JMP,仅需两三分钟即可全部完成,大大提高了我们的工作效率。这无论是对统计学专家,或者是对一线技术人员,还是对高层管理人员都是很有裨益的。在大力倡导“全员参与精细化管理”的今天,回归建模的可视化解决方案必然会受到更多注重“数据和客观事实”人士的欢迎。