qileilove

blog已经转移至github,大家请访问 http://qaseven.github.io/

量化项目管理案例:缺陷趋势预测利器(5)

在上一篇里,已经介绍了如何选择曲线模型,这一篇里,将会介绍怎样预测出该模型下符合实际数据的曲线,选择合适的模型。(模型的拟合算法将单独介绍)

  给定一组实际数据,要让你预测出今后的一段时间,该数据的发展趋势,很多情况下,你并不能一下子就找到符合这组数据发展趋势的模型。而实际上,又有太多模型可以选择,每一个模型都会得到一个不同的发展趋势。好比买衣服,琳琅满目、各式各样,可是,到底哪一件适合你要出席的场合呢?所以,到底是指数合适,还是Gompertz合适,又或者是Logistic合适呢?

  这个时候,就迫切的需要一个评判的标准,这种标准称为拟合度。拟合度的评价也有几种方法,本文列出了几种常用的拟合度判断方法,并对这几种方法进行总结、对比。

  ◆ 利用相关系数R2来进行拟合度判断

  相关系数R2是一种常见的拟合度的判断方法,常用于判断线性曲线的拟合度,然而在许多非线性曲线的拟合度判定过程中使用的依然是判断R2的方法,这个判断标准在实践中也被证明是符合实际的。实际中,R2较大的曲线模型,往往也是拟合较好的模型。

  ● 计算残差平方和Q=∑(y-y*)^2,其中,y代表的是实测值,y*代表的是预测值

  ● 计算相关系数R2=1-Q/∑(y-ya)^2,其中,y代表的是实测值,ya代表的是实测值的平均数

  ● 判断方式:R2越大、越接近1,认为拟合度越好

  ◆ 利用变换的R2来进行拟合度判断——以Gompertz曲线和Logistic曲线为例

  Gompertz曲线和Logistic曲线的预测过程(无论是三点法还是三和法)首先都需将模型的函数进行变换(对Gompertz模型进行对数变换,对Logistic模型进行倒数变换),然后再运用三和法或者三点法的原理进行计算。所以这里提出一种运用变换的相关系数R2来进行拟合度判断。

  ● Gompertz曲线

  ◇ 分别将实测值和预测值进行对数变换

  ◇ 将对数变换后的实测值记作y,将对数变换后的预测值记作y*

  ◇ 根据相关系数的计算方法,计算变换后的残差平方和Q和相关系数R2

  ● Logistic曲线

  ◇ 分别将实测值和预测值进行求倒数变换

  ◇ 将求倒变换后的实测值记作y,将求倒变换后的预测值记作y*

  ◇ 根据相关系数的计算方法,计算变换后的残差平方和Q和相关系数R2

  ◆ 利用实测数据与拟合数据来进行拟合度判断

  由于R2是用于判断线性模型的拟合程度的,对于非线性曲线,似乎不具有什么理论上的支持,所以,出现了许多针对非线性曲线进行的拟合度判定。下面的方法是其中的一种。

  ● 同样,计算残差平方和Q=∑(y-y*)^2和∑y^2,其中,y代表的是实测值,y*代表的是预测值

  ● 计算新的拟合度指标RNew=1-(Q/∑y^2)^(1/2)

  ● 判断方式:RNew越接近1,认为拟合度越好

  ◆ 利用余弦函数进行辅助判断

  从上一种方法中可以看出,在参数个数相同的前提下,拟合值越接近实测值,则认为拟合得越好。由此出现了根据几何意义得到的方法:若把实测值和预测值视为N维空间中的向量,若它们之间的夹角Θ越小,则可以认为拟合得越好。这里,计算角余弦系数FR=cosΘ=∑(yy*)/((∑y^2)^(1/2)* (∑y*^2)^(1/2))。

  经实验证明,RNew的分辨率和灵敏度都较高,计算简单。实际中,可先用FR初选,再用RNew精选,可能会得到较好的结果。

◆ 平均绝对偏差、平均平方误差、平均预测误差和平均绝对百分误差

  下面将介绍平均绝对偏差、平均平方误差、平均预测误差和平均绝对百分误差这四个评价指标。下面各指标中,At表示时段t的实际值,Ft表示时段t的预测值,n是整个预测期内的时段个数(或预测次数)。

  ● 平均绝对偏差MAD:Mean Absolute Deviation

  平均绝对偏差就是整个预测期内每一次预测值与实际值的绝对偏差(不分正负,只考虑偏差量)的平均值。

  公式:MAD=(∑|At-Ft|)/n,t=1…n

  MAD与标准偏差类似,但更容易求得。MAD能较好地反映预测的精度,但它不容易衡量无偏性。

  ● 平均平方误差MSE:Mean Square Error

  公式:MSE=(∑At-Ft)^2/n,t=1…n

  MSE与MAD相似,可以较好的反映精度,但无法衡量无偏性。

  ● 平均预测误差MFE:Mean Forecast Error

  平均预测误差是指预测误差的和的平均值。

  公式:MFE=(∑(At-Ft))/n,t=1…n

  其中,∑(At-Ft),t=1…n被称作预测误差滚动和RSFE(Running Sum of Forecast Errors)。如果预测模型是无偏的,RSFE应该接近于0,即MFE应接近于0。因此MFE能很好的衡量预测模型的无偏性,但它不能反映预测值偏离实际的程度。

  ● 平均绝对百分误差MAPE(Mean Absolute Percentage Error)

  公式:MAPE=(∑|(At-Ft)/At|)/n,t=1…n

  一般认为MAPE小于10时,预测精度较高。

  MAD、MFE、MSE和MAPE是几种常用的衡量预测误差的指标,但单一的指标很难全面地评价一个预测模型,在实际中可以将它们结合起来使用,选择较为合适的模型。

  经公司内部项目数据的实验证明,这几种拟合度的判断方法得到的结果是相互印证的,某一个模型计算得到的几种拟合度的趋势往往是相同的,这样可以辅助我们去判断选择较为合适的模型。但记住这样一句话:“所有的模型都是错的”。任何一个模型都有自己的局限性和假设要求,没有一个模型能够被证明是现实数据的真实反映。模型只是用来帮助我们解决问题的一种工具,可靠性增长模型也不例外。选择模型前,考虑实际使用中可能出现的现象,多问自己几个问题,多去寻找一些答案,而不是仅仅依靠拟合度的计算,以此来有效的构建合适的模型。

  下表是几种拟合度指标的使用场景。

  最后要说的还是那句话:所有的模型都是错的。依靠拟合度并不是目的,更不是真理,在选择模型前,多问自己几个问题,您的经验和知识,同样是选择时的重要手段哦。

拟合度指标

使用场景

R2

对线性曲线,R2能反映出拟合的好坏,对非线性曲线,实际也能得到较符合的结果,简便计算时可使用

变形R2

R2更有理论说服力,拟合趋势与R2相近。但对某些情况可能无法进行计算,比如实测数据中出现0时,无法计算对数值和倒数值

RNL

判断非线性曲线拟合度时更有理论基础,试验证明其分辨率和灵敏度都较高,可在细选模型时使用

FR

实践应用时,先用FR(放大镜)初选,再用分辨率和灵敏度高的RNL(显微镜)精选,会得到较好的结果

MAD

能较好地反映预测的精度,但不容易衡量无偏性。MAD容易求得,要求计算简单时可使用,可配合MFEMAPE使用

MFE

能很好的衡量预测模型的无偏性,但它不能反映预测值偏离实际的程度,可配合MAPE使用

MSE

MAD相似,可以较好的反映精度,但无法衡量无偏性,可配合MFEMAPE使用

MAPE

能很好的衡量预测模型的无偏性,可配合MADMSE使用

MAD+ MFE+ MSE+ MAPE

MADMFEMSEMAPE是几种常用的衡量预测误差的指标,但任何单一的一种指标都很难全面地评价一个预测模型,在实际中可以将它们结合使用,根据选择的要求,需要精度较高的或偏离较低的模型,以此选择较为合适的模型。

相关链接:

量化项目管理案例:缺陷趋势预测利器(1)

量化项目管理案例:缺陷趋势预测利器(2)

量化项目管理案例:缺陷趋势预测利器(3)

量化项目管理案例:缺陷趋势预测利器(4)

posted on 2011-11-04 15:08 顺其自然EVO 阅读(1171) 评论(0)  编辑  收藏

<2011年11月>
303112345
6789101112
13141516171819
20212223242526
27282930123
45678910

导航

统计

常用链接

留言簿(55)

随笔分类

随笔档案

文章分类

文章档案

搜索

最新评论

阅读排行榜

评论排行榜