如果你看的书多了,可能经常会发现回归诊断或模型诊断这样的名词,这里的诊断跟医学里的诊断有所不同。什么是模型诊断?其实它的主要目的就是为了看一下我们辛辛苦苦计算所得的方程或模型是不是合理?是不是有符合实际?是不是需要重新分析?
对于线性回归而言,回归诊断需要处理的问题主要是看是不是有共线性?有没有异常点存在?以及前面所说的是否符合线性回归的使用条件。
什么是共线性?这是个更为常见的名词,共线性也叫多重共线性(Multicollinearity),其实可以简单地理解为自变量之间的相关性太强。比如,要分析肺活量与身高和体重的关系,肺活量为因变量,身高和体重为自变量。如果身高和体重之间的相关性很强,就可以认为他们之间存在共线性。
共线性的诊断可以用容许值(tolerance)、方差膨胀因子(VIF)、条件指数(condition index)等指标来体现。最常用的是条件指数,这里想提醒一下,条件指数有多个,最大的条件指数叫做条件数(condition number)。我曾在某医学统计论坛上见到有人对这两个指标的关系大惑不解,故这里提及一下。
什么是异常点(outliner)?从下面这幅图就可以有个感性认识了。
可以发现,有一个点远远脱离其它点,这就是异常。从它的字面意思来看,outliner,实际上就是脱离了线性,与其他的点不合群。
既然讲到了这里,就顺便再提一个名词,叫做杠杆点(leverage),杠杆点属于异常点,但是并不是所有的异常点都是杠杆点。只有那些对方程有影响的点才叫杠杆点。这个也可以从它的字面意思理解。什么是杠杆?就是说,我靠这一个点就能撬起地球,可见这一个点的影响之大。影响小了,就不叫杠杆点了,只能叫做异常点。比如上面图中最后一个点,实际上就是杠杆点,如果把这个点去掉,图形应该是这样的:
比较一下这两个图,下面这个其实斜率小多了,或者说,第一个图更加向上斜,因为被那个杠杆点给拉上去了。就这一个点,就改变了整个的图形,这就是杠杆点的意义。
至于其它是否满足线性回归使用条件的诊断,前面已经提到过了,这里不再赘述。
最后想说一句,统计分析不是简单的将数字放入统计软件,出来结果就算了。而是需要精雕细琢,计算机中有一句话叫做“garbage in,garbage out”,统计中也是一样。关键的在于自己对统计学的理解,决不能一味地依靠统计软件,统计软件不会帮助你分析该用什么方法,也不会跟你说你的数据是不是符合使用条件。统计软件所能做的只是给你一堆结果,至于结果合不合理,结果应该怎么看,只能靠你自己。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/85471.html