PPT见:应用回归分析(5):自变量的选择及逐步回归资源-CSDN文库
5.1 自变量选择对估计和预测的影响
5.1.1 全模型和选模型概念
全回归:因变量一共有m个自变量,对所有的自变量建立回归模型称为全回归模型
选模型:从中挑选出p自变量个进行回归,注意:
5.1.2 误用模型产生的影响xua
(1)是全模型而误用了选模型产生的影响
【1】选模型回归系数的最小二乘估计是全模型相应参数的有偏估计
【2】选模型的预测是有偏的
【3】选模型的参数估计有较小的方差
【4】选模型的预测残差有较小的方差
【5】选模型的均方误差比全模型的小
5.2 所有子集回归
通过暴力找出所有的子集通过 指标进行选择,然后选择出最好的
5.2.1 关于自变量选择的几个准则
(1)SSE和R不行的原因
一般认为:残差平方和SSE最小的回归方程就是最好的,还用复相关系数来衡量拟合程度的好坏。但是都有明显的不足
【1】残差平方和
当自变量增加时,残差平方和一定减小
证明参考:计量经济学第三章第3节多元线性回归模型的显著性检验 – 豆丁网 (docin.com)
【2】复决定系数
复决定系数的公式:
(2)全新的准则
【1】自由度调整复决定系数达到最大
当变量增多时,残差平方和减少,R方增大,但是自由度n-p-1减小,因此可以使用自由度进行制衡
显然自由度调整复决定系数小于等于复决定系数
回归误差性方差的无偏估计为:
在前面证明过!!!
一般来说,当自变量个数从0开始增加时,先下降,而后稳定下来,当自变量个数增加到一定数量后,又开始增加。
【2】AIC和BIC准则
达到最小是最优!
【3】统计量达到最小
选择使最小的自变量子集,所对应的方程就是最有回归方程。
spss或者R语言操作:
spss:”分析”–“回归”–“线性”,可以得到调整后的R方
R:得到AIC和BIC的值
计算的式子有所变化,没有忽略无关项!
Data <- read.csv("eg5_1.csv",head=T) n <- nrow(Data) lm <- lm(y~x1,data=Data) summary(lm) AIC(lm) BIC(lm)
5.3 逐步回归
当所有子集的个数很多时,用所有子集回归的方法太过冒进,不妥。
5.3.1 前进法
(1)思想:
变量由少到多,每次增加一个,直到没有可引入的变量为止
(2)明显的不足:
5.3.2 后退法
(1)思想:
先用全部m个变量建立一个回归方程,然后在这m个变量中选择不重要的变量,直到没有可以剔除的变量
(2)明显的不足:
5.3.3 前进法和后退法比较
注意:当自变量完全独立是,那么去相同的显著性水平时,前进法和后退法所建的回归方程是相同的!
5.3.4 逐步回归法
(1)思想:
基本思想:有进有出
具体做法:将变量一个一个引入,当引入一个自变量后,对已经选入的自变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,将其剔除。
注意!!:
引入自变量和剔除自变量的显著性水平不同,引入自变量要比提出自变量的显著性水平要小!!!
一般来说,我们会贯彻一个“严进宽出”的原则。也就是说引入变量的时候,显著性水平要“很高”,而剔除变量的话,就看它显著性水平是不是低于了一个“不是很高”的水平。直观想一下,如果 ,那就意味着,每一次引入的变量活不过第一轮就又被刷出去了……
注意:!!!!
有进有出的结果表示自变量之间有相关性,如果自变量之间完全不想关,则引入的不会剔除,剔除的不会引入,这时逐步回归法和前进法是相同的。
spss:
今天的文章
变量自回归模型_自变量的选择与确定分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/81106.html