一.应用
二.逻辑回归基础知识
1.线性概率模型(Linear Probability Model,简记LPM)
直接用原来的回归模型进行回归。
2.两点分布(伯努利分布)
3.连接函数的取法
【1】表达式
由于后者有解析表达式(而标准正态分布的cdf没有),所以计算logistic模型比probit模型更为方便。
【2】函数图像对比
f1=@(x) normcdf(x); % 标准正态分布的累积分布函数 fplot(f1, [-4,4]); % 在-4到4上画出匿名函数的图形 hold on; grid on; f2=@(x) exp(x)/(1+exp(x)); fplot(f2, [-4,4]); legend('标准正态分布的cdf','sigmoid函数','location','SouthEast')
4.如何求解
5.怎么用于分类
三.实战
1.数据处理:生成虚拟变量
删去不需要的列:右键---->清除
调整
2.spss操作
(1)常规
(2)假如自变量有分类变量
两种方法
(1)先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
(2)直接分类,然后定义分类协变量,Spss会自动帮我们生成。
(如果没有生成虚拟变量这个选项,则说明SPSS没有安装到默认位置)
(3)逐步回归的设置
向前(向后)逐步回归可选择的统计量有所区别。
进入(或者除去)自变量的显著性水平可以自己调节
(4)结果分析
19个苹果样本中,预测出来为苹果的有14个,预测出来的正确率为73.7%;
19个橙子样本中,预测出来为橙子的有15个,预测出来的正确率为78.9%;
对于整个样本,逻辑回归的预测成功率为76.3%.
逻辑回归系数表:
3.表格中新添的两列解读
4.如果预测结果较差
可在logistic回归模型中加入平方项、交互项等
(1)操作
(2)加入了平方项后的结果
5. 检验过拟合现象
(1)概念
虽然预测能力提高了,但是容易发生过拟合的现象。
对于样本数据的预测非常好,但是对于样本外
的数据的预测效果可能会很差。
(是不是和龙格现象有点相似)
(2)确定合适的模型
把数据分为训练组和测试组,用训练组的数据来估计出模型,再用测试组的数据来进行测试。(训练组和测试组的比例一般设置为80%和20%)
比较设置不同的自变量后的模型对于测试组的预测效果。
(注意:为了消除偶然性的影响,可以对上述步骤多重复几次,最 终对每个模型求一个平均的准确率,这个步骤称为交叉验证
四.Fisher线性判别分析
1.概念
LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析。该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离
详情视频
2. 找到线性系数向量
3.Spss操作
4.结果分析
五.多分类问题
1.引例
现在水果的类别一共有四种,其四个指标的平均值如下表所示:
2.Fisher判别分析可用于多分类
4.Logistic回归也可用于多分类
Sigmoid函数 推广为 Softmax函数
今天的文章 数学建模(NO.14分类模型)分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/89957.html