Logistic回归虽然名字叫”回归”
一 从线性回归到Logistic回归
线性回归和Logistic回归都是广义线性模型的特例。
假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量,我们可以拟合一个线性方程:
y =β0
并通过最小二乘法估计各个β系数的值。
如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难:
y = 1 / (1+e-x)
这是一个S型函数,值域为(0,1),能将任何数值映射到(0,1),且具有无限阶可导等优良数学性质。
我们将线性回归方程改写为:
y = 1 / (1+e-z),
其中,z =β0
此时方程两边的取值都在0和1之间。
进一步数学变换,可以写为:
Ln(y/(1-y)) =β0
Ln(y/(1-y))称为Logit变换。我们再将y视为y取值为1的概率p(y=1),因此,1-y就是y取值为0的概率p(y=0),所以上式改写为:
p(y=1) = ez/(1+ez),
p(y=0) = 1/(1+ez),
其中,z =β0
接下来就可以使用”最大似然法”估计出各个系数β。
二 odds与OR复习
三 Logistic回归结果的解读
hon |
系数β |
标准误 |
P |
截距 |
-1.12546 |
0.164 |
0.000 |
hon |
例数 |
百分比 |
0 |
151 |
75.5% |
1 |
49 |
24.5% |
hon |
系数β |
标准误 |
P |
female |
0.593 |
. |
0.083 |
截距 |
-1.47 |
. |
0.000 |
hon |
female |
Total |
|
Male |
Female |
||
0 |
74 |
77 |
151 |
1 |
17 |
32 |
49 |
Total |
91 |
109 |
|
根据这个交叉表,对于男性(Male),其处在荣誉班级的概率为17/91,处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的,女性处于荣誉班级的几率odds2 = (32/109)/(77/109)=32/77 = 0.42。女性对男性的几率之比OR = odds2/odds1 = 0.42/0.23 = 1.809。我们可以说,女性比男性在荣誉班的几率高80.9%。
回到Logistic回归结果。截距的系数-1.47是男性odds的对数(因为男性用female=0表示,是对照组),ln(0.23) = -1.47。变量female的系数为0.593,是女性对男性的OR值的对数,ln(1.809) = 0.593。所以我们可以得出关系: OR = exp(β),或者β= ln(OR)(exp(x)函数为指数函数,代表e的x次方)。
hon |
系数β |
标准误 |
P |
math |
. |
.0 |
0.000 |
截距 |
-9. |
1. |
0.000 |
hon |
系数β |
标准误 |
P |
math |
. |
略 |
0.000 |
female |
0. |
略 |
0.020 |
read |
.0 |
略 |
0.026 |
截距 |
-11.77025 |
略 |
0.000 |
hon |
系数β |
标准误 |
P |
female |
-2. |
略 |
0.349 |
math |
. |
略 |
0.000 |
female*math |
.0 |
略 |
0.210 |
截距 |
-8. |
略 |
0.000 |
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/83294.html