回归算法python_python可以做回归分析吗

许文立，xuweny87@163.com

许坤，中国人民大学，kunxu2014@126.com

线性回归-Python：AJR(2001，AER)

概述

线性回归是分析两个或更多变量之间关系的标准工具

本讲中，我们将利用Python的statsmodels包来估计、理解和可视化线性回归模型

我们讨论一下主题

一元和多元回归

可视化

内生性和遗漏变量偏误

二阶段最小二乘

作为示例，我们会重复Acemoglu,Johnson and Robinson(2001，AER)的经典文章的结果

该论文可以从这里下载(https://economics.mit.edu/files/4123)

(1)在这篇文章中，作者强调制度对经济发展对的影响

(2)主要的贡献是利用殖民死亡率作为制度差异的外生变化的来源

(3)这种变化决定制度是否引起了更多的经济增长，而不是别的方式

预备知识

本讲稿需要大家熟悉计量基础

一元线性回归

AJR(2001)希望判断制度差异是否能解释观察到的经济结果

我们如何测量制度差异和经济结果呢？

在他们的论文中，

经济产出以1995年人均GDP来近似，且用汇率调整

制度差异以1985-95年掠夺风险的法律保护均值来近似，该指数由Political Risk Serivces Group(https://www.prsgroup.com/)构建

这些变量和其他数据可以在Acemoglu的主页下载(https://economics.mit.edu/faculty/acemoglu/data/ajr2001)

我们将利用pandas的.read_stata()函数来读取.dta中的数据

importpandasaspd

df1=pd.read_stata(‘https://github.com/QuantEcon/QuantEcon.lectures.code/raw/

master/ols/maketable1.dta’)

df1.head()

我们用散点图来看看人均GDP和掠夺风险保护指数之间是否存在明显的关系

importmatplotlib.pyplotasplt

plt.style.use(‘seaborn’)

df1.plot(x=’avexpr’,y=’logpgp95′,kind=’scatter’)

plt.show()

这幅图显示出了法律保护与人均GDP对数之间存在很强的正向关系

特别地，如果更严格的法律保护是制度质量的一个指标，那么，更好的制度可能与更好经济结果正向关

给定这幅散点图，选择一个线性模型来描述这个关系

我们把模型写成

logpgp95i=β0+β1avexpri+ui

其中，

β0是线性回归线与y轴的截距

β1线性回归线的斜率，表示法律保护对人均GDP的边际效应

ui是随机误差项(由于遗漏因素而引起的线性趋势的偏离)

直观上看，线性模型就是要选择一条直线来最好地拟合数据(例如AJR2001中的图2)

估计beta最常用的技术是OLS

OLS模型就是要找到参数使得残差平方和最小化：

其中，ui是因变量的观测值与预测值之差

为了估计常数项beta0，我们需要在数据集中增加一列1的数据

现在，我们可以利用OLS函数在statsmodels中来构建我们的模型

至此，我们创建了模型

我们需要用.fit()来获得beta0和beta1的参数估计值

我们现在把拟合回归模型储存在results

为了看看OLS的回归结果，我们调用.summary()方法

注意，一个观测值从原文的数据中删除了，因此，系数稍微有点差异

从我们的结果可以看到

截距beta0=4.63

斜率beta1=0.53

Beta1的估计值为正意味着制度质量对经济结果有正向关系

Beta1的p值为0.000说明制度对GDP的效应是显著的

R2的值0.611说明，人均GDP对数方差的61%能被发了保护所解释

利用我们的估计参数，我们可以把回归关系写成

logpgp95ˆi=4.63+0.53avexpri

这个方程描述的是对数据最优拟合的直线

我们也能利用给定的法律保护水平来预测人均GDP对数值

例如，对一个国家来说，其制度值为7.07，我们就能预测得出1995年的人均GDP对数为8.38

获得上述预测结果的一种更加方面的方式是利用.predict()，并设立constant=1c

1 andavexpri=mean_expr

我们能调用来获得每一个avexpri对应的logpgp95i预测值

观测值与预测值能作出图来进行比较

多远回归

上面只解释了影响经济绩效的制度因素，但是可以肯定的是还有许多影响经济的因素

影响loggdp95i的其它变量会引起遗漏变量偏误

我们能把一元回归扩展到多元回归

AJR(2001)考虑的其它因素有

气候对经济结果的影响；维度被用来作为近似指标

同时影响经济绩效和制度的差异，例如文化差异，历史差异等等；这些利用哑变量(虚拟变量)来控制

我们用数据maketable2.dta来估计多远回归的结果，正如论文中表2

我们得到拟合的模型，然后用summary_col来把结果展示在一张表中(正如论文中一样)

内生性

正如AJR(2001)讨论的，OLS模型会遇到内生性问题，这会导致估计偏误和非一致性。

也就是说，制度和经济结果之间有双边关系：

越富有的国家可能会更偏好更好的制度

影响收入的变量可能与制度差异有关

指标的构建可能存在偏误；分析师可能会出现偏误，收入越高，制度越好

为了处理内生性，我们能用二阶导最小二乘(2SLS)回归，它是OLS的一种扩展

该方法要求用一个变量来代替内生变量avexpri，

该变量

与avexpri相关

不与误差项相关

新的回归因子成为工具或工具变量，它们旨在消除制度差异的内生性

AJR(2001)的主要贡献是殖民地死亡率来作为制度差异的工具变量

他们假设，殖民地死亡率越高，那么，更加具有掠夺性制度就会建立(越少的法律保护)，而且这些制度至今仍存在

如果17世纪-19世纪的死亡率直接影响目前的GDP，那么，第二个条件就不满足

例如，殖民死亡率可能与目前的疾病环境有关，其又影响经济绩效

AJR(2001)认为这是不可能的，因为：

死亡率是由于疟疾和黄热病引起的，不太可能影响当地居民

非洲或者印度居民的疾病负担可能不会高于平均水平，这是由于相对更高的人口密度导致的

因此，我么有一个有效的工具变量，我们能用2SLS回归哎获得一致无偏的参数估计

一阶段

一阶段就是内生变量对工具变量的回归

工具变量是一些列外生变量的集合

例如，我们的工具变量是常数和殖民死亡率logem4i

因此，我估计一阶段回归为

avexpri=δ0+δ1logem4i+vi

所需数据在maketable4.dta中，

二阶段

我们用.predict()来得到avexpri预测值

然后，用预测值取代内生变量avexpri

第二阶段的回归为

第二阶段的回归结果才给我们提供了一个无偏、一致的估计

这个结果说明，工具变量回归结果比OSL结果更强列支持制度对经济发展的正向效应

我们能用linearmodel(https://github.com/bashtage/linearmodels)包一步估计出2SLS回归

要安装这个包，你需要在命令行运行pipinstalllinearmodels

注意，当用IV2SLS时，外生和工具变量已经分离

假定我们现在得到一致、无偏估计，我们就能推断制度差异能解释国家之间的收入差异

AJR(2001)用0.94的边际效应来计算智利和尼日尼亚之间的制度差异所引起的7倍收入差异，强调制度在经济发展中的重要性。

总结

我们已经展示了statsmodels和linearmodels中的基本OLS和2SLS回归

如果你熟悉R，你也刻意用formula interface(http://www.statsmodels.org/dev/example_formulas.html)来调用statsmodels，或者考虑用r2py(https://rpy2.bitbucket.io/)来调用R

今天的文章回归算法python_python可以做回归分析吗分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/89159.html

回归算法python_python可以做回归分析吗

相关推荐

发表回复