随机效应与固定效应&面板数据回归

转载自：http://cjx06xj03.blog.163.com/blog/static/114987428201281610274587/

随机效应与固定效应

方差分析主要有三种模型：即固定效应模型（fixed effects model），随机效应模型（random effects model），混合效应模型（mixed effects model）。

所谓的固定、随机、混合，主要是针对分组变量而言的。

固定效应模型，表示你打算比较的就是你现在选中的这几组。例如，我想比较3种药物的疗效，我的目的就是为了比较这三种药的差别，不想往外推广。这三种药不是从很多种药中抽样出来的，不想推广到其他的药物，结论仅限于这三种药。“固定”的含义正在于此，这三种药是固定的，不是随机选择的。

随机效应模型，表示你打算比较的不仅是你的设计中的这几组，而是想通过对这几组的比较，推广到他们所能代表的总体中去。例如，你想知道是否名牌大学的就业率高于普通大学，你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较，你的目的不是为了比较这4所学校之间的就业率差异，而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学，而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此，这4所学校是从名牌和普通大学中随机挑选出来的。

混合效应模型就比较好理解了，就是既有固定的因素，也有随机的因素。

一般来说，只有固定效应模型，才有必要进行两两比较，随机效应模型没有必要进行两两比较，因为研究的目的不是为了比较随机选中的这些组别。

固定效应和随机效应的选择是大家做面板数据常常要遇到的问题，一个常见的方法是做huasman检验，即先估计一个随机效应，然后做检验，如果拒绝零假设，则可以使用固定效应，反之如果接受零假设，则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型，比如数据是从总体中抽样得到的，则可以使用随机效应，比如从N个家庭中抽出了M个样本，则由于存在随机抽样，则建议使用随机效应，反之如果数据是总体数据，比如31个省市的Gdp，则不存在随机抽样问题，可以使用固定效应。同时，从估计自由度角度看，由于固定效应模型要估计每个截面的参数，因此随机效应比固定效应有较大的自由度.

固定效应模型
　　固定效应模型（fixed effects model）的应用前提是假定全部研究结果的方向与效应大小基本相同，即各独立研究的结果趋于一致，一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异，或差异较小的研究。
　　固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果，而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。例如：研究者想知道教师的认知类型在不同教学方法情境中，对儿童学习数学的效果有何不同，其中教师和学生的认知类型，均指场地依赖型和场地独立型，而不同的教学方法，则指启发式、讲演式、编序式。当实验结束时，研究者仅就两种类型间的交互作用效果及类型间的差异进行说明，而未推论到其他认知类型，或第四种教学方法。象此种实验研究模式，即称为固定效果模式。与本词相对者是随机效应模型（random effect model）、混合效应模型（mixed effect model）。

随机效应模型 random effects models
　　随机效应模型(random effects models)是经典的线性模型的一种推广，就是把原来（固定）的回归系数看作是随机变量，一般都是假设是来自正态分布。如果模型里一部分系数是随机的，另外一些是固定的，一般就叫做混合模型（mixed models）。
　　虽然定义很简单，对线性混合模型的研究与应用也已经比较成熟了，但是如果从不同的侧面来看，可以把很多的统计思想方法综合联系起来。概括地来说，这个模型是频率派和贝叶斯模型的结合，是经典的参数统计到高维数据分析的先驱，是拟合具有一定相关结构的观测的典型工具。
　　随机效应最直观的用处就是把固定效应推广到随机效应。注意，这时随机效应是一个群体概念，代表了一个分布的信息 or 特征，而对固定效应而言，我们所做的推断仅限于那几个固定的（未知的）参数。例如，如果要研究一些水稻的品种是否与产量有影响，如果用于分析的品种是从一个很大的品种集合里随机选取的，那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里，就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。
　　同时，引入随机效应就可以使个体观测之间就有一定的相关性，所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据，多时间点的记录等等，很多时候就叫做纵向数据(longitudinal data)，已经成为很大的一个统计分支。
　　上述两点基本上属于频率派，分析的工具也很经典，像极大似然估计，似然比检验，大样本的渐近性等。但是，应该注意到把固定的参数看做是随机变量，可是贝叶斯学派的观念。当然，mixed models 不能算是完全的贝叶斯模型，因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的 or 经验贝叶斯的。在这个模型上，我们可以看到两个学派很好的共存与交流，在现代的统计方法里两种学派互相结合的例子也越来越多。
　　众所周知，随机效应有压缩(shrinkage)的功能, 而且可以使模型的自由度(df) 变小。这个简单的结果，对现在的高维数据分析的发展起到了至关重要的作用。事实上，随机效应模型就是一个带惩罚(penalty)的一个线性模型，有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是，著名的岭回归(ridge regression) 就是一个二次惩罚，它的提出解决了当设计矩阵不满秩时最小二乘估计（LSE）无法计算以及提高了预测能力。于是，引入随机效应或者二次惩罚就可以处理当参数个数p 大于观测个数n的情形，这是在分析高维数据时必须面对的问题。当然，二次惩罚还有一个特性，如：计算简便，能选择相关的predictors，对前面的几个主成分压缩程度较小等。

根据面板数据的特性，在回归模型的设定的有效性问题上，我们需要检验混合估计模型、固定效应模型（Fixed-Effect Model）以及随机效应模型（Random-Effect Model）的有效性[1]，其中固定效应又包括个体固定效应和时间固定效应（如果同时具备个体固定效应和时间固定效应，则称之为双向固定效应）。对于混合估计模型和固定效应模型，我们可以使用F检验来判别其有效性；对于混合估计模型和随机效应模型，通常可以用LM检验判别其有效性；对于固定效应模型和随机效应模型，通常用Hausman检验判断其适用性。有关模型设定和检验的细节可以参考Baltagi（2005）
所以，你需要分别检验是否加入时间固定效应、是否需要加入个体固定效应。
[1] 简言之，混合估计模型就是假定所有公司年度都具有相同的截距项；固定效应模型假定截距项随公司和年度而变；随机效应模型不但假定截距项随公司和年度而变，而且假定这些不同的截距项和其它解释变量不相关。更为具体的模型设定问题可以参见李子奈、叶阿忠（2000），Wooldridge（2003），以及Baltagi（2005）。

面板数据分析方法步骤

步骤一：分析数据的平稳性（单位根检验）

按照正规程序，面板数据模型在回归前需检验数据的平稳性。李子奈曾指出，一些非平稳的经济时间序列往往表现出共同的变化趋势，而这些序列间本身不一定有直接的关联，此时，对这些数据进行回归，尽管有较高的R平方，但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归（spurious regression）。他认为平稳的真正含义是：一个时间序列剔除了不变的均值（可视为截距）和时间趋势以后，剩余的序列为零均值，同方差，即白噪声。因此单位根检验时有三种检验模式：既有趋势又有截距、只有截距、以上都无。

因此为了避免伪回归，确保估计结果的有效性，我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先，我们可以先对面板序列绘制时序图，以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和（或）截距项，从而为进一步的单位根检验的检验模式做准备。

单位根检验方法的文献综述：在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25～250 之间,截面数介于10～250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。

由上述综述可知，可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。

其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量，并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程，lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程， Hadri Z统计量的检验原假设为不存在普通的单位根过程。

有时，为了方便，只采用两种面板数据单位根检验方法，即相同根单位根检验LLC（Levin-Lin-Chu）检验和不同根单位根检验 Fisher-ADF检验（注：对普通序列（非面板序列）的单位根检验方法则常用ADF检验），如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的，反之则不平稳。

如果我们以T（trend）代表序列含趋势项，以I（intercept）代表序列含截距项，T&I代表两项都含，N（none）代表两项都不含，那么我们可以基于前面时序图得出的结论，在单位根检验中选择相应检验模式。

但基于时序图得出的结论毕竟是粗略的，严格来说，那些检验结构均需一一检验。具体操作可以参照李子奈的说法：ADF检验是通过三个模型来完成，首先从含有截距和趋势项的模型开始，再检验只含截距项的模型，最后检验二者都不含的模型。并且认为，只有三个模型的检验结果都不能拒绝原假设时，我们才认为时间序列是非平稳的，而只要其中有一个模型的检验结果拒绝了零假设，就可认为时间序列是平稳的。

此外，单位根检验一般是先从水平（level）序列开始检验起，如果存在单位根，则对该序列进行一阶差分后继续检验，若仍存在单位根，则进行二阶甚至高阶差分后检验，直至序列平稳为止。我们记I(0)为零阶单整，I(1)为一阶单整，依次类推，I(N)为N阶单整。

步骤二：协整检验或模型修正

情况一：如果基于单位根检验的结果发现变量之间是同阶单整的，那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列，其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。

但也有如下的宽限说法：如果变量个数多于两个，即解释变量个数多于一个，被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时，则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量，则两个变量的单整阶数应该相同。

也就是说，单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验，必然有某些低阶单整的，即波动相对高阶序列的波动甚微弱（有可能波动幅度也不同）的序列，对协整结果的影响不大，因此包不包含的重要性不大。而相对处于最高阶序列，由于其波动较大，对回归残差的平稳性带来极大的影响，所以如果协整是包含有某些高阶单整序列的话（但如果所有变量都是阶数相同的高阶，此时也被称作同阶单整，这样的话另当别论），一定不能将其纳入协整检验。

协整检验方法的文献综述：(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法，这种检验的方法是检验变量存在共同的协整的秩。

我们主要采用的是Pedroni、Kao、Johansen的方法。

通过了协整检验，说明变量之间存在着长期稳定的均衡关系，其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归，此时的回归结果是较精确的。
这时，我们或许还想进一步对面板数据做格兰杰因果检验（因果检验的前提是变量协整）。但如果变量之间不是协整（即非同阶单整）的话，是不能进行格兰杰因果检验的，不过此时可以先对数据进行处理。引用张晓峒的原话，“如果y和x不同阶，不能做格兰杰因果检验，但可通过差分序列或其他处理得到同阶单整序列，并且要看它们此时有无经济意义。”

下面简要介绍一下因果检验的含义：这里的因果关系是从统计角度而言的，即是通过概率或者分布函数的角度体现出来的：在所有其它事件的发生情况固定不变的条件下，如果一个事件X的发生与不发生对于另一个事件Y的发生的概率（如果通过事件定义了随机变量那么也可以说分布函数）有影响，并且这两个事件在时间上又有先后顺序（A前B后），那么我们便可以说X是Y的原因。考虑最简单的形式，Granger检验是运用F-统计量来检验X的滞后值是否显著影响 Y（在统计的意义下，且已经综合考虑了Y的滞后值；如果影响不显著，那么称X不是Y的“Granger原因”（Granger cause）；如果影响显著，那么称X是Y的“Granger原因”。同样，这也可以用于检验Y是X的“原因”，检验Y的滞后值是否影响X（已经考虑了X 的滞后对X自身的影响）。

Eviews好像没有在POOL窗口中提供Granger causality test，而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的，格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话，不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group)，再来试试。

情况二：如果如果基于单位根检验的结果发现变量之间是非同阶单整的，即面板数据中有些序列平稳而有些序列不平稳，此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急，我们可以在保持变量经济意义的前提下，对我们前面提出的模型进行修正，以消除数据不平稳对回归造成的不利影响。如差分某些序列，将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型，但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分，因为对变动数据或增长率数据再进行差分，我们不好对其冠以经济解释。难道你称其为变动率的变动率？

步骤三：面板模型的选择与回归

面板数据模型的选择通常有三种形式：

一种是混合估计模型（Pooled Regression Model）。如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。一种是固定效应模型（Fixed Effects Regression Model）。如果对于不同的截面或不同的时间序列，模型的截距不同，则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型（Random Effects Regression Model）。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应，并且这两个随机误差项都服从正态分布，则固定效应模型就变成了随机效应模型。

在面板数据模型形式的选择方法上，我们经常采用F检验决定选用混合模型还是固定效应模型，然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。

检验完毕后，我们也就知道该选用哪种模型了，然后我们就开始回归：

在回归的时候，权数可以选择按截面加权（cross-section weights）的方式，对于横截面个数大于时序个数的情况更应如此，表示允许不同的截面存在异方差现象。估计方法采用PCSE（Panel Corrected Standard Errors，面板校正标准误）方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新，可以有效的处理复杂的面板误差结构，如同步相关，异方差，序列相关等，在样本量不够大时尤为有用。

原文：http://hi.baidu.com/acleo/blog/item/e80684bf6a5bad0318d81f25.html

固定效应模型分为三种：个体固定效应模型、时刻固定效应模型和个体时刻固定效应模型）。如果我们是对个体固定，则应选择个体固定效用模型。但是，我们还需作个体固定效应模型和混合估计模型的选择。所以，就要作F值检验。
相对于混合估计模型来说，是否有必要建立个体固定效应模型可以通过F检验来完成。
H0：对于不同横截面模型截距项相同（建立混合估计模型）。SSEr
H1：对于不同横截面模型的截距项不同（建立时刻固定效应模型）。SSEu
F统计量定义为：

F=[( SSEr – SSEu)/(T+k－2)]/[ SSEu/(NT-T-k)]

其中，SSEr，SSEu分别表示约束模型（混合估计模型的）和非约束模型（个体固定效应模型的）的残差平方和（Sum squared resid）。非约束模型比约束模型多了T–1个被估参数。需要指出的是：当模型中含有k个解释变量时，F统计量的分母自由度是NT-T- k。通过对F统计量我们将可选择准确、最佳的估计模型。
在作回归时也是四步：

第一步，先作混合效应模型：在cross-section 一栏选择None ，Period也是None；Weights是cross-section Weights，然后把回归结果的Sum squared resid值复制出来，就是SSEr
第二步：作个体固定效用模型：在cross-section 一栏选择Fixed ，Period也是None；Weights是cross-section Weights，然后把回归结果的Sum squared resid值复制出来，就是SSEu
第三步：根据公式F=[( SSEr – SSEu)/(T+k－2)]/[ SSEu/(NT-T-k)]。计算出结果。其中，T为年数，不管我们的数据是unbalance还是balance看observations就行了，也即Total pool (balanced) observations:的值，但是如果是balance我们也可以计算，也即是每一年的企业数的总和。比如说我们研究10年，每一年又500加企业，则NT＝10×500＝5000。K为解释变量，不含被解释变量。
第四步，根据计算出来的结果查F值分布表。看是否通过检验。检验准则：当F> Fα(T-1, NT-T-k) , α=0.01,0.05或0.1时，拒绝原假设，则结论是应该建立个体固定效应模型，反之，接受原假设，则不能建立个体固定效应模型。

        面板数据确定采用固定效应还是随机效应需要做hausman test(豪斯曼检验)。过程是，先对面板数据做随机性检验，在结果窗口的PROC菜单下选择hausman test就可以了，检验的原假设是应该采用随机效应，备则假设是固定效应。
       豪斯曼检验是确定常数项的固定或者随机效应的。F检验是判断方程是混合方程、变截距方程还是变系数方程，需要求解三个方程的残差平方和。两个是不同的问题。
         具体方法是：用EVIEWS先对回归方程做混合模型求解，在结果中有一项Sum squared resid(在结果的下面，R平方值的旁边)，这个就是残差平方和，这个值就是S3；然后在用变截距模型求解，得出S3，最后是变系数模型，得出S1。有了这三个值，F值自己手算就可以了。

面板数据模型(PANEL DATA)F检验,固定效应检验
1．面板数据定义。

时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面（cross section）上看，是由若干个体（entity, unit, individual）在某一时刻构成的截面观测值，从纵剖面（longitudinal section）上看是一个时间序列。

面板数据用双下标变量表示。例如

yi t, i = 1, 2, …, N; t = 1, 2, …, T

N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变，yi ., ( i = 1, 2, …, N)是横截面上的N个随机变量；若固定i不变，y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列（个体）。

图1 N=7，T=50的面板数据示意图

例如1990-2000年30个省份的农业总产值数据。固定在某一年份上，它是由30个农业总产总值数字组成的截面数据；固定在某一省份上，它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。

对于面板数据yi t, i = 1, 2, …, N; t = 1, 2, …, T来说，如果从横截面上看，每个变量都有观测值，从纵剖面上看，每一期都有观测值，则称此面板数据为平衡面板数据（balanced panel data）。若在面板数据中丢失若干个观测值，则称此面板数据为非平衡面板数据（unbalanced panel data）。

注意：EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。

例1（file:panel02）：1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费（不变价格）和人均收入数据见表1和表2。数据是7年的，每一年都有15个数据，共105组观测值。

人均消费和收入两个面板数据都是平衡面板数据，各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。

表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据（不变价格）

地区人均消费	1996	1997	1998	1999	2000	2001	2002
CP-AH（安徽）	3282.466	3646.150	3777.410	3989.581	4203.555	4495.174	4784.364
CP-BJ（北京）	5133.978	6203.048	6807.451	7453.757	8206.271	8654.433	10473.12
CP-FJ（福建）	4011.775	4853.441	5197.041	5314.521	5522.762	6094.336	6665.005
CP-HB（河北）	3197.339	3868.319	3896.778	4104.281	4361.555	4457.463	5120.485
CP-HLJ（黑龙江）	2904.687	3077.989	3289.990	3596.839	3890.580	4159.087	4493.535
CP-JL（吉林）	2833.321	3286.432	3477.560	3736.408	4077.961	4281.560	4998.874
CP-JS（江苏）	3712.260	4457.788	4918.944	5076.910	5317.862	5488.829	6091.331
CP-JX（江西）	2714.124	3136.873	3234.465	3531.775	3612.722	3914.080	4544.775
CP-LN（辽宁）	3237.275	3608.060	3918.167	4046.582	4360.420	4654.420	5402.063
CP-NMG（内蒙古）	2572.342	2901.722	3127.633	3475.942	3877.345	4170.596	4850.180
CP-SD（山东）	3440.684	3930.574	4168.974	4546.878	5011.976	5159.538	5635.770
CP-SH（上海）	6193.333	6634.183	6866.410	8125.803	8651.893	9336.100	10411.94
CP-SX（山西）	2813.336	3131.629	3314.097	3507.008	3793.908	4131.273	4787.561
CP-TJ（天津）	4293.220	5047.672	5498.503	5916.613	6145.622	6904.368	7220.843
CP-ZJ（浙江）	5342.234	6002.082	6236.640	6600.749	6950.713	7968.327	8792.210

资料来源：《中国统计年鉴》1997-2003。

表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据（不变价格）

地区人均收入	1996	1997	1998	1999	2000	2001	2002
IP-AH（安徽）	4106.251	4540.247	4770.470	5178.528	5256.753	5640.597	6093.333
IP-BJ（北京）	6569.901	7419.905	8273.418	9127.992	9999.700	11229.66	12692.38
IP-FJ（福建）	4884.731	6040.944	6505.145	6922.109	7279.393	8422.573	9235.538
IP-HB（河北）	4148.282	4790.986	5167.317	5468.940	5678.195	5955.045	6747.152
IP-HLJ（黑龙江）	3518.497	3918.314	4251.494	4747.045	4997.843	5382.808	6143.565
IP-JL（吉林）	3549.935	4041.061	4240.565	4571.439	4878.296	5271.925	6291.618
IP-JS（江苏）	4744.547	5668.830	6054.175	6624.316	6793.437	7316.567	8243.589
IP-JX（江西）	3487.269	3991.490	4209.327	4787.606	5088.315	5533.688	6329.311
IP-LN（辽宁）	3899.194	4382.250	4649.789	4968.164	5363.153	5797.010	6597.088
IP-NMG（内蒙古）	3189.414	3774.804	4383.706	4780.090	5063.228	5502.873	6038.922
IP-SD（山东）	4461.934	5049.407	5412.555	5849.909	6477.016	6975.521	7668.036
IP-SH（上海）	7489.451	8209.037	8773.100	10770.09	11432.20	12883.46	13183.88
IP-SX（山西）	3431.594	3869.952	4156.927	4360.050	4546.785	5401.854	6335.732
IP-TJ（天津）	5474.963	6409.690	7146.271	7734.914	8173.193	8852.470	9375.060
IP-ZJ（浙江）	6446.515	7158.288	7860.341	8530.314	9187.287	10485.64	11822.00

资料来源：《中国统计年鉴》1997-2003。

图2 15个省级地区的人均消费序列（纵剖面）图3 15个省级地区的人均收入序列（file:4panel02）

图4 15个省级地区的人均消费散点图图5 15个省级地区的人均收入散点图（7个横截面叠加）

(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)

用CP表示消费，IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图（共7个截面）。相当于观察7个截面散点图的叠加。

图6 用15个时间序列表示的人均消费对收入的面板数据

图7 用7个截面表示的人均消费对收入的面板数据（7个截面叠加）

为了观察得更清楚一些，图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出，无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。

图8 北京和内蒙古1996-2002年消费对收入时序图图9 1996和2002年15个地区的消费对收入散点图

2．面板数据的估计。

用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。

2.1 混合估计模型。

如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。

如果从时间和截面看模型截距都不为零，且是一个相同的常数，以二变量模型为例，则建立如下模型，

yit = a +b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (1)

a 和b1不随i，t变化。称模型(1)为混合估计模型。

以例1中15个地区1996和2002年数据建立关于消费的混合估计模型，得结果如下：

图10

EViwes估计方法：在打开工作文件窗口的基础上，点击主功能菜单中的Objects键，选New Object功能，从而打开New Object（新对象）选择窗。在Type of Object选择区选择Pool（混合数据库），点击OK键，从而打开Pool（混合数据）窗口。在窗口中输入15个地区标识AH（安徽）、BJ（北京）、…、ZJ（浙江）。工具栏中点击Sheet键，从而打开Series List（列写序列名）窗口，定义变量CP?和IP?，点击OK键，Pool（混合或合并数据库）窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键，打开Pooled Estimation（混合估计）窗口如下图。

图11

在Dependent Variable（相依变量）选择窗填入CP?；在Common coefficients（系数相同）选择窗填入IP?；Cross section specific coefficients（截面系数不同）选择窗保持空白；在Intercept（截距项）选择窗点击Common；在Weighting（权数）选择窗点击No weighting。点击Pooled Estimation（混合估计）窗口中的OK键。得输出结果如图10。相应表达式是

= 129.6313 +0.7587 IPit

(2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.99

15个省级地区的人均支出平均占收入的76%。

如果从时间和截面上看模型截距都为零，就可以建立不含截距项的（a = 0）的混合估计模型。以二变量模型为例，建立混合估计模型如下，

yit = b1 xit +eit, i = 1, 2, …, N; t = 1, 2, …, T (2)

对于本例，因为上式中的截距项有显著性（t = 2.0 > t0.05 (103) = 1.99），所以建立截距项为零的混合估计模型是不合适的。

EViwes估计方法：在Pooled Estimation（混合估计）对话框中Intercept（截距项）选择窗中选None，其余选项同上。

2.2 固定效应模型。

在面板数据散点图中，如果对于不同的截面或不同的时间序列，模型的截距是不同的，则可以采用在模型中加虚拟变量的方法估计回归参数，称此种模型为固定效应模型（fixed effects regression model）。

固定效应模型分为3种类型，即个体固定效应模型（entity fixed effects regressionmodel）、时刻固定效应模型（time fixed effects regression model）和时刻个体固定效应模型（time and entity fixed effects regression model）。下面分别介绍。

（1）个体固定效应模型。

个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列（个体）截距是不同的，但是对于不同的横截面，模型的截距没有显著性变化，那么就应该建立个体固定效应模型，表示如下，

yit = b1 xit +g1 W1 + g2 W2 + … +g N WN +eit, t = 1, 2, …, T (3)

其中

Wi =

eit, i = 1, 2, …, N; t = 1, 2, …, T，表示随机误差项。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表示被解释变量和解释变量。

模型（3）或者表示为

y1t = g1 +b1 x1t +e1t, i = 1（对于第1个个体，或时间序列），t = 1, 2, …, T

y2t = g2 +b1 x2t +e2 t, i = 2（对于第2个个体，或时间序列），t = 1, 2, …, T

…

yN t = gN +b1 xN t +e N t, i = N（对于第N个个体，或时间序列），t = 1, 2, …, T

写成矩阵形式，

y1 = (1 x1) +e1 = g1 + x1 b +e1

…

yN = (1 xN) +eN = gN + xN b +eN

上式中yi，gi，ei，xi都是N?1阶列向量。b为标量。当模型中含有k个解释变量时，b为k?1阶列向量。进一步写成矩阵形式，

= + b +

上式中的元素1，0都是T?1阶列向量。

面板数据模型用OLS方法估计时应满足如下5个假定条件：

（1）E(eit|xi1, xi2, …, xiT, ai) = 0。以xi1, xi2, …, xiT, ai为条件的eit的期望等于零。

（2）(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分别来自于同一个联合分布总体，并相互独立。

（3）(xit, eit)具有非零的有限值4阶矩。

（4）解释变量之间不存在完全共线性。

（5）Cov(eit eis|xit,xis, ai) = 0, t ? s。在固定效应模型中随机误差项eit在时间上是非自相关的。其中xit代表一个或多个解释变量。

对模型（1）进行OLS估计，全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。

当模型含有k个解释变量，且N很大，相对较小时，因为模型中含有k + N个被估参数，一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。

估计原理是，先用每个变量减其组内均值，把数据中心化（entity-demeaned），然后用变换的数据先估计个体固定效应模型的回归系数（不包括截距项），然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。

（1）首先把变量中心化（entity-demeaned）。

仍以单解释变量模型（3）为例，则有

= gi + b1 + , i = 1, 2, …, N (4)

其中 = ， = ， = , i = 1, 2, …, N。公式(1)、(4)相减得，

(yit – ) = b1(xit – ) + (eit – ) (5)

令(yit – ) = ，(xit – ) = ，(eit – ) = ，上式写为

= b1 + (6)

用OLS法估计（1）、（6）式中的b1，结果是一样的，但是用（6）式估计，可以减少被估参数个数。

（2）用OLS法估计回归参数（不包括截距项，即固定效应）。

在k个解释变量条件下，把用向量形式表示，则利用中心化数据，按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下，

( ) = ( ‘ )-1 (7)

其中 = ，是相对于的残差向量。

（3）计算回归模型截距项，即固定效应参数gi。

= – (8)

以例1（file:panel02）为例得到的个体固定效应模型估计结果如下：

注意：个体固定效应模型的EViwes输出结果中没有公共截距项。

图12

EViwes估计方法：在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。

注意：

（1）个体固定效应模型的EViwes输出结果中没有公共截距项。

（2）EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。

（3）当对个体固定效应模型选择加权估计时，输出结果将给出加权估计和非加权估计两种统计量评价结果。

（4）输出结果的联立方程组形式可以通过点击View选Representations功能获得。

（5）点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。

（6）点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分别得到按个体计算的残差序列表，残差序列图，残差序列的方差协方差矩阵，残差序列的相关系数矩阵。

（7）点击Procs选Make Model功能，将会出现估计结果的联立方程形式，进一步点击Solve键，在随后出现的对话框中可以进行动态和静态预测。

输出结果的方程形式是

= 安徽+ x1t = 479.3 + 0.70 x1t

(55.0)

= 北京+ x2t = 1053.2 + 0.70 x2t

… (55.0)

= 浙江+ x15t = 714.2 + 0.70 x15t

(55.0)

R2 = 0.99, SSEr = 2270386, t0.05 (88) = 1.98

从结果看，北京、上海、浙江是消费函数截距（自发消费）最大的3个地区。

相对于混合估计模型来说，是否有必要建立个体固定效应模型可以通过F检验来完成。

原假设H0：不同个体的模型截距项相同（建立混合估计模型）。

备择假设H1：不同个体的模型截距项不同（建立个体固定效应模型）。

F统计量定义为：

F= = (9)

其中SSEr，SSEu分别表示约束模型（混合估计模型）和非约束模型（个体固定效应模型）的残差平方和。非约束模型比约束模型多了N-1个被估参数。

（混合估计模型给出公共截距项。）

注意：当模型中含有k个解释变量时，F统计量的分母自由度是NT-N-k。

用上例计算，已知SSEr = 4824588，SSEu = 2270386，

F= = = = 7.15

F0.05(14, 89) = 1.81

因为F= 7.15> F0.05(14, 89) = 1.81，所以，拒绝原假设。结论是应该建立个体固定效应模型。

（2）时刻固定效应模型。

时刻固定效应模型就是对于不同的截面（时刻点）有不同截距的模型。如果确知对于不同的截面，模型的截距显著不同，但是对于不同的时间序列（个体）截距是相同的，那么应该建立时刻固定效应模型，表示如下，

yit = b1 xit +a1 +

http://blog.zol.com.cn/696/article_695413.html

Fixed and Random Effects

Central to the idea of variance components models is the idea of fixed and random effects. Each effect in a variance components model must be classified as either a fixed or a random effect. Fixed effects arise when the levels of an effect constitute the entire population about which you are interested. For example, if a plant scientist is comparing the yields of three varieties of soybeans, then Variety would be a fixed effect, providing that the scientist was concerned about making inferences on only these three varieties of soybeans. Similarly, if an industrial experiment focused on the effectiveness of two brands of a machine, Machine would be a fixed effect only if the experimenter’s interest did not go beyond the two machine brands.

On the other hand, an effect is classified as a random effect when you want to make inferences on an entire population, and the levels in your experiment represent only a sample from that population. Psychologists comparing test results between different groups of subjects would consider Subject as a random effect. Depending on the psychologists’ particular interest, the Group effect might be either fixed or random. For example, if the groups are based on the sex of the subject, then Sex would be a fixed effect. But if the psychologists are interested in the variability in test scores due to different teachers, then they might choose a random sample of teachers as being representative of the total population of teachers, and Teacher would be a random effect. Note that, in the soybean example presented earlier, if the scientists are interested in making inferences on the entire population of soybean varieties and randomly choose three varieties for testing, then Variety would be a random effect.

If all the effects in a model (except for the intercept) are considered random effects, then the model is called a random effects model; likewise, a model with only fixed effects is called a fixed-effects model. The more common case, where some factors are fixed and others are random, is called a mixed model. In PROC VARCOMP, by default, effects are assumed to be random. You specify which effects are fixed by using the FIXED= option in the MODEL statement. In general, if an interaction or nested effect contains any effect that is random, then the interaction or nested effect should be considered as a random effect as well.

In the linear model, each level of a fixed effect contributes a fixed amount to the expected value of the dependent variable. What makes a random effect different is that each level of a random effect contributes an amount that is viewed as a sample from a population of normally distributed variables, each with mean 0, and an unknown variance, much like the usual random error term that is a part of all linear models. The estimate of the variance associated with the random effect is known as the variance component because it is measuring the part of the overall variance contributed by that effect. Thus, PROC VARCOMP estimates the variance of the random variables that are associated with the random effects in your model, and the variance components tell you how much each of the random factors contributes to the overall variability in the dependent variable.

混合效应模型与纵向数据分析 Mixed Models and Longitudinal Data Analysis

第一章混合效益模型与纵向数据分析简介

线性模型与线性混合效应模型，固定效应模型、随机效应模型、纵向数据例子

第二章统计推断方法

极大似然，限制极大似然，贝叶斯方法、拟似然方法、广义估计方程(GEE)，极大似然比检验、Wald’s检验、预测方法

第三章线性混合效应模型

固定效应估计、随机效应预测、单向分类模型、两项分类模型、检验、其他估计方法、最优线性预测、计算方法

第四章纵向数据

平衡数据情形、相关和不相关情形下的参数估计与预测、不平衡数据，GEE方法

第五章广义线性混合效应模型

广义线性模型与广义线性混合效应模型、参数估计与假设检验、随机效应预测、计算方法参考文献：

1. Peter J. Diggle, Kung-Yee Liang, Scott L. Zeger， Analysis of Longitudinal Data, Oxford Statistical Science, 1994.

2. Charles E. McCulloch, Shayle R. Searle. Generalized, Linear, and Mixed Models,John Wiley & Sons, 2000.

本来随机效应的假设就是我们的样本从一个很大的母体抽取，所以大家的期望（均值）相同；如果我们的样本几乎是全部母体了，我们就不能说个体的差异是随机的，所以固定效应比较好；这是从模型的设定角度说的。但是随机效应模型有一个致命的硬伤，就是假设cov（x，ui）=0，而固定效应不要求这个假设，Hausman检验所做的工作就是检验一下这个假设对随机效应模型来说是不是成立，如果不成立，随即效应模型的估计是有偏的，即使采用B-P的LM检验表明存在随机效应，你也没有办法用了。总结：检验固定效应是否显著，采用F检验（对比模型是pooled）检验随机效应是否显著，采用LM检验（对比模型也是pooled）检验固定和随机哪个更适用，采用Hausman检验（对比fe和be）所以严格来讲，Hausman检验是检验不出随机效应的，这是多数人的误解，我认为。进一步讨论，请进 http://jinhe.xjtu.edu.cn/bbs/list.asp?boardid=13

eviews计量软件总是让人头疼，本人一向不喜欢用盗版软件，面对几千美元的license真是头疼，可总得做计量回归吧。幸好在网上找到了一款免费而且功能极为强大的开源计量软件
GRETL。wiki上面的介绍：
http://zh.wikipedia.org/w/index.php?title=Gretl&variant=zh-cn
gretl（Gnu Regression, Econometrics and Time-series Library）是一种可以编纂和解析计量经济学数据的开放源代码软件。它可以和X-12-ARMA、TRAMO／SEATS 和R语言一起使用。gretl用C语言写成，使用gnuplot制图。
gretl自身的文件格式是XML，但它还可输入Excel、Gnumeric、Stata、EViews、RATS、GNU Octave、Comma Separated Values、PcGive、JMulTi和ASCII文件，也可以输出到GNU Octave、GNU R、JMulTi和PcGive文件格式。
官方网站：http://gretl.sourceforge.net/
这个软件另外一个特点就是可以跨平坦使用，有linux、macos、unix和windows版本，特别是debian和ubuntu都可以从官方源里直接通过apt安装。

方法：加入时间固定效应，看是否更为有效，是的话，就设定该效应，否则不选；在此基础上，加入个体固定效应，更有效，则选，否则不选（先加时间还是个体无所谓）
事实上，不是要选哪个的问题，而是存在该效应，就应该加上该效应。
在确定时点还是个体固定效应的时候，不需要做什么这样那样的检验，因为有可能检验最终确定是cross section的时候，而你想研究的却是period，这不就有问题吗？
事实上，现在也没有关于时点和固定效应的检验，更多的往往还是根据所要研究的问题而定。
用虚拟变量的方法，分别固定时间效应、个体效应、时间个体双向固定，对比三组回归的结果就可以了。

伍德里奇（2003，P438）和古扎拉蒂（2005，P611）先后指出，如果样本中的横截面是从一个非常大的总体中随机抽取的，那么采用随机效应模型是合适的。但是，当不能把观察值当做从一个大总体中随机抽样时，或者关注的是所选择样本的规律特征时，就得使用固定效应。因为本人做的是关于某一行业的上市公司的财务研究，是一个典型的“大N小T”的非平衡面板数据，因此只考虑使用混合效应模型和固定效应模型。我的问题如下：（1）要不要考虑多重共线性和序列相关问题？
A: 如果T很小，我想不必考虑序列相关问题，你可以在计算s.e.的时候采用稳健性标准误即可（如采用xtscc）。当然，为了稳妥起见，你可以采用视频中介绍的方法检验一下序列相关是否存在，并采用 xtregar 估计一下考虑序列相关的模型，与此前的结果做个对比。
（2）采用xtscc是不是已经考虑了异方差和截面相关问题？如果采用xtscc命令应该如何与混合效应做F检验？
A: xtscc 主要考虑异方差、序列相关和截面相关。主要是通过对干扰项的方差-协方差矩阵来设定，其基本思想类似于 White(1980) 的异方差稳健性估计量。
若采用 xtscc y x,fe 估计，只有系数的标准误(以及t值)会发生变化。此时，你仍然可以采用 xtreg y x, fe 命令最后一行报告的F统计量来检验个体效果是否显著。
（3）如果采用命令：xi: y x1 x2 x3, i.year（i.company或者i.year i.company）命令回归得到三种固定效应模型，如何与混合效应进行F检验，得出更优的模型？
A: 这个我在视频中有详细讲解。参见B7_panel 中第二个视频“7.2 时间效应、模型的筛选和常见问题 ”。在“ *- 检验时间效应是否显著”小节中，我介绍了如何采用wald或LR检验来确认时间效应是否显著。你所问的问题在这里可以找到答案。
（4）如果在命令：xi: y x1 x2 x3, i.year（i.company或者i.year i.company）和混合效应回归模型后面附加robust和bootstrap，这两个命令是不是已经考虑了异方差和截面相关问题？
A: 附加robust选项，可以在一定程度上控制异方差，如果希望控制截面相关，你还需附加 cluster(id) 选项。至于 bootstrap 选项，则主要是为了计算系数的标准误，进而计算 t 值。传统的方法是基于大样本，并假设干扰项服从正态分布，进而推断出系数的标准误的表达式。当这一假设无法满足时，得到的标准误可能是有偏的。采用 bootstrap 获取标准误并不需要这一假设，因此相对而言更加稳健。通常而言，bootstrap 选项能够克服异方差和截面相关，与 robust 的作用效果相似。
以上问题好像在视频中没有很好的讲解，
A: 这些内容在视频中都有讲解，我个人认为也比较清晰。要深入理解，还需有个不断熟练的过程，需要反复研读相关理论推倒过程。

广义线性混合效应模型（GLMM）与复杂抽样的logistic回归模型在分层整群抽样数据分析中的比较

在公共卫生领域的抽样调查中为了减少抽样误差,提高抽样的精度,经常会采用如分层整群抽样这类复杂的抽样方法。由于这类抽样方法所得到数据往往是具有多层次的结构特点的,这就使得在同一较低层次的各个个体之间具有一定的相关性,即结局变量的分布在个体间不具备独立性。因而不满足传统的统计分析方法的应用条件,而多层统计分析模型和复杂抽样的统计分析方法均可以处理这类数据。目的研究和分析广义线性混合效应模型和复杂抽样的logistic回归方法在分层整群抽样数据中的应用,通过实例数据分析以及数据模拟的研究方法,结合国际通用统计分析软件SAS中相应的模块GLIMMIX与SURVEY模块来进行这两种方法在分层整群抽样数据中的比较应用。并通过改变模拟数据的参数组合,来比较在不同的内部相关系数(ICC),给定个体水平变量系数,抽样比以及样本量的情况下二者的适用性。同时,为了验证传统的统计分析方法在分层整群抽样数据分析中的局限性,也将传统的logistic回归模型纳入到比较分析中。方法首先将三种统计方法应用到实例数据的分析中,参考其分析结果设定模拟数据的参数值。数据模拟分两个部分：模拟一研究,模拟还原实…
第一章绪论 9-14
1. 分层整群抽样的背景及特点 9-10
1.1 分层整群抽样背景 9-10
1.2 分层整群抽样的特点 10
2. 分层整群抽样数据统计分析方法回顾 10-12
3. 研究设想 12-14
第二章原理和方法 14-23
1 抽样技术 14-17
1.1 抽样技术基本概念 14-16
1.2 分层整群抽样原理 16-17
2 传统统计分析方法——固定效应logistic回归模型 17-19
3 复杂抽样的logistic回归模型 19-20
4 广义线性混合效应模型(GLMM) 20-21
5 模拟研究 21-23
第三章实例分析 23-34
1 引言 23-24
2 模型的介绍及其应用 24-26
3 实例的流行病学研究 26-27
4 实例分析 27-34
第四章模拟研究结果 34-62
1 引言 34
2 模拟一研究 34-38
3 模拟二研究 38-60
4 小结 60-62
第五章总结和讨论 62-67
1 广义线性混合效应模型模型的应用 62-63
2 复杂抽样的logistic回归模型的应用 63-65
3 存在的不足 65
4 小结 65-67
参考文献 67-72

1) linear mixed effects model
线性混合效应模型
1.According the characteristics of the bivariate repeated measurement data,using the MIXED procedure of SAS software to fit linear mixed effects model.
为了探讨环境医学研究中不满足独立性要求资料相关性分析的方法,针对双反应变量重复测量资料的特点,采用SAS软件的MIXED过程,建立线性混合效应模型。
2) Linear mixed-effects model
线性混合效应模型
1.In this paper, the linear mixed-effects model of repeated measurements is discussed, and the repeated measurements data obtain reasonable results by the fixed and random effects along with efficient estimate of covariance matrix.
本文阐述了重复测量资料的特点，对一般线性模型及线性混合效应模型进行了简要对比；并探讨了重复测量数值型变量线性混合效应模型拟合方法，通过对固定效应、随机效应及协方差矩阵的估计，使重复测量数据得以更合理的分析。
3) linear mixed-effects models
线性混合效应模型
1.This paper considers the sensitivity of the predictors in linear mixed-effects models to co- variance misspecification using the local sensitivity analysis proposed by Banerjee and Magnus.
本文应用Banerjee和Magnus于1999年提出的局部敏感性分析方法讨论了线性混合效应模型中预测值关于误差项白噪声偏离的敏感性问题,提出了敏感性度量统计量,并在AR(1)和MA(1)误差项条件下数值模拟了这些统计量的表现。
4) generalized linear mixed models
广义线性混合效应模型
1.Objective :To discuss generalized linear mixed models(GLMMs) of categorical repeated measurement datas in clinical curative effect evaluation,implementing with GLIMMIX macro in SAS8.
目的:探讨临床疗效评价中分类重复测量资料的广义线性混合效应模型(GLMMs)及SAS8。
5) Nonlinear mixed effect model
非线性混合效应模型
1.Estimation of relative clearance of cyclosporin A with nonlinear mixed effect model in kidney transplant patients;
非线性混合效应模型法估算肾移植患者环孢素A的相对清除率
2.Evaluation of relative bioavailability and pharmacokinetic parameters of ciclosporin preparations by nonlinear mixed effect model;
非线性混合效应模型估算环孢素在人体相对生物利用度和药动学参数
3.Estimation of relative clearance of cyclosprine A in patients after renal transplantation using nonlinear mixed effect model;
非线性混合效应模型法估算肾移植患者环孢素A清除率
6) Nonlinear mixed effect model(NONMEM)
非线性混合效应模型法
1.Nonlinear mixed effect model(NONMEM) has been widely used in estimating population pharmacokinetics parameters of various drugs.
非线性混合效应模型法广泛应用于临床各类药物的群体药动学参数估算。

补充资料：多元线性回归模型

性质：假定从理论上或经验上已经知道输出变量y是输入变x1，x2，…,xm的线性函数，但表达其线性关系的系数是未知的，要根据输入输出的n次观察结果(c11，x21，…，xml，yi)(i=1,n)来确定系数的值。按最小二乘法原理来求出系数值，所得到的模型为多元线性回归模型。

线性混合效应模型影响分析
~ 费宇, 潘建新
出版社: 科学出版社; 第1版 (2005年7月19日)
平装: 204页
正文语种: 汉语
开本: 16
ISBN: 7030154908
《线性混合效应模型影响分析》研究了线性混合效应模型的影响分析问题，将近两年刚刚发展起来的Q函数方法全面系统地应用于该模型的统计诊断，对6种协方差结构的模型给出了Cook型诊断统计量，并提出基于Q函数的二阶导数期望的Cook型诊断统计量，发展和推广了原有的Q函数方法；还讨论了方差结构对统计诊断的影响，指出方差结构的误定可能引起影响点的误判，最后讨论了个体水平和观测值水平影响分析的关系。
《线性混合效应模型影响分析》可供大专院校的学生、教师、科研人员及统计工作者参考。
编辑推荐
线性混合效应模型是最重要的一种常见回归模型。但是现有文献大都从传统的似然函数出发来讨论，而对于稍具复杂而常用的非独立方差结构，如一阶自回归结构，从似然函数出发则难以获得相应的影响诊断统计量；而《线性混合效应模型影响分析》就弥补了这点不足。
目录
第1章引论
1.1 基本概念
1.1.1 统计诊断的概念
1.1.2 强影响观测值和强影响个体
1.1.3 Cook距离
1.2 线性混合效应模型
1.3 本书的结构
1.3.1 似然函数框架下的统计诊断
1.3.2 Q函数框架下的统计诊断
1.3.3 方差结构对统计诊断的影响
1.3.4 两水平的影响分析
1.4 预备知识
第2章基于似然函数的影响分析
2.1 影响分析简介
2.2 基于Hessian阵的影响度量
2.2.1 基于Hessian阵的影响度量的定义
2.2.2 广义Cook距离Ci和C*i的计算
2.3 基于Fisher信息阵的影响度量
2.3.1 基于Fisher信息阵的影响度量的定义
2.3.2 广义Cook距离Di和D*i的计算
第3章基于Q函数的影响分析
3.1 引言
3.2 基于国的Cook型统计量QDi
3.2.1 IC结构的QDi
3.2.2 AR(1)Ⅰ结构的QDi
3.2.3 AR(1)Ⅱ结构的QDi
3.2.4 AR(1)Ⅲ结构的QDi
3.2.5 UCⅠ结构的QD。
3.2.6 UCⅡ结构的QDi
3.3 基于EQ的cook型统计量QD*i
3.3.1 IC结构的QD*i
3.3.2 AR(1)Ⅰ结构的QD*i
3.3.3 AR(1)Ⅱ结构的QD*i
3.3.4 AR(1)Ⅲ结构的QD*i
3.3.5 UCⅠ结构的QD*i
3.3.6 UCⅡ结构的QD*i
第4章协方差阵结构对统计诊断的影响
4.1 IC结构
4.2 AR(1)Ⅰ结构(最佳结构)
4.3 AR(1)Ⅱ结构
4.4 AR(1)Ⅲ结构
4.5 UCⅠ结构
4.6 UCⅡ结构
4.7 六种协方差结构的对比
4.7.1 QD*i(θ)的比较
4.7.2 QD*i(β)的比较
4.8 小结
第5章个体水平和观测值水平影响分析的关系
5.1 观测值水平影响分析
5.1.1 基于Q的广义Cook统计量QDij
5.1.2 基于EQ的Cook统计量QD*ij
5.2 两个水平的影响度量之间的关系
5.2.1 QDi与QDij之间的关系
5.2.2 QD*i与QD*ij之间的关系
5.3 结论和最后的注
参考文献
附录本书用到的数据