本文由计量经济学服务中心综合整理。转载时请注明出处。
本文适合对面板数据和工具变量有初步了解并阅读过中级教材相关内容的人阅读。本文仅供参考,请原谅中英文混用。中科院徐志刚博士逐一指出了本文的错误,并对原文的不足之处做了大量的补充。
面板数据作为计量经济学的一个小分支,在大多数本科学校都没有研究过。本课程主要面向研究生及以上,但面板数据的实证分析经常出现在核心期刊上(例如,边肖前天去市图书馆看了一本经济学核心期刊,共10篇文章,其中3篇是面板数据,但不是简单的面板数据,主要面板数据和其他模型的组合)。
首先,面板数据在哪里
一般来说,面板数据模型的误差项由两部分组成,一部分与个体观测单元有关,它概括了所有影响解释变量但不随时间变化的因素。因此,面板数据模型常被称为非观测效应模型;另一部分总结了随时间变化的不可观测因素,通常称为具体误差或特殊扰动项(其实误差的第二部分可以分为两部分,一部分是不随时间变化但不随时间变化的不可观测因素对应的误差项Vt。对这一部分的一般处理方法是通过在模型中引入时间虚拟变量来剥离和控制,另一部分是随时间变化的不可观测因素。而一般计量经济学的面板数据分析主要讨论两个部分,误差成分模型会在高等统计学或者计量经济学中讨论,一般讨论误差的三个部分。
一般来说,非观测效应模型根据时不变非观测效应的不同假设可以分为固定效应模型和随机效应模型。传统上,大家习惯于这样分类:如果把未观测到的效应看作是每个区段或个体独有的一个可估计的参数,并且不随时间变化,那么这个模型就是固定效应模型;如果将未观测到的效应视为随机变量,符合特定分布,则该模型为随机效应模型。
但上面的定义并不是很严格,一个很误导人的地方是,似乎固定效应模型中的未观测效应是不变的,是随时间固定的,而随机效应模型中的未观测效应不是固定的,而是随时间变化的。
一个逻辑一致且严密的假设(见伍尔德里奇的教科书和1978年的芒德拉克的论文)是,固定效应和随机效应都是随机的,它总结了没有被观察到且不随时间变化的因素,但影响被解释的变量(特别是当截面个体比较大时,这个假设是合理的)。未观测效应应假设为固定效应还是随机效应,取决于未观测效应对应的不随时间变化的因子是否与模型中控制的观测解释变量有关。如果该效应与可观察的解释变量无关,则该效应成为随机效应。这恰恰是HAUSMAN设定要测试的测试的假设。
由于非观测效应的假设不同,面板数据的信息不同,非观测效应模型可以用不同的方法进行估计,得到不同的估计量,一般有四种:
这四种估计器因为假设和使用信息的不同而不同,各有优劣,也是息息相关的。3和4分别是1和2的加权平均值;4在特定假设下可以分别转化为1和3;如果HAUSMAN检验显示4和1没有区别,说明1和2没有区别。
RE假设未观测因子与解释变量正交,只是未观测因子中有两部分,一部分与单个单位有关,另一部分完全随机。RE在进行估计时,利用这两部分的方差计算出一个指标λ,称为拟风度,也就是说去平均时,从原始值Y或X中减去λ,乘以Y或X的平均值,再用GLS进行估计。极,当λ为0时,未被观测到的效应为常数,所有个体都相同,相当于汇集OLS。当λ为1时,完全随机部分可以忽略,所有未观察到的因素都与单位有关,所以等价于FE。然而,有限元不需要假设未观察到的因素与解释变量正交。做FE时,固定效果都是微分的,所以也可以得到一致的结果。
PANEL数据的一个优点是,如果未观察到的效应是固定的,那么在进行DEPOST时,未观察到的因素会有所不同。这样,由未观察到的因素引起的可能与解释变量有关的内生问题就可以减少。
二、PANEL的FE或RE分析是否避免了内生问题?
只能说更好。如果内生问题仅仅是由与不随时间变化的单位相关的缺失变量和解释变量引起的,那么数据差异就解决了问题。但是,不要忘了还有一些错误。如果这个误差中包含的因素也可能影响解释变量,那么差异只能解决上述问题,随机项中包含的因素与解释变量之间的关系导致的内生问题可能仍然存在。
三、如何处理内生问题?
找IV解决。类似于寻找基于OLS的IV,但是PANEL的工具要有PANEL结构,除非你的基本估计不使用PANEL方法,比如数据使用集合OLS方法,但是集合OLS方法分析PANEL DATA的条件非常严格。
第四,工具变量的选择
1、IV尽量外生(如历史/自然/气候/地理等。),理论上应该对解释变量(以下简称y)没有直接影响,应该通过影响仪表化变量(以下简称x)间接影响解释变量y。
2.如果上面的理论是符合逻辑的,就拿内生变量X作为解释变量,IV和其他变量(X2)作为解释变量,看IV是否显著,应该是显著的。如果选择了多个试管,使用f检验来查看它们是否都不重要。同时,如果其中一个IVS被确定为外生的,那么可以使用萨根确定限制的测试来测试其他IVS是否是外生的。
3.如果以上没有问题,做一个IV回归。完成后,使用HAUSMAN测试。这个检验的原假设是IV回归和原回归(无IV回归)的变量系数没有显著差异。看p值,如果p小于,比如说0.1或者0.05,那么IV回归与原回归有显著差异,原方程确实存在内生问题导致的估计误差。相反,如果P很高,超过0.1,或者0.05,则意味着IV回归与原始回归没有显著差异,不可能拒绝原始回归没有导致估计误差的显著内生问题的原始假设。
4.如果选择的IV影响Y本身,则不能视为IV。比如左边是y,右边是x(通过工具),X2,IV。当IV放在方程的右边时,最好不要显著影响y,在Acemoglu(2001)中,他考察了他们的IV是否直接影响解释的变量,结果显示没有直接影响,所以这个IV是好的。当然,一个好的IV在之前的回归中也可能是显著的(但一般来说,如果IV通过工具的内生解释变量在理论和逻辑上间接影响被解释变量,那么应该是工具的内生解释变量使得IV变得不显著,或者因为两者相关性高,两者都不显著),但判断的标准只是T值。这个变量很有可能是重要的,因为它会影响其他重要的变量(例如被检测的变量)。如果是这样的话,其他变量(尤其是仪表化变量X)的系数在IV纳入原方程后可能会发生显著变化。
5.关于豪斯曼测验的几个问题
详见stata公司,2001,stata 7参考h-p,stata出版社
1,意思是:“零假设是有效估计量是真实参数的一致有效估计量。如果是,有效估计量的系数和已知与真实参数一致的比较估计量的系数之间应该没有系统差异。如果这两个模型在估计系数上显示出系统性差异,那么我们就有理由怀疑高效估计器所基于的假设。”参见斯塔塔公司手册,2001,斯塔塔7参考手册,斯塔塔出版社。该方法由豪斯曼(1978)编程。因此,豪斯曼检验(Hausman Test)的命令假设用户知道两个方程中需要比较的是“原假设成立与否一致”,哪个“不仅在原假设下高效一致,而且在原假设不成立的情况下不一致”,[1]那么,在STATA 8下,步骤是:
(1)无论假设是否成立,获得一致的估计量;
(2)使用估计存储将估计结果存储在名称一致下;
(3)在你正在测试的假设下,获得一个有效的(和一致的)估计量,但在其他方面不一致;
(4)将估计结果存储在使用估计存储的名称有效下;
(5)使用豪斯曼进行测试
Haus man name-consistent name-efficient[,options]
示例:
这是一年(时间变量是年)
Iis代码(单位是代码)
Xtreg y x x2,fe(假设x是要使用的变量)
Est store fixed(在STATA8中,命令已经更改,不再是HAUSMAN,SAVE,这里的fixed实际上是一个变量名,可以使用任何东西)
xtreg y x x2,re
豪斯曼固定
先做IV,因为在任何情况下都是一致的,但OLS只有在原假设成立的情况下才是一致的,即OLS结果与IV结果相同,不存在内生问题。所以,IV要先做。
在旧版本的STATA中,如果没有特别的说明,STATA会默认先写回归命令得到一致的估计结果,然后在备选假设下写不一致的估计结果。豪斯曼命令现在已经标准化和扩展。先运行哪一个不重要,关键在于最后一个HAUSMAN命令的编写顺序,如果最后一个没有EST运行,应该用“.”代替。
2.注意:
豪斯曼可以用于任何情况。您在每个模型中指定回归系数的顺序并不重要,但您有责任确保估计值和模型具有可比性,并满足理论条件(见上文(1)和(3))。
这是一年(时间变量是年)
Iis代码(单位是代码)
Xtreg y x x2,fe(假设x是要使用的变量)
Est store fixed(在STATA8中,命令已经更改,不再是HAUSMAN,SAVE,这里的fixed实际上是一个变量名,可以使用任何东西)
xtreg y x x2,re
豪斯曼固定
(2)比较IVFE和IVRE
xtivreg y (x=iv) x2,fe
est store f1
xtivreg y (x=iv) x2,re
豪斯曼f1
一般来说,你不需要这个比较,因为在此之前,你已经知道哪个更好,所以只需将好的结果与其IV结果进行比较。
(3)IVFE与远东的比较
xtivreg y (x=iv) x2,fe
est store f2
xtreg y x x2,fe
hausman f2
还是那句话,如果结果是P小,大牌说明IV回归是必须的。原来有内生问题。
不及物动词例子
Acemoglu等人(2001)是一篇使用工具变量的非常有代表性的论文。他们试图证实该体系对人均收入有影响。很明显,如果直接回归,制度是内生的,因为人均收入高的地方可能会产生好的制度。他们寻找的工具变量是殖民时代一个国家的死亡率。死亡率高的话,欧洲人是不会安定下来的,所以会提出当时的掠夺性制度,否则就建立一个好的制度,当时的制度对现在还是有影响的。
特别值得注意的是论文第6.3部分对工具变量有效性的测试。首先,他们用其他可行变量作为替代品反复做IV回归,发现得到的结果与用死亡率作为IV得到的结果基本一致。(这当然是个好结果,但是我觉得没必要,因为你可能找不到其他IVs。然后,他们把死亡率本身作为外生变量放在原始回归中,发现它对被解释变量没有显著影响,说明它不直接影响被解释变量。再次,他们测试了只带死亡率的IV和带死亡率的同时带其他IV的结果,发现两者没有显著差异。同样,它表明死亡率没有直接影响,也没有通过影响系统外的其他变量来影响解释的变量。我觉得这一步也没必要,因为如果你没有另一个IV,这一步就没有办法了。
七.引用
阿奇莫格鲁、达隆、西蒙·约翰逊和詹姆斯·罗宾逊(2001):《比较发展的殖民起源:经验主义调查》,《美国经济评论》,12月,第91卷,第5,1369-1401页。
斯塔塔公司,2001年,斯塔塔7参考H-P,斯塔塔出版社。
豪斯曼,杰瑞和威廉·泰勒,1981,“面板数据和不可观测的个体效应”,《计量经济学》,第49卷,第6期,1377-1398。
豪斯曼,杰瑞·A .,1978,“经济计量学中的规范检验”,《计量经济学》,第46卷,第6期,1251-1271。
点击“阅读原文”报名参加第十一届“高级计量经济学与统计培训”
1.《hausman检验 【陆铭】面板数据、工具变量选择和HAUSMAN检验的若干问题》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《hausman检验 【陆铭】面板数据、工具变量选择和HAUSMAN检验的若干问题》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1623811.html