首页 > 文章中心 > 正文

城镇居民教育收益率及分布

城镇居民教育收益率及分布

一、教育收益率的长期变动趋势

教育收益率是大量经济学家所共同关注的一个重要问题。教育收益率的高低对于理解劳动力市场上的工资决定机制以及人们的人力资本投资行为(显然,教育是人力资本形成的重要途径)都具有非常重要的意义。在我国经济转型与改革过程中,对教育收益率的考察将具有更为特殊的意义,教育的投资收益不仅反映了人力资本的回报特征以及由此导致的人力资本投资行为,更为重要的可能在于为我国当前居民收入差距不断扩张的趋势性特征是否具有某种合理性提供经验上的证据支持。在经济转型过程中,我国居民收入差距不断扩张,这其中的原因是复杂的,但对原有分配体制的矫正无疑是一个重要的解释性原因,这种体制矫正的一个重要现就在于收入决定中更加强调具有生产性功能的要素贡献,包括教育在内的人力资本获得更为充分的回报。在估计我国教育收益率的文献中,大体上都认为改革开放之初,教育收益率是非常低的;但随着改革深化,市场机制作用的增强,教育收益率具有不断提高的趋势,这可能是因为收入分配中更为强调教育等人力资本回报。从孙志军(2004)总结的对我国城镇居民明瑟收益率的18项研究中可以发现,经济学家估计的20世纪80年代的教育收益率通常在3%左右;到90年代中期,大约为5%左右。张俊森等(Zhangetal,2005)、李实与丁赛(2003)还考察了教育收益率的长期变动趋势特征,他们的研究结论大体上都显示出,教育收益率有不断升高的趋势。①

李雪松与Heckman(2004)在考虑了教育回报的异质性后发现大学阶段的教育收益率为43%,大学四年的年均教育收益率大约为11%。张车伟(2006)对近年来教育收益率的估计方法与估计结果也进行了总结,本文不再对这些研究结果进行重复性说明。相对于已有的教育收益率的大量研究文献,本文对家庭特征(父母背景)、工作单位特征(就业特征)以及教育质量等因素进行了控制,从而在一定程度上降低了教育收益率估计中可能存在偏差的某些因素的影响;此外,我们试图利用分位回归的分析方法讨论教育收益率与收入分布之间的分布特征,因为在控制其他因素的情况下,收入条件分布的各分位点或许间接地测度了不可观测的能力特征。

二、估计方法讨论

明瑟方程是估算教育收益率的基本方法,以受教育程度和工作经验来解释收入水平:lnw=α+βSch+δ1Exp+δ2SExp+ε(1)其中,lnw示个人工资的对数,Sch示受教育程度(或受教育年限),Exp与SExp分别示(潜在)工作经验以及工作经验平方,ε为误差项。估计系数β为不考虑教育成本时的教育收益率。明瑟方程在教育收益率的估计中具有非常重要的意义,同时也有大量的讨论以此展开。这些讨论中有的涉及到控制变量的选择,有的涉及到估计方法的选取。最主要的是估计方程中缺乏对能力(ability)的度量。明瑟方程中,假定了所有人获取教育的机会是相同的,如果不同的人的能力有差异,这种能力上的差异可能会影响到教育程度,也可能同时影响到收入水平。由于能力与教育、收入之间都具有相关性,因此对这一变量的省略(omitted)会导致教育收益率估计中的偏差,而且由于能力对教育以及收入都具有正向作用,这种偏差现为对教育收益率的高估。通常也有一些方法来纠正这种内生性偏误,如引入能力的变量,如IQ测试等,但在我国的调查数据中一般都没有相应的指标,同时也有研究明这种方式仍会导致OLS估计结果的上偏(HarmonandWalker,1995);利用双胞胎信息,比较双胞胎之间的教育水平与收入水平差异,由于双胞胎可能是一个具有特殊性的群体,因此这一结果是否具有代性并推断为总体特征可能仍会存有疑问;将能力视为不可观测的固定效应,从而试图通过面板数据的特征来消除其影响,但对于已经完成教育的大部分样本来说,教育变量同样构成了面板数据中的一个“固定效应”,只有未完成学业或再重新接受教育的样本中才会出现教育变量的跨时期变化,而这两类样本也是具有极强的特殊性的;根据某些影响教育决策的外生事件构造“自然试验”(naturalexperiment),如出生时间与入学的年龄规定;或者以父母或兄弟姐妹的教育程度作为控制变量等。教育收益率估计偏差的另一种来源是由于样本选择造成的。只有那些参与劳动力市场者才能观察到他们的工资收入,而劳动力参与则是自我选择的结果。能在多大程度上纠正这些偏误已经成为教育收益率估计的方法论讨论的重要内容。以上纠正能力偏差的思路强调的是以何种方式能最佳刻画个体的能力特征。不过由于能力本身是难以观测的,关于能力的度量也缺乏应有的理论基础,因此现有的各种对所谓能力偏差的纠正方式只能明是得到了一个与OLS估计量不同的估计结果,但基准情形(benchmark)究竟是什么?并不容易确定,也就不能断定哪个结果更为真实地刻画了实际的教育回报特征。

如果把控制能力特征后对教育收益率特征的估计理解为,对于给定的能力水平,教育与收入水平之间所现出的关系形式,并且如果高能力者能够获得较高的收入回报,则收入水平可以在较大程度上能力水平。①这一关系也可近似地理解为,对于不同的收入水平,教育与收入之间的关联形式。这一思路可能与分位回归(QR,quantileregression)的基本思想比较接近。分位回归分析是由Koenker与Bassett(1978)所提出的,并逐渐获得了越来越广泛的应用。利用分位回归,我们可以得到给定解释性因素的条件下,收入分布的不同(条件)分位点上教育收益率的估计结果。除了前面所提到的这一方法在估计教育收益率中或许能有助于纠正能力偏差外,能够给出估计参数的分布特征以及对异方差的纠正也是分位回归的优良性质。一般说来,基于一系列经典假定,OLS估计量具有一些良好的统计性质,它是最优线性无偏估计量(BLUE),但这些经典假定有不被满足的可能;此外,OLS估计量建立在均值回归基础上,假定估计参数在整个样本区间内是相同的,并且误差项也具有完全相同的分布特征。

因此,OLS可以得到估计参数以及预测值的平均水平,但无法得到相关的条件分布特征。对于某些自变量来说,其回报率(即回归参数)在不同的人群组中可能是不一样的。一种简单而直观的处理方式是对人群组做出相应的划分,但这种人为的分组方式是以因变量为基础的,会导致因变量的分布被截断(truncated)。分位回归则能纠正这种截断分布问题。遵循Buchinsky(1994)的思路,估计教育收益率的分位回归模型可以写为:lnwi=βθSchi+γθXi+uθi,且有Quantθ(lnwi|Schi,Xi)=βθSchi+γθXi其中,Quantθ(lnw/Sch,X)示给定Sch与X,lnw的第θ个条件分位点(conditionalquantile);βθ与γθ为分位回归(QR)估计系数。参数βθ与γθ估计通过最小化绝对离差(LAD)来实现,即:(βθ,γθ)∈argmin∑{lnw≥βSch+γX}θ[lnw-(βSch+γX)]∑{lnw<βSch+γX}(1-θ)[lnw-(βSch+γX)]其中,0<θ<1,为所考虑的分位点。由最小化的一阶条件可知,^βθ为满足∑iSchi(θ-I)=0的解。相对于OLS估计量,Deaton(1997)指出分位回归模型具有四个方面的优势:可以在一定程度上克服异方差问题;能给出条件分布的大体特征,不同分位点下所给出的βθ与γθ本身也可能有值得进一步探讨的意义;在扰动项分布非正态情形下,QR估计量有可能比OLS估计量更为有效;而且QR估计量更加不容易受到异常值的影响。

三、数据描述

本文数据来自于中国社会科学院经济研究所收入分配课题组于2002年针对城镇住户所做的调查。本次调查共覆盖12个省份的6835户、总人口为20632人的城镇样本。调查工作由中外课题组设计调查问卷,国家统计局调查系统负责实施,所有调查样本都来自于国家统计局的常规住户调查样本框。基于本文的分析目的,我们只选取了其中的部分样本。首先,本文只考虑的是就业样本,因此只包括16—60岁之间被雇佣的样本,不包括自我经营者,也不包括在当年的失业经历者。由于本文所考虑的一个重要方面是家庭特征对教育收益率的影响,在这一数据库中,对家庭背景具有详细登记的是父母信息。本次调查专门询问了户主与配偶的父母亲基本信息,因此在样本选择时,只包括家庭户主、配偶以及他们的子女,没有包括其他家庭成员。这种选择是否会造成教育收益率估计的偏差可能是不确定的。因为我国的户主概念在更大程度上是与户籍登记相一致的,并不完全对应于个人在家庭中的相对收入能力。①

在本文所使用的样本中,工资收入的分布特征如•a与•b所示。未经过对数转换的工资分布图现出了强烈的左偏态特征,经过对数化处理后,对数工资的分布仍现出偏态特征。②这种(对数)工资收入分布的非正态性意味着分位回归可能更为合适。给出了不同受教育程度的年龄-工资关系曲线。显然,在相同年龄组中,教育程度较高者的平均工资收入水平也相对较高,并且这种差距总体上随着年龄的增长而进一步扩张,这意味着教育程度较高者不但具有相对较高的工资水平,也具有相对较高的工资增长速度。在教育收益率估计中,两个最为重要的解释变量是教育与工作经验。与以往的研究类似,我们仍以受教育年限和教育程度来度量教育,前者是一个连续变量,后者是一个离散变量。对工作经验的度量通常以“年龄-受教育年数-入学年龄”来度量潜在工作经验,这也是国际文献上通用的度量方法,但这与我国的工龄的连续计算方式是有差异的;另外如果受教育年限的数据中存在度量误差,则也将导致推算的工作经验的度量误差。在2002年调查数据中,直接询问了开始工作的年份,根据这一变量我们可以生成其工作经验年数的变量。①本文根据开始工作的年份来生成工作经验的变量。

本文讨论以扩展的明瑟方程为讨论的起点。在扩展的明瑟方程中,除了受教育程度与经验变量以外,还包括性别和中共党员身份。本文中,受教育程度、收入水平的描述性统计量可见,受教育程度构成收入水平的解释变量,其估计系数为教育程度的收益特征。中给出了各类控制变量的构成:父母背景中包括了父母的党员身份、教育程度以及他们的职业类型;就业特征包括单位性质、所有制、职业性质以及所处的行业和省份等;此外,我们还以高中学校是否为重点学校、中学成绩、上大学的途径以及所在大学的排名评价度量教育质量。在扩展明瑟方程的基础上,逐步加入父母背景、就业特征和教育质量等各类控制变量。与OLS估计相对应,分位回归估计中也考虑不同的控制变量对教育收益率的影响,并试图从教育收益率分布的变化中找出不同人群教育收益率差异的可能解释因素。总体上说,在分位回归中,我们所施加的三类控制变量仍为:家庭背景(父母状况)、就业单位特征以及教育质量,以考察这三类变量是否会影响到不同分位点的估计系数差异,或对估计系数条件分布特征的影响。

四、教育收益率的分布特征

1•OLS回归结果

作为比较,我们首先给出OLS估计量。只给出了工资方程中教育变量的估计系数。从中可以看出,根据控制了性别与党员身份的扩展明瑟方程,得到受教育年限的估计系数为0•0676,对这一估计系数以公式exp(b)-1进行折算,可以得到2002年城市居民每增加一年受教育程度导致工资水平上升大约7%左右。当增加新的控制变量后,教育年限的估计系数都有不同程度的下降。如果只控制某一类因素,则不难发现,当控制就业特征时,受教育年限的估计系数下降得最为明显,增加一年受教育程度对工资收入的增长效应下降至0•0428(或对收入的贡献率为4•37%),下降2•63个百分点;而控制父母背景受教育年限的估计系数影响则相对较小,受教育年限的估计系数下降至0•0622(或对收入的贡献率为6•42%),下降0•58个百分点,相对下降幅度为8%左右。如果同时控制教育质量与就业特征,将导致受教育年限估计系数的更大幅度下降。在同时控制了父母背景、教育质量与就业特征这三类特征后受教育年限的估计系数下降了一倍以上,只有0•033(年收益率为3•36%)。考虑教育与收入关系的另一种重要方式是将受教育程度以离散形式度量。

同时也给出了以小学文化程度为参照组,初中、高中/中专、大专与大学及以上四类受教育程度收益特征的估计结果。在扩展明瑟方程中,“大学及以上”的估计系数为0•86,也就是说,“大学及以上”受教育程度者的平均收入水平相对于初中文化程度者的平均收入水平要高出136%。①就总体趋势来说,受教育程度的估计系数随着控制变量的增加而逐渐下降,但不同类型的控制变量对于不同受教育程度的估计系数的影响并不相同。如果只考虑控制一类因素的情形,无论控制的是哪一类因素,“大学及以上”这一变量估计系数的变化是最为明显的、变动幅度最大,增加一类控制因素将导致“大学及以上”的估计系数下降10个百分点左右。

并且,这种控制变量增加导致受教育程度估计系数下降的幅度也是随着受教育程度的上升而扩大的。对于受教育程度为“初中”者来说,增加新的控制变量对于其估计系数的改变并没有明显的影响,只是当控制就业特征时,“初中”变量的估计系数下降了0•024,而其他受教育程度变量的估计系数变动幅度都在0•1以上,其中“大学及以上”这一变量的估计系数下降了0•23。对于任意的受教育程度,因控制就业特征而导致的估计系数变化幅度都是最大的,这一方面说明就业特征对于居民收入水平的决定具有重要作用,另一方面也明教育的收益特征与就业状况之间存在着密切的关系,这一关联可能是由于劳动力市场分割特征造成的(张车伟,2006),或更进一步地是基于劳动力市场分割而造成的就业匹配质量差异形成的(邢春冰,2006)。如果控制两类因素,则父母背景与就业特征的组合导致各受教育程度变量的估计系数下降幅度最大。如果同时控制三类因素,则初中组的估计系数下降0•04,是各组中下降幅度最小的;高中/中专、大专以及大学及以上分别下降0•15、0•22与0•32,随受教育程度提升而依次下降的趋势非常明显。

2•分位回归结果

我们以图像形式展示分位回归结果所显示的是受教育程度在不同收入分布分位点的估计参数特征。给出的是以受教育年限度量的教育程度在不同分位点的估计系数。从中可以发现:教育年限的估计系数随着分位点的上升而现出明显下降的趋势,并且这一趋势并不随着控制变量的变化而改变。这一变动特征与张车伟(2006)的结论刚好相反。张车伟(2006)发现教育回报率随着收入水平的增高而上升。这一结论的出现可能与两个方面的原因有关:一是在该文中城乡样本被混合使用,而城镇居民的收入水平相对较高,并且多数的估计结果也显示出城镇居民收入决定中教育收益率也高于农村居民;二是其样本只包括了上海、浙江与福建三个省份,或许样本构成具有较强的特殊性。关于教育收益率估计的多数文献中都强调对能力变量的忽略将会导致教育收益率的高估。如果这一结论能够成立,则在分位回归分析结果中,教育收益率将随着分位点的上升而下降。因为越是在高收入组中,能力因素在收入决定中所起的作用可能会越强。没有控制能力因素的OLS回归结果上偏的可能性与幅度将会更大。此外,不同收入分位点上教育收益率变动趋势的不同特征所引发的政策含义也是完全不同的。如果高收入分位点上教育收益率相对更高,则意味着教育扩展将会具有不断加剧收入差距的效应;而如果教育收益率随着收入分布分位点的上升而下降,则意味着教育扩张会有助于缩小居民收入差距。本文估计结果明,收入分位点越高,对应的教育收益率越低。这明,提高受教育程度,可能会更加有助于低收入阶层的收入增长。

总体上说,增加新的控制变量将导致各分位点上的教育收益率出现不同程度的下降,但这种变化并没有改变收入条件分布的高分位点上对应的教育收益率较低的总体特征。是否控制就业特征,将会导致收入条件分布的不同分位点上所对应的教育收益率存在非常大的差异性。加入就业特征后,教育收益率曲线大幅度向下移动。这也就意味着,受教育程度的收益特征同时要受到就业特征的影响。而这一特征可能在较大程度上与我国劳动力市场的分割特征相关。由于劳动力市场是分割的,劳动力在不同类型单位之间缺乏充分的自由流动性,人力资本在不同就业单位之间的回报差异无法通过劳动力的自由流动实现均等化。控制父母背景导致收入条件分布不同分位点上教育收益率的差异变动幅度是非常小的。在这些被控制的父母特征变量中,包括了父母的人力资本特征(教育程度)以及社会政治资本等,但这些特征对于子女的教育收益率的影响并不明显。需要说明的是,这些父母特征对于子女的教育收益率没有非常重要的影响并不意味着这些因素在子女的收入决定中是不重要的。事实上,这些变量在子女收入函数中的联合显著性通常都是非常高的,大多在1%的水平上显著。

和给出的是以离散形式度量的各教育程度在收入条件分布不同分位点上的收益率特征,这里的教育程度参照组为小学及以下。为了便于比较,给出的是同一估计方程中,不同受教育程度在收入条件分布各分位点上的收益特征;而给出的是在施加不同控制变量的情形下,相同受教育程度在收入条件分布各分位点上的收益特征。从中可以看出,对于给定的参照组,较高受教育程度的收益率总是相对较高,但控制变量的差异将导致不同受教育程度收益率之间的差异幅度在不同分位点上有所差别。特别是在•7与•8中,在增加了相关控制变量后,不同受教育程度的收益率差异随着收入条件分布分位点的上升而下降,这一特征也是与以受教育年限度量的教育收益率随着收入条件分布分位点的上升而下降的基本趋势相吻合的。从中也可以发现,控制了就业特征以后,“大专”与“大学及以上”教育程度在收入条件分布各分位点上的收益率也有较大幅度的下降,这一点也是与所揭示的特征相一致的。从图像上看,当收入决定函数中施加了就业特征与教育质量等控制变量后,教育收益率随着收入条件分布分位点上升而递减的趋势变得更加明显,对于“大学及以上”文化程度来说尤其如此。这也意味着高等教育阶段的收益特征受到就业以及教育质量①的影响要更为强烈。在教育收益率估计中,为了得到无偏的估计结果,一种比较传统的做法是增加控制变量。

给出了收入条件分布不同分位点上的教育收益率估计系数的变异系数。总体上说,控制变量的增加并没有缩小不同分位点上教育收益率的变异系数值。也就是说,增加控制变量尽管会导致均值意义上的OLS估计量的变化,但对于改善估计系数的分布特征并没有显著的意义。特别是控制父母教育程度被认为是纠正能力偏差的选择方式之一,但从本文中可以看到,控制父母背景后,各不同分位点上教育收益率的变异系数不仅没有下降,而且有所上升。从这种意义上说,尽管控制父母教育程度会导致教育收益率估计系数的下降(见),但这种下降并不一定意味着是由于收入决定中的能力因素被剔除造成的。与所不同的是,与中所展示的离散形式的受教育程度的收益率随着收入条件分布分位点上升而下降的趋势性特征远没有明显,受教育程度收益率与分位点之间的单调性关系也远没有所显示的那么强烈。为了进一步检验教育收益率与收入条件分布各分位点之间的联系,我们可以估计以下方程:βθ=δ0+δ×θ+ε(2)其中βθ为给定的收入条件分布θ分位点上所对应的教育收益率估计系数,则δ的估计值便可以度量教育收益率与收入条件分布分位点之间的联系形式。给出了施加不同控制变量情形下的教育收益率的分位回归结果与对应的分位点之间的关联性。的估计结果明,基于受教育年限得到的教育收益率、“大专”以及“大学及以上”受教育程度在收入条件分布不同分位点上的估计值与分位点之间的统计关系非常显著,教育收益率随着收入分位点的上升而显著下降。对于“初中”及“高中/中专”来说,一旦控制了就业特征,这两个阶段的教育收益率也现出与收入条件分布分位点的递降倾向。比较不同控制变量对教育程度估计系数与分位点的关系的影响中可以看出,当控制就业特征后,收入条件分布各分位点对以“受教育年限”度量的教育程度的回归系数的绝对值最低,即变化趋势最为平缓,对于“大学及以上”文化程度的估计系数来说,也是如此。这就明,就业特征的引入降低了收入条件分布不同分位点之间的教育收益率差异。

五、总结

本文在控制影响收入的多种因素的基础上,利用OLS与分位回归分析方法讨论了城镇居民的教育收益特征,包括均值意义上的教育收益率以及收入条件分布不同分位点的教育收益率分布特征。本文的基本结论明:在收入条件分布较高的分位点上,所对应的教育收益率相对较低,即教育收益率随着收入等级的上升而下降;另一方面,收入函数中引入不同类型的控制变量将会影响到平均的教育收益率估计水平,也在一定程度上影响到教育收益率的分布特征。在本文所考虑的控制变量中,就业特征对于教育收益率的影响最大,不仅影响到教育收益率的均值水平,也影响到教育收益率在收入条件分布不同分位点上的分布特征。这在一定程度上为劳动力市场分割提供了一种间接的经验证据。就政策含义来说,尽管教育收益率可能成为我国居民收入差距扩张的一个重要解释因素,但现有的情形并不明高收入者的教育回报也要高于低收入者,因此就其本身的意义来说,教育扩张仍将在更大程度上有助于低收入群体的收入增长,或者说教育扩展本身并不是导致收入差距扩张的原因。就业特征对于教育收益率的影响明,就业状况或职业获得应当成为收入分布研究的重要内容,因为相对于教育程度而言,就业特征与职业获得可能是影响居民收入分布、导致收入差距扩张的更为重要的原因。