第二节 研究设计

一 理论框架

本书的研究目的是在经济体制改革以及劳动体制改革的背景下,考察中国城市劳动力市场分割状况如何影响个体的职业地位获得,以反映中国城市代际流动的总体水平、影响因素和可能的影响路径,从而对以往的地位获得模型进行修正。

根据上文的文献回顾,结合相关变量和可操作化定义,可以建立一个有关劳动力市场分割与个体职业地位获得的理论框架(见图2-1)。

图2-1 本书的理论框架

二 分析思路、时期划分与研究假设

根据以上理论框架,本书的分析思路如图2-2所示,我们将首先结合经济体制改革与劳动体制改革的制度背景,考察转型时期中国城市劳动力市场的结构变迁过程,以及劳动力市场是否存在部门分割、行业分割和职业分割状况。如果研究结果能够证明中国城市劳动力市场存在部门分割、行业分割和职业分割,那么研究将转入探讨这些分割状况如何影响了个体的职业地位获得,包括最初部门、行业和职业的进入与目前部门、行业和职业的获得。如果研究结果能够证明劳动力市场多重分割的确影响了个体的职业地位获得,那么本研究将进一步探讨劳动力市场分割条件下的地位获得模型,从而对再生产逻辑和双重流动逻辑进行验证与回应。

图2-2 本书的分析思路

其次,为了更好地在制度背景下讨论城市劳动力市场不同层面的分割状况如何影响个体的职业地位获得,我们将对制度转型的过程进行阶段划分。通常有两种划分方式:一是按照市场化的渗透或扩张速度进行划分,二是按照政治政策的重大变革进行划分。但这两种划分方式在阶段的节点上实质是一致的(李路路,2003b: 204)。为了更方便与以往代际流动研究进行比较,通常把1992年南方谈话看作我国启动新一轮的市场化改革的重大标志性事件。我们通过考察劳动体制改革的相关政策和城市劳动力市场结构变迁的阶段性特征,进一步确立2003年为重要的劳动力市场结构的转折年份(详见第三章至第五章的第一部分)。

再次,在具体的分析方法上,本书将采用工作同期群分析方法来体现这种时期划分特征需要说明的是,年龄、时期和队列之间存在相互关系。三者的作用通常称为年龄效应、时期效应和队列效应。其中,年龄效应是指因所处年龄不同而造成的差异,时期效应则是因时期不同对所有年龄的人都具有的效应,而队列效应则是因为在特定的年龄处于特定的时期而造成“交互效应”。如无充足条件,很难将三种效应分解开来。当前有研究者尝试使用APC模型(Age-Period-Cohort Model)进行分解(梁玉成,2007),但该模型对数据有较高要求,要么需要外部数据信息作为时期或队列的指标,要么需要多次重复性的界面调查数据。在单个截面调查数据基础上以队列差异反映时期差异的做法,在严格意义上仅仅适用于对不同队列在相同年龄点上的特征的比较,如对不同就业队列的初职特征进行比较(郝大海、王卫东,2009;梁玉成,2007a)。当分析的特征属于不同队列的不同年龄点时,会因年龄效应的存在而无法分解出时期效应。由于缺乏跟踪数据和合适的外部数据信息,本研究以准实验设计的方式,在分析现职特征的影响因素时仍然采用工作同期群概念。。同期群在人口学研究中又称为“队列”,即“在特定时期经历特定事件的一群人”(Ryder, 1965;翟振武、陆磊等,1989)。如果特定事件是出生,则为出生队列(Birth Cohort),又称“出生同期群”。如果特定事件是参加工作,则为工作队列(Job Cohort),又称“工作同期群”。本书选择的同期群经历的特定事件是初职工作,因此为“工作同期群”。考虑到我国市场化的扩张速度,我们选择了3个不同的工作同期群(Job Cohort)作为研究对象(详见本书第三章第二节)。

此外,在制度转型过程的时期划分基础上,本书提出如下9个研究假设。

假设1:相比改革初期,在改革中期和深入期,父代工作部门对子代首个与目前工作部门获得的影响程度将逐渐减弱。

假设2:无论在改革的哪个时期,子代的人力资本因素对子代首个与目前工作部门获得都具有重要影响。子代的受教育程度越高,越有可能进入国有部门工作。

假设3:无论在改革的哪个时期,户籍身份都依然对个体的就业发挥作用。比起幼年时为农业户口的劳动者,幼年时为非农户口的劳动者更有机会进入国有部门工作(假设1~3详见第三章)。

假设4:相比改革初期,在改革中期和深入期,父代行业对子代首个与目前行业获得的影响程度将逐渐增强。

假设5:无论在改革的哪个时期,子代的人力资本因素对子代首个与目前行业获得都具有重要影响。子代的受教育程度越高,越有可能进入高收入行业工作。

假设6:在改革中期,那些转换行业的人比没有转换行业的人,更有可能进入高收入行业(假设4~6详见第四章)。

假设7:改革以来,父代职业对子代初职获得的影响将不显著。

假设8:改革以来,子代的人力资本因素对子代的初职获得都具有重要影响。子代的受教育程度越高,越有可能从事职业地位更高的职业。

假设9:改革以来,相比父代工作部门,父代的行业对子代初职获得具有更积极的影响(假设7~9详见第五章)。

三 数据来源

本研究所使用的数据来源于北京大学中国社会科学调查中心(Institute of Social Science Survey, ISSS)执行的“中国家庭动态跟踪调查”(Chinese Family Panel Studies, CFPS)的2010年全国性抽样调查数据。

“中国家庭动态跟踪调查”是北京大学设计并实施的一项全国性家庭跟踪调查计划,是旨在通过跟踪搜集个体、家庭、社区三个层次的数据,反映中国社会、经济、人口、教育和健康的变迁的重大社会科学项目,目标是为学术研究和政策决策提供数据详情参见http://www. isss. edu. cn。

2010年4月至9月,北京大学中国社会科学调查中心采用内隐分层、多阶段、多层次、与人口规模成比例的概率抽样方式,首次在除了港澳台地区、新疆维吾尔自治区、青海省、内蒙古自治区、宁夏回族自治区、西藏自治区、海南省之外的25个省区市进行了调查;并于2010年11月至2011年2月对村居、家户、家庭成员三个层次的拒访和因不在受访地址发生的未访等进行补访,最终获得包括6个独立样本框在内的总计9594户家庭数据和21572份成人数据。本书所使用的是该调查数据中的成人职业模块及基本个人信息模块和父亲职业模块及基本个人信息模块的相关数据。

本书的总样本量为2834个,即选取CFPS 2010成人样本中目前居住在县级以上城市(不包括县城,但包括受访时居住在城市的流动人口),正在从事非农工作,且完整填答了个人教育、职业、收入信息的子代样本。此外,在各章具体分析中,将子代样本与父代样本匹配后,实际样本量有所不同(均为1000个样本左右)。同时,在统计分析中使用未加权的数据。

四 变量选择

本书涉及的主要变量如表2-1所示。

表2-1 本书所使用的变量

注:由于样本量的限制和研究目的的不同,各章具体分析时对变量的具体编码方式会有所调整。

五 分析方法

本研究采用量化研究方法进行分析,采用的统计软件为Stata/SE 12.0和LISREL 8.7。本研究使用的统计模型有以下三种。

第一种是对数线性模型。为了更好地分析代际部门、行业和职业流动模式,本研究采用对数线性模型,以揭示代际相对关系模式的变化特征。对于2∗2简化的对数线性模型的思路如下。

首先,对于一个RC列的流动表来说,如果fij表示第i行的第j列对应的单元格的观察频次,Fij表示对应单元格的期望频次,我们可以得到流动表的对数线性模型的一般形式:

但是,在运用对数线性模型对研究假设进行检验的过程中,饱和模型(简单记为RCL)极少具有研究意义,因为它仅对观测频次进行了参数化。我们需要建立更为简约的模型并对比观测数据对其进行检验,依次如下。

1.独立模型(R, C

在这个模型下,两个变量相互独立,二维交互参数都为零,即:

如果这个模型成立,就需要进行单变量分析。

2.准独立模型

这类模型假设RC在非对角线单元格中相互独立,那么它就满足准独立性。使用准独立模型是为了检验表格的其余部分在控制对角线单元格之后是否满足独立性假设,即:

πiji+π+j, ij

3.准对称模型

如果将行和列的边缘效应引入,就是准对称模型。它允许边缘异质性但是限定交互参数是跨主对角线对称的,即:

log Fij=μ+μijij, μijji

4.跨越模型

跨越模型假设一个分类变量的不同类别代表不同的跨越难度。行变量的两个类别间隔越远,列变量两个类别间的交互参数就越少,即:

我们使用MLE进行估计。具体是用BIC和G2来检验独立模型(Odds-ratio=1)(null model),用likelihood ratio test来比较替代模型和独立模型。

第二种是Logistic模型。为了进一步分析在不同层面的劳动力市场分割制约下,父代资源和子代资源对子代不同地位类型获得的影响,我们同时将标识子代不同地位类型的各个变量(包括子代的首个工作部门/行业/职业,或子代目前工作部门/行业/职业)均视为多个非次序类别的情况。因此,本研究采用二分Logistic和基线(Baseline)对比多项Logistic模型。

对于基线对比多项Logistic模型而言,是指对于包含J个类别(j=1, …, J)的结果变量(y),将第j个分类(j>1)与基线类别进行比较,推导出第j个分类的基线Logistic模型为:

这里,pjp1表示第j类和第一类(以第一类为基线类别)的概率。对于包含J个类别的结果变量,有J-1个非冗余的基线Logistic。

第三种是结构方程模型。本研究用此方法来分析中国城市劳动力市场的诸分割因素对个体地位获得影响的路径。

结构方程模型综合了回归分析、路径分析和因子分析等统计方法,其主要优点体现在两个方面:一是可以同时处理多个因变量,并容许自变量和因变量含测量误差;二是不仅能研究变量之间的直接作用,还可以研究变量之间的间接作用,并通过路径图直观地显示变量之间的关系。通过结构方程模型,研究者可以构建出潜变量之间的关系,并验证这种结构关系是否合理,对本研究分析多因素对个体地位获得的影响路径非常有帮助。

结构方程模型包括测量模型和结构模型两个部分。

测量模型用于描述潜变量与指标之间的关系,其表达式为:

xxξ+δ

yyη+ε

其中,x为外生潜变量的测量指标,y为内生潜变量的测量指标,Λx表示外生变量指标与外生潜变量之间的关系(因子负载),Λy表示内生变量指标与内生潜变量之间的关系;ξ为外生潜变量,η为内生潜变量,δ为外生潜变量测量指标x的误差项,ε为内生潜变量测量指标y的误差项。

结构模型则描述潜变量之间的关系,其表达式为:

ηηξ+ζ

其中,η为内生潜变量,ξ为外生潜变量,Β表示一些内生潜变量对其他内生潜变量的影响,Γ表示外生潜变量对内生潜变量的影响;ζ为结构方程的残差项,为η在方程中能被解释的部分。整个结构方程模型的假设为:测量方程的误差项δε的平均值都为0; 测量方程的误差项δε与内生潜变量η、外生潜变量ξ、结构方程误差项ζ之间不相关结构方程模型及其假设,参见郭志刚(1999: 342~344)。