一、员工敬业度的概念
目前对敬业度(Engagement)的概念都没有一个统计的界定,主要有两个领域对其进行研究:管理公司和学术界。管理公司主要以实际出发对其进行实证研究,学术界则是从学术角度提出相关的理论。
第一,在管理公司领域,盖洛普公司的盖洛普博士将敬业度定义为:企业首先要为员工创造良好的环境使其优势能得到有效发挥,在此基础上,企业还应让员工在组织中有一种归属感,让其感受到自己就是组织的一员,具有主人翁的责任感。盖洛普公司将员工主要分为敬业、守业和怠工员工三类,这主要是根据员工在情感上认同工作和组织的程度,以及由此而带来的员工对工作和组织的投入度;翰威特公司认为敬业度是用来衡量员工期望留在公司的程度,以及对工作尽心的程度,据此翰威特公司提出了积极评价、渴望留任和竭尽所能三维度的敬业度。韬睿公司将敬业度定义为员工意愿和努力帮助组织取得成功的程度,据此公司将员工敬业度分为理性敬业度和感性敬业度两个维度,即建立在工作给自己带来利益前提下的敬业行为和建立在对工作认同和情感归属上的敬业行为。
第二,在学术研究中,国内外学者中, Kahn将敬业度定义为:企业员工自发地控制自己,以将自己与工作角色结合在一起,也就是将自己置于一种“角色内状态”,并且他还将敬业度分为三个维度:行为敬业度、认知敬业度和情感敬业度;Maslach等学者则从工作倦怠的对立角度出发将敬业度定义为对工作积极的一面,他认为敬业度和工作倦怠分别为一个三维连续体的两极,敬业度的精力、投入和职业效能感三个维度分别对应着工作倦怠的情绪枯竭、犬儒主义和效能感低落三个维度。相对于工作倦怠程度高的员工所具有的无能感和耗竭感,敬业度高的员工通常精力充沛,不同于在工作和组织中处于疏离状态的员工,他们在工作中具有较高的自我效能感,能在组织中建立良好的人际关系,并能有效进入工作状态; Schaufeli等人与Maslach有相同的观点,认为敬业度是工作倦怠的对立面,而他们认为敬业度包含活力敬业度、奉献敬业度和投入敬业度三个维度。
综上,本文所使用的敬业度概念为:企业中员工在工作角色中自我表达和自我投入的程度,以及员工在行为、认知和情感三个维度上对工作、组织的认同程度。
二、国有石油企业员工敬业度在人口统计学变量上的差异分析
(一)不同性别的国有石油企业员工敬业度的差异分析
对不同性别的国有石油企业员工的工作敬业度和组织敬业度两个维度以及整体员工敬业度的得分平均数进行F检验和t检验,所得结果如表1所示。
(二)不同婚姻状况的国有石油企业员工敬I度的差异分析
对不同婚姻状况的国有石油企业员工的工作敬业度和组织敬业度两个维度以及整体员工敬业度的得分平均数进行F检验和t检验,所得结果如表2所示。
(三)不同年龄的国有石油企业员工敬业度的差异分析
本文将国有石油企业的员工划分为四个年龄段,采用单因素方差分析方法分析不同年龄段的国有石油企业员工在敬业度各子纬度上的得分。如表3所示。
(四)不同学历的国有石油企业员工敬业度的差异分析
采用单因素方差分析方法分析不同年龄段的国有石油企业员工在敬业度各子纬度上的得分,如表4所示。
(五)不同工龄的国有石油企业员工敬业度的差异分析
不同工龄的国有石油企业员工敬业度的差异分析(如表5)。
三、国有石油企业员工敬业度在人口统计学变量上的差异
在以上人口统计学变量中,只有员工婚姻状况对国有石油企业员工的敬业度有较大影响,而石油企业员工敬业度在不同性别、不同年龄段、不同学历、不同工龄上均无显著差异。这与已有的研究结论有相同之处,但并不完全一致,其原因是受研究对象,国有石油企业这个群体的特殊性的影响。
不同婚姻状况的国有石油企业员工的工作敬业度无明显差异,但在组织敬业度这一维度上以及整体员工敬业度上的差异却很显著;石油企业的已婚员工不论是工作敬业度、组织敬业度还是整体敬业度都高于未婚员工,究其原因,已婚员工其家庭生活相对稳定,亲戚朋友等人际圈子范围也相对固定,对家庭承担责任也更大,他们对于工作稳定性的要求更高,同时已婚员工较未婚员工年龄大,各方面相对成熟,更有自己明确的目标和认识,工作积累和经验都相对较好,对企业更有归属和认同感。
(李季单位为兰州工业学院经济管理学院;高海燕单位为中石油西北化工销售公司)
[作者简介:李季(1983―),男,辽宁开原人,博士,工程师,研究方向:企业管理及人力资源管理。]
参考文献
[1] Heaney C A,Israel B A,House J S . Chronic job insecurity among automobile workers:effectson job satisfaction and health[J]. Social Scienee & Medicine,1994.
[2] Davy J A,Kinicki A J,Scheck C L . A test of job seccurity,s direct and mediated effects on withdrawal cognitions[J]. Journal of organizational Behavior,1997.
1 个案与群体
〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。
〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。
〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。
〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。
这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。
如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。
2 自然属性与社会属性
〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。
〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。
这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生性行为)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。
3 定量与定性
〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。
4 模糊和精确
〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。
〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。
乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。
5 原因与结果
〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。
在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。
笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。
社会科学实证研究中的统计分析方法应用
郑真真 (北京大学人口研究所 副教授)
统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。
1 描述性统计
描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。
均值的局限 普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。
不同群体的可比性 在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。
绝对数的使用 由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。
小样本的代表性 在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。
2 双变量统计分析
在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。
卡方检验的局限 在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。
统计意义上的显著与差别的实际意义 在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。
虚假相关问题 双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。
3 多变量分析
回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。
分析框架的重要性 在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。
在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。
分析方法应用的条件 每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。
多变量分析结果的展示和解释 多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。
在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不具有预期统计显著性的失望,因此绕开不显著的变量,甚至对数据或模型进行各种调整以获得显著结果。其实,统计分析结果不显著往往也是有实际意义的。例如在分析我国高龄老人的地区分布时发现,高龄老人比例与当地医疗卫生指标没有显著关系,这说明我国医疗系统还没有具备延长老人寿命的功能;另一方面也说明这些高龄老人的存活不是主要靠医药维持的。所以,在解释分析结果时,只要是在分析框架中涉及并参与分析的变量,无论作用显著与否,都应当给予充分的讨论;对于那些由于知识或信息的限制难以下结论的结果,可以作为问题提出,以便进行更有针对性的进一步研究。
此外,任何方法都有其局限性,分析结果也不会十分完美。因此在讨论结果的同时,也应当就此向读者说明。例如当一个多元线性回归分析的确定系数较低时,需要指出该模型有限的解释能力,探讨可能存在但没有纳入分析的更重要的影响因素。
不必求最新、只求最合适 有些研究生在撰写学位论文时,常常因为自己没有应用最新的统计分析方法而感到忐忑不安;在评论某项研究的创新性时,有时也出现把学术创新和应用新方法混为一谈的现象,例如认为应用描述性统计方法的研究水平低于应用解释性或预测性方法的研究。新方法是层出不穷的。但是,出现了新方法并不意味着传统方法就不再适用,而是各有千秋。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。有时越是复杂的方法,假设条件也会相应较多,应用的局限性更大。因此,盲目追求方法的新颖并不是高水平研究的保证,真正需要注意的是使用最合适的方法。而对所用方法的真正了解,是正确运用统计分析方法的前提。
总和生育率的内在缺陷及其改进
郭志刚 (北京大学社会学系、北京大学中国社会与发展研究中心 教授)
1 总和生育率的应用目的及评价原则
年龄别生育率及其概括性指标总和生育率(TFR)是生育研究中最常用的指标体系。但是现在它们面临很多实际问题。本文不讨论出生漏报导致统计失实的问题,因为其性质并不在于统计方法,而是一个社会问题。本文只局限于这一指标体系内在的有效性问题的方法论讨论。一个指标是否有效应该以研究目的为标准来判断,因此这一讨论将结合当前实际工作的需要来进行。
统计指标有两种功能:一种是对调查对象本身特征的直接描述,另一种则用于推断估计。很多情况下,统计指标同时承担着这两种功能,比如样本统计量反映了样本对象的特征,同时又服务于推断估计总体参数。既然是一种估计,自然会有推断偏差或误差。评价不同估计的优劣是看谁的偏差或误差更小。
那么通常我们应用TFR到底要反映什么?一是为了在控制育龄妇女结构的条件下概括时期生育水平,二是作为终身生育水平的估计。(注:在这一方面,总和生育率与人口的粗再生产率和净再生产率的性质类似,后两个指标中只不过又控制了下一代的性别和死亡因素的影响而已。)两种性质都反映在各年龄组生育率的合计上。通常,不同基数的相对数指标不可以直接相加(注:如男性平均年龄加女性平均年龄没有意义。)。为什么年龄别生育率可加,是因为设置了假设队列的概念。TFR主要不是平均的概念(注:早期将其翻译为平均生育率的确是错误的。至于年龄别生育率对妇女其他差别所做的均质假设,其实存在于所有汇总指标之中,而不论其分组有多细,但是都不会因此而称为“平均××率”。),而是总和的概念(即假设队列经过所有年龄后生育总和)。因此,TFR一身兼两任,其内容为时期生育率总和,其形式为队列终身生育水平。从前一种意义上使用时描述了该时期生育水平,从后一种意义上使用时则是假设队列终身生育水平的估计(注:但这种估计从原理上不同于一般统计量从样本推断总体的情况,但有关评价原则却是类似的。)。其值实际上涉及了35个实际队列,并且只有在生育水平及年龄模式长期不变的苛刻条件下,它才真正与实际队列终身生育水平相吻合(但是队列仍是泛指的)。尽管这一假设队列与真实队列并不能很好对应,但起码可以及时提供一种队列终身生育的估计来满足实际需要。
2 缺陷一:总和生育率对终身生育水平的背离
表现A:最早对TFR的批评是由于其剧烈的时期波动。一逢时期突发事件(如中国1958~1961),实际生育量发生了变化,TFR就会大幅度下降。应该说,批评并不是指向其描述时期生育水平的功能,而是指向其作为终身生育估计的功能。因为,这时TFR的下降只是由于时期特殊原因影响,并不意味着终身生育水平真的下降。实际上,时期效应一过,TFR马上便会出现反弹(即常说的生育补偿),然而反弹的水平也并不能标志终身生育水平真的那样高。总之,TFR短期内剧烈波动时,将其作为终身生育率估计来理解很成问题。其中最引人注目的是,反弹年份的分孩次TFR(i)会超过1,特别是一孩TFR(1)会大大超过1(注:1982年全国1‰人口生育率抽样调查数据显示(姚新武,1995),1963年TFR=7.463,其中各孩次TFR都大于1,最高的是TFR(1)=1.568。作为队列估计,即是说每人生育一个半一孩,显得很荒唐。)。人口统计学对此采取的对策是,避免采用这些年份的TFR来作为终身生育水平的估计,或者采用若干年份的TFR的平均值来作为终身生育水平的估计,希望将欠年与盈年的误差相抵消。
表现B:然而,有时即使社会中似乎并没有什么特殊事件,TFR也会背离终身生育水平。但是,往往只是在TFR提高时才会受到一定关注(注:如1983年左右中国人口学界对TFR的讨论。)。理论分析可以证明,这种背离既可以是正的,也可以是负的。特别是在负偏离的情况下,往往可能持续较长的时间。并且,这种负背离实际上正是当前所面临的实际情况,因此特别需要重视。
这种背离产生的原因是婚育年龄的变化,或者说是队列的年龄别生育模式的改变。而负偏离则对应着婚育年龄的推迟。与时期突发事件对婚育年龄的推迟的暴发性影响不同,生育模式的自身转变具有较长时期的持续性、变化上的渐进性、现象的隐蔽性等特征,并且它并不一定伴随生育补偿现象。甚至有时人们根本没有意识到这种偏离的存在。
人口统计学早就揭示出,晚婚晚育可以延缓人口增长,但这是从长期人口发展的角度来证明的。而晚婚晚育对年份TFR有什么影响,则很少有人涉及。从理论上说,取得同样的终身生育总量,可以有不同的进程表。即假定各队列的终身生育数量不变,从某一时期开始各队列的生育年龄开始推延,这一过程可以持续较长一段时期,直至最终稳定在一个新的生育模式上。我对此做过一些模拟计算,在这种情况下,生育模式转变时期中每年的TFR一定会低于事先所设的队列终身生育量,而这段时期两端及以外各年份的TFR则可以等于事先所设的终身生育水平。这表明,即使将整个转变过程或更长时期中各年的TFR都加在一起平均,得到的还是—个偏低的终身生育估计。
更普遍的情况是生育模式的变化与终身生育量的变化同时发生,这时TFR下降同时受这两个因素变化的影响,由生育模式变化导致TFR对终身生育水平的偏离便较难分析。
实际问题:实际工作需要不允许我们等很多年再提供真实队列终身生育统计,而现在只有TFR一种估计方法,并且我们知道TFR还会经常偏离队列终身生育水平,因此急需寻找一种更好的估计来取代它。否则尽管当前TFR的值虽然很低,即使不论统计失真问题,我们也不知道这是否仅仅反映TFR发生了负偏离,那么我们凭什么肯定生育率已经下降到更替水平了。我们又怎么能知道,当生育年龄推迟告一段落时,TFR向终身生育水平回归时会回升多少。要知道更替水平的真正概念是实际上某队列与其终身生育后代数量的比(注:从这个意义上,净人口再生产率等于1仅是一种时期估计的标准,并且也服从上述偏离,并不是真正的更替水平。)。
有关改进:Bongaarts和Feeney(1998)提出了去进度效应总和生育率(TFR')。该方法旨在提供一种根据时期数据对终身生育水平的较好估计(注:Bongaarts和Feeney(1998)警告说,这一方法不适用于那种特殊时期效应(即重大灾害等)的年份。)。郭志刚(2001)对此进行了介绍,并用中国多年生育数据对该方法进行了检测和评价,结果是TFR'作为终身生育水平的估计的确大大优于TFR(注:郭震威(2000)认为TFR'不伦不类,既不是时期生育指标,又不是终身生育指标,是个尴尬的指标。我认为,它只是应实际需要而产生的另一种根据时期生育信息对终身生育水平的新估计而已,其实这没有什么可尴尬的。统计中凡是不能直接测量的时候,都得采用估计来代替。真正有意义的问题是,它是否比传统TFR更接近于终身生育水平。)。
该方法基本原理可以这样来理解:现实中生育模式转变时,除了导致该年生育数量有所变化以外,还会有其他共生现象,如分孩次的平均生育年龄(MACi)也会变化(注:Bongaarts和Feeney(1998)强调要用分孩次的平均生育年龄,而不能用总的平均生育年龄,因为后者会抹煞实际变化。)。MACi实际上是生育模式转变的测量值,可以在理论上建立其变化量与时期生育变化量之间的函数关系。TFR'便是在常规分孩次TFR(i)的基础上利用MACi的变化信息来调整,得到去进度效应的分孩次TFR'(i),然后再汇总为TFR'。经过调整,TFR'可以在相当程度上修正TFR距终身生育水平的偏离,因此TFR'更接近于队列终身生育水平(这里队列仍是泛指的)。也就是说,我们可以用TFR'来替代TFR原来所承担的终身生育估计的功能,而TFR还可以继续承担描述时期生育水平的功能,TFR'与TFR之差可以作为生育推延对当前生育水平影响的估计(注:我曾当面请教Bongarts,问TFR'方法是否可应用于预测模拟,他毫不犹豫地回答说不能。)。
我认为,尽管TFR'指标还有继续改进的余地(注:比如某一年的MACi的计算还要前一年和后一年的数据,因而多少丧失了一点及时性。然而,我自己曾尝试过另外的计算,比如只用前一年和当年两年的信息,调整的结果也并不差。),但显然Bongarrts和Feeney为解决这一估计问题指出了极富于科学价值的方法论途径。并且,这一新指标不仅可以用于监测队列终身生育水平,也可以用于分析以往的生育数据(郭志刚,2000),帮助我们更好地理解我国的生育转变史和计划生育史。
3 缺陷二:总和生育率不能控制育龄妇女的孩次结构
对某些重要因素进行统计控制可以为不同年份或不同地区的比较提供更大的可比性。尽管TFR控制了育龄妇女的年龄结构,但是它并没有控制育龄妇女的孩次结构。然而,当前许多人口模拟研究都不能再忽略育龄妇女的孩次结构问题,否则会有损其研究结果的有效性(注:比如,与调整生育政策相联系的人口模拟如果忽略现有一孩的妇女人数,便无法计算由于多年积累在一孩的这批妇女在政策调整时将产生的特殊生育效应。另外,有关生育政策后果方面的研究(如四二一家庭结构)也有类似问题。)。
问题的表现:实际上生育过程是严格的递进事件,也就是说,只有未生育者才能生育一孩,只有生育过一孩且尚未生育二孩者才能生育二孩。而常规生育率则是以年龄别所有妇女总数作为基数,因而没有容纳育龄妇女的曾生孩次信息,也就不能控制曾生孩次这种结构影响。因此,比较孩次结构差别较大的年份或地区之间的年龄别生育率(或TFR),便不能区分其差异到底是出于生育水平不同还是出于孩次结构不同。当其用于人口预测模拟时,如果假定两地区育龄妇女年龄结构相同,同样的系列生育率的假设会导致孩次结构十分不同的地区(代表着不同生育政策类型)将会有相同的出生人数,显然这严重地偏离实际情况。因此,面对当前的许多研究需要,基于年龄别生育率的TFR方法无论是用于比较分析上还是用于预测模拟,都会影响其结果的有效性(注:至于分孩次的年龄别生育率,只是对分子(即出生)划分了孩次类别,但是并没有对育龄妇女本身划分孩次结构。其基数没有控制孩次结构,因而从本质上说也没有控制孩次结构。)。
替代方法的产生:实际上,计划生育采取了分类指导原则后,便产生了多种生育政策类型,其显著特征便是孩次控制上的不同。在不同地区实施不同政策时,育龄妇女的孩次结构便取得了越来越重要的意义。从这一角度出发,导致Feeney(1985)和马瀛通等(1986)分别以不同思路创建了孩次递进生育指标体系。
他们的共同点在于采用孩次递进比作为生育测量的基础来构建指标体系。如前所述,每年的出生可以划分孩次。如果再将某一群体生育指标的基数由对应口径的年中妇女总数换成年初对应(即前一)孩次妇女时,便称为孩次递进比(注:实际上可理解为一种概率,如本年年初某年龄组(或孩次间隔组)只有一孩的妇女中在本年生育二孩的比例。)。然后,还可以将孩次递进比换算成递进总和生育率。
Feeney的模型突出地考虑了孩次递进间隔因素,不考虑年龄结构,因而常被称为间隔递进模型。而马瀛通等的模型则突出地考虑了年龄递进因素,因此常被称为年龄递进模型。
这两种方法不仅可用于在控制妇女孩次结构条件下的比较分析,也可以用于预测模拟(注:应该指出,其实中国人民大学人口研究所的老一辈人口学家早在1970年代所自行创建的标准(或可变)生育率预测法中也已经包含了控制孩次结构影响的思想(刘铮、邬沧萍、查瑞传,1981)。)。递进方法不仅可以在预测中控制孩次结构,而且应用于模拟预测时实际上比常规生育率方法更方便(注:这里的方便指,它只需要每年期初妇女的孩次别人口数便可以直接乘以递进比便得到对应的生育量,而不需要再计算其中妇女人数。)。由于递进比的概率性质,还能根本避免孩次别总和生育率出现的那种超过1的现象(注:尽管如此,Bongaats和Feeney(1998)认为这一类应用生命表方法的生育指标仍然没有真正控制生育进程变化的影响。)。
主持人评论
本期论坛邀请的三位专家都有多年从事人口统计和数据分析的经验,对人口学研究方法有很深的造诣。王谦副司长通过从多年工作中积累的大量实例,分析了在人口和计划生育工作中经常发生的统计方法和统计数据被误用的情况;郑真真副教授则对统计分析中比较常见的问题进行丁独到的分析和总结;郭志刚教授对总和生育率指标进行了深入全面的剖析,分析了其内在缺陷和改进方法。
王谦副司长通过10个典型实例说明在人口和计划生育实际工作中,统计方法和统计数据在五个方面经常被误用。这五个方面的问题有些属于统计分析中容易犯的错误,带有普遍性,如,错误地解释变量之间的因果关系,在统计分析中忽视定性分析与定量分析的关系,结论不是由统计分析中得出,使得定量分析只是定性结果的一种点缀。有些问题则由于人口与计划生育领域的特点而显得更为严重,如他指出的,大部分人口和计划生育统计指标在村一级或县、乡不适用是因为总体规模不够。统计所研究的是总体的数量关系而不是个别的数量关系,所以统计指标在一定的总体规模下才有意义,这是统计学中的基本概念,但是在实际中却经常被误用。我们经常看到的错误都是统计学上的一些“基本概念错误”,而不是“高深错误”。统计学上的概念和方法可能很简单,也容易理解,但是要在实际工作中正确地、恰如其分地运用并不容易,需要结合研究对象的特点。
郑真真副教授从另一个角度对描述性统计、双变量统计和多变量统计分析中经常被忽视的问题进行了讨论和分析。她不仅指出了问题的所在,而且告诉大家应该如何做,她所讨论的内容是大部分统计教科书上所没有的,具有很大的实用性,对于正确地应用统计分析方法具有很大的指导意义,具体的问题这里就没有必要再评述了。她的分析源于多年教学和科研工作的总结和升华,很多观点具有独到性,如对描述性统计的重视,多变量分析结果的展示和解释,不必求最新、只求最合适的方法。
王谦和郑真真从不同角度对统计分析和统计数据应用中出现的问题进行了分析,郭志刚教授则对人口统计中的一个重要指标-总和生育率进行了深入分析。他指出指标是否有效应该以研究目的为标准来判断,他从总和生育率对终身生育水平的背离和不能控制育龄妇女的孩次结构这两大缺陷出发,对问题的表现形式、实际工作中的需求以及改进方法进行了分析和介绍,其中渗透了他自己近年来对这一问题的研究结果和体会。我看完他的文章觉得获益匪浅,如90年代以来中国的人口调查所得到的总和生育率指标都非常低,这里面有统计漏报的问题,也有总和生育率指标自身的缺陷所带来的问题,在婚育年龄推迟时,总和生育率会低估终身生育水平。在以往的人口学研究中,对方法论的讨论和重视是不够的。研究方法的创新源于实践的需求,面对21世纪更加错综复杂的人口问题,我们需要研究方法的不断创新与发展,这是目前我国人口科学发展面临的一个巨大挑战。
三位专家的分析和讨论有很大的实用性,值得从事人口和计划生育的实际工作者和学者认真学习,但是毕竟他们不可能把所有的问题都归纳概括全面,这也不是本期论坛的初衷。我们希望通过本期论坛起到抛砖引玉的作用,引起同行对这一问题的重视。中国规范的人口学研究毕竟只有20多年的历史,有问题是可以理解的,统计分析方法的误用和研究的不规范在其他学科领域也同样存在,甚至有可能更严重,但是我们不能漠视这种状况继续下去,问题的解决需要全体同仁的重视和努力。我觉得目前至少可以加强以下几个方面的工作:
(1)提倡学术争鸣,鼓励同行之间开展批评,这将有利于学科的发展与规范;
(2)编审人员把好质量关,使在杂志上发表的文章符合学术规范,杂志上文章的示范作用往往比教科书要大得多;
(3)加强统计分析方法的教学工作。强调方法的适用性和在实际应用中应该注意的问题。
参考文献
1 刘铮,邬沧萍,查瑞传.人口统计学.中国人民大学出版社,1981
2 马瀛通,王彦祖,杨叔章.递进人口发展模型的提出与总和递进指标体系的确立.人口与经济,1986;1,2
3 姚新武.中国生育数据集.中国人口出版社,1995
4 郭震威.对“去进度效应总和生育率(TFR')方法”的一点看法.人口研究,2000;1
5 郭志刚.从近年来的时期生育行为看终身生育水平.人口研究,2001;1
6 郭志刚.时期生育水平指标的回顾与分析.人口与经济,2000;1
7 Feeney.1985.Parity progression projection.International Union for the Scientific
〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。
〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。
〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。
〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。
这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。
如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。
2自然属性与社会属性
〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。
〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。
这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。
3定量与定性
〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。
4模糊和精确
〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。
〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。
乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。
5原因与结果
〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。
在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。
笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。
社会科学实证研究中的统计分析方法应用
郑真真(北京大学人口研究所副教授)
统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。
1描述性统计
描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。
均值的局限普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。
不同群体的可比性在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。
绝对数的使用由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。
小样本的代表性在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。
2双变量统计分析
在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。
卡方检验的局限在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。
统计意义上的显著与差别的实际意义在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。
虚假相关问题双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。
3多变量分析
回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。
分析框架的重要性在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。
在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。
分析方法应用的条件每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。
多变量分析结果的展示和解释多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。
在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不具有预期统计显著性的失望,因此绕开不显著的变量,甚至对数据或模型进行各种调整以获得显著结果。其实,统计分析结果不显著往往也是有实际意义的。例如在分析我国高龄老人的地区分布时发现,高龄老人比例与当地医疗卫生指标没有显著关系,这说明我国医疗系统还没有具备延长老人寿命的功能;另一方面也说明这些高龄老人的存活不是主要靠医药维持的。所以,在解释分析结果时,只要是在分析框架中涉及并参与分析的变量,无论作用显著与否,都应当给予充分的讨论;对于那些由于知识或信息的限制难以下结论的结果,可以作为问题提出,以便进行更有针对性的进一步研究。
此外,任何方法都有其局限性,分析结果也不会十分完美。因此在讨论结果的同时,也应当就此向读者说明。例如当一个多元线性回归分析的确定系数较低时,需要指出该模型有限的解释能力,探讨可能存在但没有纳入分析的更重要的影响因素。
不必求最新、只求最合适有些研究生在撰写学位论文时,常常因为自己没有应用最新的统计分析方法而感到忐忑不安;在评论某项研究的创新性时,有时也出现把学术创新和应用新方法混为一谈的现象,例如认为应用描述性统计方法的研究水平低于应用解释性或预测性方法的研究。新方法是层出不穷的。但是,出现了新方法并不意味着传统方法就不再适用,而是各有千秋。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。有时越是复杂的方法,假设条件也会相应较多,应用的局限性更大。因此,盲目追求方法的新颖并不是高水平研究的保证,真正需要注意的是使用最合适的方法。而对所用方法的真正了解,是正确运用统计分析方法的前提。
总和生育率的内在缺陷及其改进
郭志刚(北京大学社会学系、北京大学中国社会与发展研究中心教授)
1总和生育率的应用目的及评价原则
年龄别生育率及其概括性指标总和生育率(TFR)是生育研究中最常用的指标体系。但是现在它们面临很多实际问题。本文不讨论出生漏报导致统计失实的问题,因为其性质并不在于统计方法,而是一个社会问题。本文只局限于这一指标体系内在的有效性问题的方法论讨论。一个指标是否有效应该以研究目的为标准来判断,因此这一讨论将结合当前实际工作的需要来进行。
统计指标有两种功能:一种是对调查对象本身特征的直接描述,另一种则用于推断估计。很多情况下,统计指标同时承担着这两种功能,比如样本统计量反映了样本对象的特征,同时又服务于推断估计总体参数。既然是一种估计,自然会有推断偏差或误差。评价不同估计的优劣是看谁的偏差或误差更小。
那么通常我们应用TFR到底要反映什么?一是为了在控制育龄妇女结构的条件下概括时期生育水平,二是作为终身生育水平的估计。(注:在这一方面,总和生育率与人口的粗再生产率和净再生产率的性质类似,后两个指标中只不过又控制了下一代的性别和死亡因素的影响而已。)两种性质都反映在各年龄组生育率的合计上。通常,不同基数的相对数指标不可以直接相加(注:如男性平均年龄加女性平均年龄没有意义。)。为什么年龄别生育率可加,是因为设置了假设队列的概念。TFR主要不是平均的概念(注:早期将其翻译为平均生育率的确是错误的。至于年龄别生育率对妇女其他差别所做的均质假设,其实存在于所有汇总指标之中,而不论其分组有多细,但是都不会因此而称为“平均××率”。),而是总和的概念(即假设队列经过所有年龄后生育总和)。因此,TFR一身兼两任,其内容为时期生育率总和,其形式为队列终身生育水平。从前一种意义上使用时描述了该时期生育水平,从后一种意义上使用时则是假设队列终身生育水平的估计(注:但这种估计从原理上不同于一般统计量从样本推断总体的情况,但有关评价原则却是类似的。)。其值实际上涉及了35个实际队列,并且只有在生育水平及年龄模式长期不变的苛刻条件下,它才真正与实际队列终身生育水平相吻合(但是队列仍是泛指的)。尽管这一假设队列与真实队列并不能很好对应,但起码可以及时提供一种队列终身生育的估计来满足实际需要。
2缺陷一:总和生育率对终身生育水平的背离
表现A:最早对TFR的批评是由于其剧烈的时期波动。一逢时期突发事件(如中国1958~1961),实际生育量发生了变化,TFR就会大幅度下降。应该说,批评并不是指向其描述时期生育水平的功能,而是指向其作为终身生育估计的功能。因为,这时TFR的下降只是由于时期特殊原因影响,并不意味着终身生育水平真的下降。实际上,时期效应一过,TFR马上便会出现反弹(即常说的生育补偿),然而反弹的水平也并不能标志终身生育水平真的那样高。总之,TFR短期内剧烈波动时,将其作为终身生育率估计来理解很成问题。其中最引人注目的是,反弹年份的分孩次TFR(i)会超过1,特别是一孩TFR(1)会大大超过1(注:1982年全国1‰人口生育率抽样调查数据显示(姚新武,1995),1963年TFR=7.463,其中各孩次TFR都大于1,最高的是TFR(1)=1.568。作为队列估计,即是说每人生育一个半一孩,显得很荒唐。)。人口统计学对此采取的对策是,避免采用这些年份的TFR来作为终身生育水平的估计,或者采用若干年份的TFR的平均值来作为终身生育水平的估计,希望将欠年与盈年的误差相抵消。
表现B:然而,有时即使社会中似乎并没有什么特殊事件,TFR也会背离终身生育水平。但是,往往只是在TFR提高时才会受到一定关注(注:如1983年左右中国人口学界对TFR的讨论。)。理论分析可以证明,这种背离既可以是正的,也可以是负的。特别是在负偏离的情况下,往往可能持续较长的时间。并且,这种负背离实际上正是当前所面临的实际情况,因此特别需要重视。
这种背离产生的原因是婚育年龄的变化,或者说是队列的年龄别生育模式的改变。而负偏离则对应着婚育年龄的推迟。与时期突发事件对婚育年龄的推迟的暴发性影响不同,生育模式的自身转变具有较长时期的持续性、变化上的渐进性、现象的隐蔽性等特征,并且它并不一定伴随生育补偿现象。甚至有时人们根本没有意识到这种偏离的存在。
人口统计学早就揭示出,晚婚晚育可以延缓人口增长,但这是从长期人口发展的角度来证明的。而晚婚晚育对年份TFR有什么影响,则很少有人涉及。从理论上说,取得同样的终身生育总量,可以有不同的进程表。即假定各队列的终身生育数量不变,从某一时期开始各队列的生育年龄开始推延,这一过程可以持续较长一段时期,直至最终稳定在一个新的生育模式上。我对此做过一些模拟计算,在这种情况下,生育模式转变时期中每年的TFR一定会低于事先所设的队列终身生育量,而这段时期两端及以外各年份的TFR则可以等于事先所设的终身生育水平。这表明,即使将整个转变过程或更长时期中各年的TFR都加在一起平均,得到的还是—个偏低的终身生育估计。
更普遍的情况是生育模式的变化与终身生育量的变化同时发生,这时TFR下降同时受这两个因素变化的影响,由生育模式变化导致TFR对终身生育水平的偏离便较难分析。
实际问题:实际工作需要不允许我们等很多年再提供真实队列终身生育统计,而现在只有TFR一种估计方法,并且我们知道TFR还会经常偏离队列终身生育水平,因此急需寻找一种更好的估计来取代它。否则尽管当前TFR的值虽然很低,即使不论统计失真问题,我们也不知道这是否仅仅反映TFR发生了负偏离,那么我们凭什么肯定生育率已经下降到更替水平了。我们又怎么能知道,当生育年龄推迟告一段落时,TFR向终身生育水平回归时会回升多少。要知道更替水平的真正概念是实际上某队列与其终身生育后代数量的比(注:从这个意义上,净人口再生产率等于1仅是一种时期估计的标准,并且也服从上述偏离,并不是真正的更替水平。)。
有关改进:Bongaarts和Feeney(1998)提出了去进度效应总和生育率(TFR'''')。该方法旨在提供一种根据时期数据对终身生育水平的较好估计(注:Bongaarts和Feeney(1998)警告说,这一方法不适用于那种特殊时期效应(即重大灾害等)的年份。)。郭志刚(2001)对此进行了介绍,并用中国多年生育数据对该方法进行了检测和评价,结果是TFR''''作为终身生育水平的估计的确大大优于TFR(注:郭震威(2000)认为TFR''''不伦不类,既不是时期生育指标,又不是终身生育指标,是个尴尬的指标。我认为,它只是应实际需要而产生的另一种根据时期生育信息对终身生育水平的新估计而已,其实这没有什么可尴尬的。统计中凡是不能直接测量的时候,都得采用估计来代替。真正有意义的问题是,它是否比传统TFR更接近于终身生育水平。)。
该方法基本原理可以这样来理解:现实中生育模式转变时,除了导致该年生育数量有所变化以外,还会有其他共生现象,如分孩次的平均生育年龄(MACi)也会变化(注:Bongaarts和Feeney(1998)强调要用分孩次的平均生育年龄,而不能用总的平均生育年龄,因为后者会抹煞实际变化。)。MACi实际上是生育模式转变的测量值,可以在理论上建立其变化量与时期生育变化量之间的函数关系。TFR''''便是在常规分孩次TFR(i)的基础上利用MACi的变化信息来调整,得到去进度效应的分孩次TFR''''(i),然后再汇总为TFR''''。经过调整,TFR''''可以在相当程度上修正TFR距终身生育水平的偏离,因此TFR''''更接近于队列终身生育水平(这里队列仍是泛指的)。也就是说,我们可以用TFR''''来替代TFR原来所承担的终身生育估计的功能,而TFR还可以继续承担描述时期生育水平的功能,TFR''''与TFR之差可以作为生育推延对当前生育水平影响的估计(注:我曾当面请教Bongarts,问TFR''''方法是否可应用于预测模拟,他毫不犹豫地回答说不能。)。
我认为,尽管TFR''''指标还有继续改进的余地(注:比如某一年的MACi的计算还要前一年和后一年的数据,因而多少丧失了一点及时性。然而,我自己曾尝试过另外的计算,比如只用前一年和当年两年的信息,调整的结果也并不差。),但显然Bongarrts和Feeney为解决这一估计问题指出了极富于科学价值的方法论途径。并且,这一新指标不仅可以用于监测队列终身生育水平,也可以用于分析以往的生育数据(郭志刚,2000),帮助我们更好地理解我国的生育转变史和计划生育史。
3缺陷二:总和生育率不能控制育龄妇女的孩次结构
对某些重要因素进行统计控制可以为不同年份或不同地区的比较提供更大的可比性。尽管TFR控制了育龄妇女的年龄结构,但是它并没有控制育龄妇女的孩次结构。然而,当前许多人口模拟研究都不能再忽略育龄妇女的孩次结构问题,否则会有损其研究结果的有效性(注:比如,与调整生育政策相联系的人口模拟如果忽略现有一孩的妇女人数,便无法计算由于多年积累在一孩的这批妇女在政策调整时将产生的特殊生育效应。另外,有关生育政策后果方面的研究(如四二一家庭结构)也有类似问题。)。
问题的表现:实际上生育过程是严格的递进事件,也就是说,只有未生育者才能生育一孩,只有生育过一孩且尚未生育二孩者才能生育二孩。而常规生育率则是以年龄别所有妇女总数作为基数,因而没有容纳育龄妇女的曾生孩次信息,也就不能控制曾生孩次这种结构影响。因此,比较孩次结构差别较大的年份或地区之间的年龄别生育率(或TFR),便不能区分其差异到底是出于生育水平不同还是出于孩次结构不同。当其用于人口预测模拟时,如果假定两地区育龄妇女年龄结构相同,同样的系列生育率的假设会导致孩次结构十分不同的地区(代表着不同生育政策类型)将会有相同的出生人数,显然这严重地偏离实际情况。因此,面对当前的许多研究需要,基于年龄别生育率的TFR方法无论是用于比较分析上还是用于预测模拟,都会影响其结果的有效性(注:至于分孩次的年龄别生育率,只是对分子(即出生)划分了孩次类别,但是并没有对育龄妇女本身划分孩次结构。其基数没有控制孩次结构,因而从本质上说也没有控制孩次结构。)。
替代方法的产生:实际上,计划生育采取了分类指导原则后,便产生了多种生育政策类型,其显著特征便是孩次控制上的不同。在不同地区实施不同政策时,育龄妇女的孩次结构便取得了越来越重要的意义。从这一角度出发,导致Feeney(1985)和马瀛通等(1986)分别以不同思路创建了孩次递进生育指标体系。
他们的共同点在于采用孩次递进比作为生育测量的基础来构建指标体系。如前所述,每年的出生可以划分孩次。如果再将某一群体生育指标的基数由对应口径的年中妇女总数换成年初对应(即前一)孩次妇女时,便称为孩次递进比(注:实际上可理解为一种概率,如本年年初某年龄组(或孩次间隔组)只有一孩的妇女中在本年生育二孩的比例。)。然后,还可以将孩次递进比换算成递进总和生育率。
Feeney的模型突出地考虑了孩次递进间隔因素,不考虑年龄结构,因而常被称为间隔递进模型。而马瀛通等的模型则突出地考虑了年龄递进因素,因此常被称为年龄递进模型。
这两种方法不仅可用于在控制妇女孩次结构条件下的比较分析,也可以用于预测模拟(注:应该指出,其实中国人民大学人口研究所的老一辈人口学家早在1970年代所自行创建的标准(或可变)生育率预测法中也已经包含了控制孩次结构影响的思想(刘铮、邬沧萍、查瑞传,1981)。)。递进方法不仅可以在预测中控制孩次结构,而且应用于模拟预测时实际上比常规生育率方法更方便(注:这里的方便指,它只需要每年期初妇女的孩次别人口数便可以直接乘以递进比便得到对应的生育量,而不需要再计算其中妇女人数。)。由于递进比的概率性质,还能根本避免孩次别总和生育率出现的那种超过1的现象(注:尽管如此,Bongaats和Feeney(1998)认为这一类应用生命表方法的生育指标仍然没有真正控制生育进程变化的影响。)。
主持人评论
本期论坛邀请的三位专家都有多年从事人口统计和数据分析的经验,对人口学研究方法有很深的造诣。王谦副司长通过从多年工作中积累的大量实例,分析了在人口和计划生育工作中经常发生的统计方法和统计数据被误用的情况;郑真真副教授则对统计分析中比较常见的问题进行丁独到的分析和总结;郭志刚教授对总和生育率指标进行了深入全面的剖析,分析了其内在缺陷和改进方法。
王谦副司长通过10个典型实例说明在人口和计划生育实际工作中,统计方法和统计数据在五个方面经常被误用。这五个方面的问题有些属于统计分析中容易犯的错误,带有普遍性,如,错误地解释变量之间的因果关系,在统计分析中忽视定性分析与定量分析的关系,结论不是由统计分析中得出,使得定量分析只是定性结果的一种点缀。有些问题则由于人口与计划生育领域的特点而显得更为严重,如他指出的,大部分人口和计划生育统计指标在村一级或县、乡不适用是因为总体规模不够。统计所研究的是总体的数量关系而不是个别的数量关系,所以统计指标在一定的总体规模下才有意义,这是统计学中的基本概念,但是在实际中却经常被误用。我们经常看到的错误都是统计学上的一些“基本概念错误”,而不是“高深错误”。统计学上的概念和方法可能很简单,也容易理解,但是要在实际工作中正确地、恰如其分地运用并不容易,需要结合研究对象的特点。
郑真真副教授从另一个角度对描述性统计、双变量统计和多变量统计分析中经常被忽视的问题进行了讨论和分析。她不仅指出了问题的所在,而且告诉大家应该如何做,她所讨论的内容是大部分统计教科书上所没有的,具有很大的实用性,对于正确地应用统计分析方法具有很大的指导意义,具体的问题这里就没有必要再评述了。她的分析源于多年教学和科研工作的总结和升华,很多观点具有独到性,如对描述性统计的重视,多变量分析结果的展示和解释,不必求最新、只求最合适的方法。
王谦和郑真真从不同角度对统计分析和统计数据应用中出现的问题进行了分析,郭志刚教授则对人口统计中的一个重要指标-总和生育率进行了深入分析。他指出指标是否有效应该以研究目的为标准来判断,他从总和生育率对终身生育水平的背离和不能控制育龄妇女的孩次结构这两大缺陷出发,对问题的表现形式、实际工作中的需求以及改进方法进行了分析和介绍,其中渗透了他自己近年来对这一问题的研究结果和体会。我看完他的文章觉得获益匪浅,如90年代以来中国的人口调查所得到的总和生育率指标都非常低,这里面有统计漏报的问题,也有总和生育率指标自身的缺陷所带来的问题,在婚育年龄推迟时,总和生育率会低估终身生育水平。在以往的人口学研究中,对方法论的讨论和重视是不够的。研究方法的创新源于实践的需求,面对21世纪更加错综复杂的人口问题,我们需要研究方法的不断创新与发展,这是目前我国人口科学发展面临的一个巨大挑战。
三位专家的分析和讨论有很大的实用性,值得从事人口和计划生育的实际工作者和学者认真学习,但是毕竟他们不可能把所有的问题都归纳概括全面,这也不是本期论坛的初衷。我们希望通过本期论坛起到抛砖引玉的作用,引起同行对这一问题的重视。中国规范的人口学研究毕竟只有20多年的历史,有问题是可以理解的,统计分析方法的误用和研究的不规范在其他学科领域也同样存在,甚至有可能更严重,但是我们不能漠视这种状况继续下去,问题的解决需要全体同仁的重视和努力。我觉得目前至少可以加强以下几个方面的工作:
[中图分类号]C924.24 [文献标识码]A [文章编号]2095-3283(2012)10-0117-03
作者简介:张翠芳,中共韶关市委党校讲师,研究方向:企业管理与绩效评价。
一、前言
人口既是生产者又是消费者,并通过这种两重属性与经济社会产生密切联系,现代系统理论将人类的生存发展作为一个大系统,而人口、经济、社会等都是其子系统,各子系统相互依存、相互渗透、相互影响。人口数量、人口素质、人口结构及人口分布等人口系统的情况及其变动对一个区域的经济、社会发展都具有重要影响作用,这种影响促进还是阻碍经济、社会发展难以凭空判断。
本文以广东省韶关市的人口数据为例,评价分析该地区的人口与经济、社会发展的协调性。韶关市位于广东省北部,属于经济欠发达地区,可将韶关市看作一个具有复杂功能的特殊系统,人口、经济、社会都可以看作这个系统中的子系统,以韶关市2000—2010年人口、经济、社会指标为例计算评价其人口、经济社会发展水平,并分析韶关市人口数量、结构、质量及空间分布是否与本市经济、社会发展水平之间具有协调性,全部数据来源于2011年韶关市统计年鉴。
二、评价人口、经济和社会发展的指标体系
全面、客观地评价人口、经济和社会的协调发展状况需要建立科学的指标体系,并应遵循以下四个基本原则:
1.科学性原则。即指标体系建立在科学的基础上,能够准确、全面、系统地反映人口、经济和社会发展的内涵。2.实用性原则。合理地选择指标,指标数据应易于统计,统计数据能确保权威性。3.完备性原则。指标体系作为一个有机整体,要能反映和测度被评价系统的主要特征。4.可行性原则。从实际情况出发,选择有代表性的综合指标和主要指标,那些在统计上无法量化、数据不易获得或相对不十分重要的指标可暂时不列入。
根据指标体系建立的相关原则,选取的指标如下:
三、人口、经济、社会各子系统综合发展水平的评价
采用主成分分析方法对各子系统综合发展水平进行评价,评价的原理及具体步骤如下:1.收集整理基本数据,采用Z—Score法对数据进行标准化,得到标准化后的数据;2.通过主成分分析法,求相关矩阵、特征根、特征向量和方差贡献率;3.求主成分及其得分;4.计算各主成分的得分与其特征值的乘积和得到各系统的综合发展水平值。本文利用SPSS软件处理上述数据,可自动将原始数据标准化、计算主成分得分。
下面以人口子系统为例,简述系统评价过程:
第一步,收集原始数据,2000—2010年人口子系统所选变量的值见表1,将表1中的6个变量数据粘贴至SPSS软件中,利用数据分析、降维、因子分析进行主成分分析。
第二步,分析软件输出的公因子方差见表2,表2给出了提取公因子后前后各变量的共同度,它刻画了全部公共因子对于变量Xi的总方差所作的贡献,说明了全部公共因子反映出原变量信息的百分比。例如,提取公共因子后,变量X1的共同度为0.980,即提取的公共因子对变量X1的方差做出了98.0%的贡献。从表2的数据可以看出,各个变量的共同度都比较大,说明变量空间转化为因子空间时,保留了比较多的信息,因此因子分子的效果是显著的。
人口、经济和社会子系统综合发展水平值见表5。由表5可以看出韶关市的人口、经济和社会子系统的综合发展水平趋势。2000—2010年人口子系统的综合发展水平值按时间顺序呈现先上升后下降的趋势,2005以前是上升趋势,以后呈下降趋势;经济和社会子系统的综合发展水平值按时间顺序呈现明显的上升趋势。2008年以后人口系统水平又变回负值,2010年水平与2000年相差不大,说明人口方面2005年以前是不断进步的,2005年之后水平呈现逐年退步趋势;经济、社会子系统的综合发展水平在2007年之后发展速度不断加快,这与韶关市经济、社会等各方面建设取得了与日俱增的进步密切相关。
四、人口、经济和社会子系统协调发展状况分析
韶关市人口、经济和社会子系统的综合发展水平值呈现出不同趋势,其中经济、社会子系统的变化趋势相同,而人口子系统综合发展水平值在2005年出现下降趋势,如果韶关市人口水平继续沿此下降趋势发展,人口问题可能会成为制约韶关市经济社会快速发展的不利因素。
导致人口系统综合发展水平值出现先升后降趋势的主要原因也反映了韶关市人口发展方面的一些问题:
首先,常住人口总量减少。尽管韶关市户籍人口每年都以低速增长,但常住人口数量自2005年292.26万人以后不断减少,2010年人口数量降至282.66万人,这主要是由韶关市劳动力流出数量大于流入所致。农村劳动力大量转移对于缓解资源压力、农民增加收入等方面发挥了重要作用,但过度转移对于当地的经济社会发展也会带来诸多负面影响,如本地农业生产劳动力减少、留守老人、留守儿童等一系列问题。高素质劳动力大量转移对本地经济发展也带来了不利影响,例如韶关市本地有多所技校,但是很多毕业生在就业时首选珠三角等经济发达地区,只有少部分毕业生留在本地工作,从而不利于韶关市工业发展。
其次,在校生人数呈下降趋势。尽管韶关市高等学校、中等职业学校、技工学校的在校人数在2000—2010年间呈增长趋势,但由于多年来人口只维持低水平增长率,小学在校生人数由2000年的338916万人降至2010年的207299万人,在校生总人数自2005年开始呈现下降趋势。这个问题也在一定程度上反映了韶关市当前人口结构的不合理现象。
第三,城镇化水平无显著提高。在人口指标体系中户籍人口中非农人口的比例自2005年之后一直下降,2000—2010年间韶关市城镇化水平变化不大,因此,韶关市在今后的发展过程中需要加快城镇化进程,以工业化带动城镇化,提高城镇化水平。
[参考文献]
[1]苏海红.青海省人口与经济社会协调发展问题研究[J].西北人口,2005(1).
[2]田成诗,盖美.关于人口与经济社会协调发展状态的研究[J].统计与信息论坛,2004(4).
一、港口货运统计分析预测的现状问题研究
客观来讲,当前港口企业的货运统计工作,面临着来自于多个层面的问题所惑,在根本上给港口货运统计工作的信息化发展带来了一定的阻滞,因此若想自根本就港口货运统计分析预测方法做出完善得构建形成有序的体系,那么必然需要自根本找寻其当前港口货运企业所存在的问题症结,以此达到与时俱进:
(一)港口人员素质能力及知识结构存在着缺陷不足
自根本来讲:目前港口方面的货运统计工作开展中,依然运用着几年前的业务系统,这类早期所开发出来的系统软件,在使用中大多是在DOS环境之下进行使用,存在着相应局限性,且在管理维护方面,仅仅依靠着少量老一代的管理开发者进行,应用体现着较大的风险性。另外在集团企业到下属公司层面的工作人员知识结构组成上,中年以上的软件开发者较多,技术人员整体呈现着知识结构老龄化现状,无论是数量和素质技能层面皆无法良性满足发展所需。
(二)统计软件缺乏科学的规划指导
目前港口集团与各个港口分公司的业务应用软件系统呈现相互独立的局面,不同的应用主体所使用的软件系统在系统的开发、系统的运行负责任、系统内部运行和对外开放的平台都是不同的,虽然同属于一个港口集团,但是各个分公司之间不同的系统导致统计数据无法有效的进行整合,并且这些软件系统具有高度的重复性和数据冗余等缺陷,最终造成统计标准混乱、统计报表难以衔接。
(三)统计设备落后
当前,纵观港口货运行业的发展,诸多港口企业的统计设备,均面临着老旧化的发展现状,诸多设备均是早些年间所购置的,随着现代科技的发展,这些设备的配置,已然达不到统计工作对速度和精确的要求,配置低并且故障频发。加之相关的硬件维修维护人员相对缺乏,大量的维修工作无法作出协调有序的安排,极易造成硬件维护人员的怠倦,因为在根本上,影响到了港口企业信息化工作的有效开展。
二、港口货运统计分析与预测方法论述研究
(一)港口货运统计分析论述
首先要在法制层面上对港口货运统计制定相关的规定,提高人们在货运统计活动中的守法意识,开展遵守客观事实的统计工作,具体的可以参考《港口法》制定符合我国国情的法律法规,如《港口统计实施细则》,进而根据细则建立具有法律效力的港口管理制度。其次,要研究适合我国港口企业发展特点的货运统计方法和统计体制,在保证科学精确客观统计的同时,建立科学抽样调查方法、降低统计工作量,提高货运统计工作效率。第三,要紧跟信息化的时代步伐,加快港口企业现代办公的进程,借鉴世界先进港口发展管理经验,努力将港口货运统计朝着信息化、自动化、电子化方向转变。最后要对港口货运统计中的核心部分统计信息功能进行变革,在信息化社会,统计信息除了过去传统的记录、存储数据的功能以外,还要为港口企业的发展提供有效的参考功能,因此要不断地开拓统计信息的内容性质和渠道来源,拓展统计信息的服务功能。
(二)港口货运统计数据预测方法研究
目前运用到港口货运统计数据分析的方法主要有三种:线性回归分析法、季节变动预测分析法以及指数平滑分析法。运用线性回归方法对货运统计数据进行数学处理,根据货运统计中货物性质或名称与货物数量之间的相关关系,建立线性回归方程,加以外推,为以后的货运统计进行预测分析。季节变动预测方法是根据季节的变化波动来进行预测的方法,这种方法是建立在时间序列的变化规律基础之上的,经营条件以及外部环境的季节性变化都会呈现出季节性变动,这种变动周期性重复出现,在预测时,要根据货运统计分析方法计算出货运变化的季节性指数,掌握季节性变动的规律,然后根据这个规律对未来某个季度或月度的货运统计进行预测。指数平滑是在港口统计预测中运用最多的一种方法,由于其预测期间限于中短期预测,因此预测结果具有较高的精确性,能够提供有力的参考。指数平滑法也是建立在时间序列分析基础之上的,通过计算货运统计指数的平滑值,运用一定时间序列预测模型对货运统计在一定时期的指数值进行预测。
三、结束语
市场经济体制发展和信息化时代的来临对港口货运统计工作提出新的挑战,过去简单传统的货运统计分析思想和制度已经不能满足现代港口企业的发展要求,因此必须对其进行有效的改进。另外港口货运统计的预测服务功能能够为港口企业未来一定时期内的发展提供决策支持,因此要采取合适科学的预测方法对港口货运统计进行预测,更好地发挥港口货运统计工作的功能。
参考文献:
[1]刘丽.国际贸易与现代物流发展互动关系实证分析[J].物流技术,2013;32
[2]交通部水运司港口处,规划司统计处.持续增长形势喜人一季度中国大陆主要港口生产综述[J].中国港口,2011;4
一、研究意义
当今的时代是知识经济的时代,知识决定竞争的实力,人口素质的高低将影响和决定一个国家或地区的综合竞争实力。为此我国一直实行着控制人口数量,提高人口素质的基本国策。随着经济的发展,杭州市在基本国策的指导下人口素质是否得到了相应的提高,人口素质和产业结构变动之间是否存在一定的关系。本文以杭州市人口普查的资料为例,研究杭州市人口素质的发展情况,并进一步研究人口素质与产业结构变动之间的关系。
二、人口素质定义及评价指标描述
中国对人口素质内涵基础理论问题研究较早的是北京大学的张纯元教授,在《人口理论教程》一书中,把人口素质定义为"人本身具有的认识、改造世界的条件和能力"。在不同的社会生产方式下,人口在质的规定性方面的发展水平,总是体现为人口总体认识和改造世界的条件和能力。人口具有多方面的质的规定性,一般认为包括身体素质、科学文化素质和思想素质三方面的内容"。
从人口素质的外延来看,主要是"三要素"和"二要素"之争。本文作者认为,从社会学的角度来看,"三要素"论比较全面, 思想道德素质有很大的作用,不能忽视;但是如果要从统计研究的角度看,人口素质与产业结构变动的关系研究适宜采用"二要素"论的思想对评价人口素质的各个指标变量进行定量的研究,因为思想道德素质的研究缺乏必要的量化指标,给分析研究带来一定的不便。所以, 在以下的研究中将采用"二要素"的思想。通过人口的身体素质和科学文化素质,同时加入劳动技能素质这个指标,来分析人口素质与产业结构发展的关系。
根据人口素质的构成,遵循科学性、实用性、完备性和可比性的原则,建立人口素质评价指标体系。在身体素质方面,选取以下三个指标:(1)人口平均预期命,(2)出生婴儿死亡率,(3)全市卫生技术人员数。在科学文化素质方面,选取三个指标:(1)高校在校生人数,(2)教育经费占GDP的比重,(3)教职员工数量。最后在劳动技能素质方面,选取了三个指标:(1)全市专业技术干部,(2)劳动生产率,(3)第三产业人口比重(第三产业人口在从业总人口中占的比重)。
三、实证检验与分析
(一)综合人口素质评价
本文研究采用因子分析的方法对杭州市人口素质进行评价。首先对评价人口身体素质的人口平均预期寿命、出生婴儿死亡率、全市卫生技术人员数,三个指标进行因子分析。分析结果显示,可以提取一个公因子,累计方差贡献率为97.167%,这表明,用提取的这一个公因子就可以解释原有三个指标的97%以上的信息,即信息的损失量非常低,足以用该指标表示人口的身体素质。
其次对评价人口科学文化素质的高校在校生人数、教育经费占GDP的比重、教职员工数量,三个指标进行因子分析。分析结果显示,可以提取一个公因子,累计方差贡献率为94.03%,这表明,用提取的这一个公因子就可以解释原有三个指标的94%以上的信息,即信息的损失量非常低,足以用该指标表示人口的科学文化素质。
再次对评价人口劳动技能素质的全市专业技术干部、劳动生产率、第三产业人口比重,三个指标进行因子分析。分析结果显示,可以提取一个公因子,累计方差贡献率为93.449%,这表明,用提取的这一个公因子就可以解释原有三个指标的93%以上的信息,即信息的损失量非常低,足以用该指标表示人口的劳动技能素质。
最后将身体素质、科学文化素质、劳动技能素质的三个公因子进行因子分析。分析的结果显示,可以提取一个公因子,其累计方差贡献率为97.949%,这表明因子分析结果能很好的得出综合人口素质的评价。人口素质综合评价结果显示杭州市人口的身体素质、科学文化素质、劳动技能素质都在不断的提高,从而综合素质也才不断的上升。
从数据调查中显示,杭州市的身体素质、科学文化素质、劳动技能素质、综合素质都从1986的负值,一直平稳的上升为正值,达到现在的2左右。其中在1986年到2000年科学文化素质的发展相对来说是最慢的,而劳动技能素质的提高是最明显的,这说明这段时间杭州市在培养劳动力技、职业教育方面做出来比较大的举措,而在2000年到2010年时劳动技能素质的发展比科学文化素质的发展稍弱,这说明我们现在的劳动素质发展有待进一步提高。身体素质在1986年到1999年的时间里是在平稳上升的,但在1999年到2001年身体素质出现了一个较大的波动,在2000年降到了0.19左右,可能的原因是在这段时间里杭州的经济快速发展,人民的压力不断增加,生态环境加剧恶化,医疗卫生条件却没有与经济同步。同时1999年到2000年出现的传染病比率上升,导致出生婴儿的死亡率提高,而全市的医疗卫生条件还停留在前期的状态没有相应的提高,因此身体素质在1999年急剧下降。浙江省新生儿疾病筛选查是从2000年开始启动,医疗卫生条件也在不断的改进,所以在2000年以后身体素质就快速的回升。最终使得综合素质也在这段时间里出现了起伏比较大的状态。
(二)产业结构变动研究
首先本文采用K值来描述产业结构的变化。K值指标是用来动态考察某一时期内一国三产业结构变动速度,其计算公式如下:
K= │qi,t┈qi,0│
其中qi,t表示第i产业在即期的GDP比率或者就业比率。qi,0表示第i产业在期的GDP比率或者就业比率。K值越大表示产业变动幅度越大, 反之则越小。本文收集了1978年-2010年以来各年的三产业的生产总值,采用K值的计算公式得到了产业结构变动的结果如下图:
图1 K值变动图
从图1中显示,杭州市产业结构的变动幅度总体上比较平稳。1979年到1982年间,三产业的结构几乎没有什么变化,从1982年开始产业结构可是不断的变化。其中变化最明显的时间段是1989年到1994年,以后呈缓慢上升状态。对呈现此种趋势状态的解释是中国正处在经济转型期,技术、需求、收入、贸易等因素的影响导致整个中国的产业结构在这段时间内发生了巨大的变动。当走过这种转型期,中国产业结构的变动幅度会逐年下降,最后趋于平稳状态。在20世纪90年代早期东南部沿海经济迅速发展,外界因素对产业结构的冲击较大,产业结构变动的幅度也相应较大,而杭州就在其中,所以杭州的产业结构变动幅度会出现这样的趋势。
(三)人口素质与产业结构发展关系研究
本研究应用相关分析法对1978-2010年杭州市人口身体素质、科技文化素质、劳动技能素质与产业结构变动进行分析。其中人口身体素质、科技文化素质、劳动素质指标值采用因子分析法所获得的因子得分来衡量。相关分析结果见表1,在0.01水平上,身体素质、科学文化素质、劳动技能素质和综合素质四个方面都与产业结构变动达到显著正相关,其Pearson相关系数分别0.967、0.897、0.965,而人口综合素质的相关系数为0.941。这表明,人口综合素质的提高对产业结构变动具有显著的促进作用,特别是身体素质和劳动技能素质的提高,对产业结构变动会产生更加显著的作用。
表1 人口素质与产业结构变动K值之间关系
最后以综合素质为自变量,产业结构变动K值为因变量,对人口素质和产业结构变动之间进行回归分析,以确定人口素质和产业结构变动之间的关系。
经过分析得到的拟合方程为y=0.125x+0.419,判定系数R2=0.885;方差分析F=177.864,Sig=0.000;回归系数检验:常数项t=45.708,Sig=0.000,参数项t=13.337,Sig=0.000。回归方程总体达到显著程度,即回归方程有效。
四、结论与探讨
1.杭州市人口总体素质在不断提升,且人口总体素质与三产业发展都具有显著的线性相关关系,提升人口总体素质,对实现杭州市产业结构升级具有显著的促进作用。
2.虽然杭州市的人口素质总体在不断的提高,但劳动技能的提高比身体素质和科学文化素质要低。可是劳动技能与产业结构之间的相关关系是非常显著的,是产业结构变动与优化的极大推动力,因此杭州人口的劳动技能还没有完全达到产业结构的需求,杭州市必须采取一定的措施进一步提高劳动力的劳动技能。
3.杭州市的产业结构在稳步的变动发展,并在逐渐趋于平稳,产业结构升级也趋于缓慢,杭州的产业结构优化也有可能停滞不前。所以杭州产业结构升级优化还需借助外部因素的推动。
综上所述为了在提高人口素质的前提下推动产业结构的升级优化,杭州可采取以下措施:首先加强高校教育,使高校学生素质与市场需求接轨,为劳动力市场提供高素质人才,推进产业结构向上的不断升级;完善医疗服务体系、改进基础公共服务设施,为整体人口素质的提高奠定坚实的基础,加快城市化进程,以城市化的外力推动产业结构的变动。再次在确立"就业优先"经济增长模式的前提下,应实施劳动力技能教育与培训的系统工程,从系统的角度加强对劳动力的技能教育与培训,让劳动力的知识、技能、观念、区域分布等适应经济结构变化,与市场需求相匹配,提高劳动技能和素质,为产业结构的升级注入新鲜血液。最后加强三产业吸纳劳动力的能力,三大产业对劳动力就业的吸纳能力各不相同,按强弱顺序排列依次为第三、第二、第一产业。第三产业不仅是目前吸纳劳动力就业最重要的部门,而且随着经济的发展,其吸纳劳动力的能力还将提高。因此,杭州市应当加强目前第二产业的发展,大力促进第三产业的发展,特别是金融、房地产等服务业的发展,这是增加劳动力需求,实现产业结构更加合理的十分重要的途径。
参考文献:
[1]杭州统计局.杭州市统计年鉴[M].中国统计出版社,2011
[2]浙江省统计局.浙江统计年鉴[M].中国统计出版社,2001-2010
[3]杭州统计信息网.http:///web/.
[4]屈云龙;徐燕.人口素质评价体系的构建[J].人口与发展,2011(1).
[5]尹希果;李后建.经济区产业结构变动对经济增长影响的差异性研究[J].宁夏大学学报,2010(9).
一、引言
对金融机构授信部门而言,数据挖掘技术已经开始扮演着日益重要的角色,如何发掘房屋贷款户数据库中所包含的信息,并利用这些信息及早预测出可能发生违约的不良房屋贷款户,并拒绝贷款给这些高危群,藉此降低呆账发生机率,同时减少金融机构损失,这就是房屋贷款信用风险管理。以往银行大多使用人工方式对申请人的信用状况,依照5C的原则,即房屋贷款户的特性、还款能力、资本、抵押品及总体经济环境,进行相应审核,但面对日渐增多的申请案件,若要维持人工审件,银行势必花费可观的人力成本。同时,人工审件时,审核人员大多根据经验主观判断申请人的信用状况,为此银行必须研发正确、有效且快速的信用审核制度。
二、审核系统建构方法
1.类神经网络模式
类神经网络是目前发展极为迅速的一门学科,其最大的优点是除可应用于拟合非线性形式外,还能弥补多元回归及建立ARIMA 模型时受诸多假设约束的缺陷。
类神经网络的网络型态有许多类,其中以倒传递类神经网络为最具代表性、应用最广的模式之一。其网络结构一般而言包含三层神经元:输入层、隐藏层及输出层。类神经网络对于变量的选取有较大的自由度,没有如回归分析般的限制,研究者须以文献、专家意见判断或经由统计方法处理,进而选取输入层的输入变量。而在输入层之变量决定后,对于网络结构中的隐藏层数目、隐藏层中神经元数目、训练的学习率大小等,都需要以主观逻辑判断,或以不同组合加以测试,以找到能产生最佳预测结果的参数。
2.判别分析
判别分析要求数据满足独立同分布,以及正态性的要求(Johnson等,1998),根据Fisher(1936)的线性判别模型,具体可表示如下:D=B0+B1X1+B2X2+…+BnXn
其中:D为鉴别分数;B0为估计常数项;Bn为估计系数;Xn为自变数。
判别分析主要优点是简洁方便,并能整合预测变量,而其主要的问题则为违反正态性等假设时模型的拟合效果会较差,目标维度的简化难以说明每个变量的相对重要性、难以使用在时间序列数据上,且当数据型态不符合相关研究工具的要求时,可能得到相当不理想的分类结果。
3.logistic回归
Logistic回归种应变量Y仅有两个可能类别结果,以0与1表示二元变量,例如分析发卡银行是否核准发卡给信用卡申请人,按照审核结果,其反应变量定义为发卡或是拒绝发卡,而自变量可以是任何形式的变量数据,其回归模型的参数利用最大似然法估计得到。
三、实证研究
本文采用我国台湾地区某金融机构大台北地区房屋贷款户共510笔资料进行实证研究,分成两组作实证研究,第一组为人口统计变数,采用性别、申贷时年龄、婚姻状况、教育程度、职业、服务年资、月收入等七个人口统计变量作为评估房屋贷款户是否违约的自变量。第二组为所有变量,采用除上述七个人口统计变量外,另加入其他十一个变量,即月付金占总收入比例、贷款成数、有无保证人、借保人关系、有无政府优惠贷款、自住或非自住、贷款型态、贷款金额、屋龄、借保人申贷时之信用状况、房屋是否为小坪数/国宅/工业区等,共十八个变量作为评估房屋贷款户是否违约的变量。
数据库中共包含510个样本,其中有90%的房屋贷款户属于缴息正常的客户,10%的房屋贷款户属于违约的客户。所谓缴息正常客户,表示房屋贷款户在贷款期间未发生异常行为,包括逾期缴款、催收或呆账等行为;至于曾发生异常行为中任意一项,银行均将此客户视为违约客户。
在实证过程中,本文将分别采用SPSS 10.07和Vesta出版的Qnet(1998)软件分别进行分析。
1.判别分析实证结果
由于房屋贷款户申请数据的可能自变量较多,为取得较精简的自变量,本研究使用逐步判别法进行判别分析,并且依据各变量的U统计量作为删减变量的准则。根据逐步判别分析的结果,第一组人口统计变量被删减成婚姻状况及教育程度2个较为显着的变数;第二组所有首先依违约比率10%随机抽出350笔样本作为回归样本,其余160笔(违约比率变量(即人口统计变量及其它变量),被删减成月付金占总收入比例、贷款成数及贷款金额等3个较为显着的变数。
根据相关分析结果,第一组整体的正确判别率为75.0%,第二组整体的正确判别率为79.4%,第二组所有变量所建立的判别方程优于第一组人口统计变量所建立的判别方程。
2.logistic回归实证结果
本文利用逐步logistic回归进行分析,并且依据各变量的t值作为变量采用的准则。根据分析的结果,第一组人口统计变量中7个变量筛选出婚姻状况及教育程度等2个较为显著的变量;第二组所有的18个变量筛选出贷款成数、月收入及自住或非自住等3个较为显著的变量。再按照所选出来的显著变量分别建立房屋贷款户核准与否的logistic回归方程。
根据相关分析结果,第一组整体的正确判别率为84.4%,第二组整体的正确判别率为85%,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。
3.类神经网络实证结果
Cybenko (1989)等指出包含单一隐藏层之类神经网络模式已足够描述任何复杂的非线性系统,因此建构的倒传递类神经网络将只包含单一隐藏层。而由于第一组人口统计变量输入层包含七个神经元,第二组所有变量包含十八个神经元,因此隐藏层中神经元的数目分别选择 14及36进行测试;最后在网络的输出层部份则只包含一个神经元,即房屋贷款户是否违约。在参数的相关设定中,Rumelhart(1986)建议较小的学习率通常会得到较佳的结果,因此学习率将测试 0.002、0.003、0.004、0.005及0.006五种组合。而停止训练准则方面以训练数据的 RMSE值小于或等于0.0001,或最多训练3000次为准,拥有最小测试数据RMSE值的网络结构被认定为最佳结果。
建立类神经网络模式时,第一组采用人口统计变量、第二组采用所有变量作为预测房屋贷款户是否违约的输入层变量,以进行模式的建立,并以房屋贷款户缴息正常或违约作为反应变量;从510笔的房屋贷款户资料中随机抽样所得350笔样本作为训练样本,另外160笔样本数据则作为测试模式用。
利用Qnet(1998) 软件进行分析,测试不同神经元及学习率组合下类神经网络预测模式结果,当节点个数分别为14及36,学习率为0.005时可得到最大的正确判断率以及最小误差。而将样本数据测试测试模式准确度进行比较发现 ,利用类神经网络方法来判断房屋贷款户缴息正常或违约,第一组及第二组分别可得到96.9%及99.4%的整体正确判别率,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。
四、研究结论
1.加入其他变量比单纯利用人口统计变量更能预测房屋贷款户违约的发生
判别分析实证结果部分,仅含人口统计变量的模型,整体分类正确率为75.0%,而加入其他变量后的模型,整体正确率提升为79.4%。在分类误差方面,加入其他变量的模型的型一、型二误差率都较仅含人口统计变量的模型有所改善。
logistic回归实证结果部分,仅含人口统计变量的模型,整体分类正确率为84.4%,而加入其他变量后的模型,整体正确率提升为85.0%。在分类误差方面,加入其他变量的模型降低型二误差率,但型一误差率并未改善。
在类神经网络模式中,仅含人口统计变量的模型,整体分类正确率为96.9%,而加入其他变量后的模型,整体正确率提升为99.4%。在分类误差方面,二模型的型一误差率皆为0,而加入其他变量后的模型的型二误差率有较佳的表现。
由上述实证结果显示,加入其他变量能有效增加房屋贷款户违约预测模式的预测精准度。
2.对于房屋贷款户违约的预测能力比较
以判别分析建立判别房屋贷款户信用状况的分类模式,使用线性判别模式(LDA)进行模式建构,采用月付金占总收入比例、贷款成数及贷款金额作为准则变量(X),可以得到79.4%的正确辨识率。以logistic回归进行判别模式建立时,以贷款成数、月收入及自住或非自住作为准则变量(X),可以得到85%的正确辨识率。而对类神经网络而言,当节点个数为36,学习率为0.0005时可得到99.4%的正确辨识结果。整体而言,类神经网络可以提供较佳的预测结果,对于未来的研究方向,可以考虑利用其他的分类工具,如回归分类树、模糊理论等建构辨识率较高的房屋贷款户分类模型。此外,利用统计或人工智能的工具针对自变量的部分进行重要变量的筛选,以增加类神经网络模式输入层变量决定的理论基础也值得深入探讨。
参考文献:
中图分类号:TM933文献标识码:A
文章编号:1004-373X(2010)05-179-03
Design of Portable Power Quality Analyzer Based on DSP+ARM
LUO Xiaoming,YANG Shuanke,JIN Yinbin
(College of Electrical Engineering,Xi′an Jiaotong University,Xi′an,710049,China)
Abstract:The design of power quality analyzer based on a high performance DSP of ADSP21161 and an ARM chip of S3C2410 are introduced,DSP is used as the core of data acquisition and processing,accompanied with S3C2410 chip as the core of data display and system control,and embedded operation system WinCE is adopted as software of system.The scheme advances the intelligence and reliability of system,reduces the system power consumption and it is good for function expanding.The test results show that the analyzer meet the IEC standards for power quality.
Keywords:power quality;DSP+ARM;winCE;wavelet transformation
0 引 言
随着国家工业规模的扩大和科学技术的发展,电网负荷结构发生了很大的变化,一方面,非线性、冲击性和不平衡负荷的大量增长使得电能质量恶化;另一方面,随着信息技术的发展,越来越多的敏感负载对电能质量的要求也越来越高[1]。这就要求电能质量检测分析设备具有实时检测、快速分析、实时显示的能力。采用高性能数字信号处理器(DSP)和嵌入式计算机系统(ARM)双处理器架构设计电能质量分析仪能满足上述要求。DSP系统实现电压、电流信号的实时采集处理,通过加窗傅里叶变换和小波算法得到电能质量参数;ARM嵌入式平台运行WinCE操作系统完成人机交互、数据存储、实时显示等功能。该系统为仪器的可扩展性和智能化建立了良好的软硬件平台。
1 硬件系统设计
便携电能质量分析仪硬件系统设计应以功能实现和便携式设计为基础,并兼顾系统的可扩展性。
1.1 硬件系统总体设计
该硬件系统包括信号调理、数据采集与处理、ARM嵌入式平台、协控制器和电源系统5个模块,系统框架如图1所示。电网电压电流信号经调理电路预处理;采用高速ADC数字化后由DSP处理器系统实现缓存及快速、准确的分析计算;采集到的波形数据和分析计算结果通过FIFO传递到ARM嵌入式平台;采用LCD实现波形和分析结果显示;采用SD卡或USB存储设备来存储大量的数据以便回放或进一步深入分析;利用键盘或触摸屏实现人机交互功能;设置RS 232、USB和网络接口,便于实现电能质量分析仪的系统化和网络化扩展。
图1 系统的硬件框架
系统中采用CPLD芯片设计了协控制器,它的作用主要是产生A/D转换器所需要的采样时钟、完成采样通道的时序控制、综合FIFO读时钟逻辑、网卡地址控制逻辑和DSP启动模式的设置。系统硬件电路配有多种电源,通过对系统各模块电源进行控制,以及使DSP按测量需求工作在节电模式等措施实现了系统低功耗设计。系统采用电池供电,满足便携式仪器要求。
1.2 数据采集和处理模块
电能质量分析仪需要有较高的测量准确度,并且电网电压电流信号除了50 Hz工频分量以外,还包含电压瞬变、短时电压骤升骤降等因素引起的高频分量;按照一般电网测试要求,需要检测8路信号(4路电压和4路电流);这里需要高速、高分辨率、多通道、低功耗的ADC芯片。TI公司出品的AD7655是一款低成本、4通道、1 MSPS采样率、16位ADC芯片。该芯片典型功耗为120 mW,采样率为10 KSPS时只有2.6 mW,满足系统低功耗要求;芯片内有两个低噪声、宽频带的采样保持器和相应的模拟开关,允许两个通道同时采样。选用两片AD7655可满足系统设计需要。
数字信号处理器选用ADI公司的ADSP-21161N 32位浮点DSP芯片[2]。该芯片采用超级哈佛结构,拥有多条内部总线、高速运算单元、大容量存储器、灵活多样的外部接口。它的内核工作频率可达100 MHz,外部总线工作频率可达50 MHz,运算处理速度可高达600 MIPS,以较低的工作频率实现了较高的处理能力,同时降低了功耗。而ADI公司提供的根据处理器量身制作的IDE环境极大的方便了DSP软件开发,最大程度上发挥了处理器的性能。
两片AD7655与DSP通过“三线”SPI接口连接,DSP对数据进行缓存并进行一系列运算,将计算结果通过LINK PORTS接口发送给FIFO实现数据传输功能。ADC的采样时钟、每个ADC中的通道切换和双ADC调度等控制逻辑由协控制器实现。
1.3 协控制器
协控制器逻辑电路框图如图2所示。图2中,采样时钟发生器为A/D转换器提供采样时钟;ADC通道轮换控制电路协调8个通道的数据转换次序,协助DSP准确地读取各相电压电流信号;DSP启动模式控制电路协助DSP上电初始化程序从FLASH自启动;FIFO读时钟逻辑电路由ARM嵌入式平台控制,产生读时钟,完成DSP与ARM系统的数据传输;网卡地址控制逻辑为CS8900网卡提供读写逻辑。
1.4 ARM嵌入式平台
ARM嵌入式平台硬件配置如图1所示。选用三星公司S3C2410芯片,外扩64 MB SDRAM和64 MB FLASH。该嵌入式平台有众多外设接口:SPI接口用于和DSP命令传输;LCD接口用于TFT液晶屏的驱动;USB接口适用于多种即插即用设备;SD卡接口可插入大容量SD卡用于数据存储;触摸屏接口可实现触摸屏控制。为了实现仪器的网络化,该系统扩展了网卡芯片CS8900A;为了系统调试的安全性,将RS 232接口进行隔离处理。
图2 协控制器逻辑电路框图
ARM与DSP之间通信和数据传输通过SPI接口和FIFO实现。ARM通过SPI接口发送命令,使DSP进行相应的数学运算及传输数据,系统设定ARM为主设备,DSP为从设备。FIFO用于传输DSP的计算结果和波形数据;FIFO芯片采用低功耗异步芯片SN74ALVC7805,数据传输率可达50 MHz,数据存储深度为256 B。
ARM嵌入式平台移植了WinCE操作系统。WinCE操作系统在实时管理、图形界面、开发环境等方面有着特有的优势,这为便携式电能质量分析仪的人机交互和网络化扩展提供了便利。
2 系统软件设计
系统软件设计包括ARM部分WinCE操作系统定制、应用程序设计和DSP部分数据处理程序设计。
2.1 WinCE操作系统定制及应用程序设计
WinCE是模块式、多任务、实时嵌入式操作系统[3],微软公司提供了功能强大的开发工具,WinCE操作系统定制包括操作系统内核定制、各相关驱动程序编写等。其内核的定制使用PB(Platform Builder)软件,相应的驱动程序开发使用EVC(Embedded Visual C++)。
系统应用程序是在WinCE 5.0上由VS 2005(Visual Studio 2005)开发的C#窗体应用程序[4],其主要功能为:实现良好的人机界面、合理的功能设定、数据的接收显示及存储、对DSP和系统电源的控制等。
电能质量分析仪应用程序的界面是根据不同的测量用途来划分的,分为示波器、功率和能量、谐波、向量图、骤升骤降、闪变和瞬态等显示界面,不同的显示界面运行着不同的显示线程,每一个显示线程都有一个对应的数据传输模式。ARM根据这个数据传输模式来给DSP处理器发送命令,进行相应计算和传输相应的数据。
2.2 数据处理程序设计
数据处理程序流程图如图3所示,程序启动后,DSP通过Serials中断读取ADC采样数据,同时接收SPI中断,根据ARM系统的命令进行相应的电能质量指标计算,将计算数据通过Link Port传送给FIFO供ARM系统读取;IRQ0中断用于控制数据传送的节奏和数据同步。
图3 数据处理程序流程
2.3 数据处理算法介绍
电能质量分析仪需要对电力信号进行稳态分析和暂态分析[5]。稳态分析包括检测三相电压、电流的有效值,电网频率,电压、电流的各次谐波及谐波总畸变率,电压、电流中的正序和负序分量;三相不平衡等的计算。暂态信号分析包含电压瞬变、短时电压骤升、骤降、电压闪变、短时严重波形畸变等检测内容[6]。相对于稳态分析,暂态电能质量分析需要对信号进行快速、实时、准确的测量与分析。
FFT变换是电能质量分析的重要工具,为提高采用FFT变换的计算精度,需要通过硬件或软件方法实现整周期采样。整周期采样就是要求采样的数据刚好是信号的整个周期或是倍数,也就是假如信号周期为T,就是要保证:
N/fS=L×T
其中,L为整数;fS为采样频率;N为采样点数。
在实际采样中,通常做不到整周期采样,即使知道信号的周期,采取同步采样,也只能使信号中的某些频率(工频及其倍频)接近整周期采样,而不能使信号中所有的频率成分(如噪声等)都是整周期采样。非整周期采样的直接的后果就是频谱泄露,使获得的频率成分不准;第二个后果就是对于频率相隔较近的多频率成分信号来说,会出现干涉现象。
为简化硬件设计本文采用非整周期采样[7],通过加窗傅里叶变换来减小频谱泄露和干涉。通过加窗傅里叶变换法[8]可以精确计算出50次以下谐波的幅值和相位。从谐波分析结果进一步计算可以得到三相系统各相的有效值、频率、功率、相位差、失真度和不平衡度等基本电参数。
微分算子可以检测瞬变,而小波滤波器的N阶消失矩和N次卷积微分算子具有等价关系。在此原理基础上设计了基于小波变换的电压瞬变检测算法[9]。在短时电压骤升骤降和浪涌电流检测中,使用了实时真有效值计算方法,通过有效值与阈值的比较来判断有无事件发生。电压闪变的评估使用了IEC推荐的同步检波法[10],通过IEC测试数据对闪变测量值进行校准。在此硬件平台所设计的暂态电能质量分析软件可实现对电压瞬变、短时电压骤升骤降、浪涌电流、谐波、三相不平衡度、电压闪变等项目的测量。
3 系统测试结果
搭建了以Chroma 61702功率信号源及三相交流电机组成的Y型接法测试系统,对本检测系统的稳态分析功能和暂态分析功能进行检测。实测表明该系统具有较高的测量精度,能够精确测量电压电流有效值、功率能量值、最高50次谐波分量、三相不平衡度、短时闪变值和长时间闪变值,各项测试指标满足设计要求。该仪器可以捕捉电网实时真有效值并显示结果,方便观测者检测电网电压事件,同时本仪器可以实时捕捉电压电流波动与闪变、电压跌落等事件,并将事件存储于SD卡中以便用户随时读取。
4 结 语
本文从便携式仪器设计的角度出发,设计了一种电能质量分析仪。该仪器用DSP实现数据采集与处理,快速准确的计算出各项电能质量指标,能够进行稳态分析和暂态分析;用ARM嵌入式平台实现数据管理、人机界面及系统控制,结合WinCE操作系统,提高了系统的可靠性,为实现电能质量分析仪智能化及网络化提供了良好的平台。通过实际测试,表明该仪器各项指标均满足IEC电能质量测量标准。通过选用低功耗器件,以及采用电源控制,实现了系统的低功耗;系统硬件设计简洁,集成度比较高,实现了系统的便携式设计。
参考文献
[1]肖湘宁,韩民晓,徐永海.电能质量分析与控制[M].北京:中国电力出版社,2004.
[2]Analog Devices,Inc.ADSP-21161N Data Sheet[EB/OL]..
[3]周毓林,宁杨,付林林.Windows 内核定制及应用开发[M].北京:电子工业出版社,2005.
[4]章立民研究室.Visual C# 2005程序开发与界面设计秘诀[M].北京:机械工业出版社,2006.
[5]汪秀丽.浅论电能质量[J].水利电力科技,2006,32(2):17-22.
[6]IEEE.IEEE Recommeded Practices for Monitoring Electric Power Quality(IEEE std 1159-1995).IEEE,1995.
[7]杨川,徐云.一种解决谐波分析非整周期采样问题的新方法[J].仪器仪表学报,2003,24(3):291-293.
关键词:省际人口迁移 研究方法 综述
Key words:Inter-provincial migration; research methods; Summary
作者简介:张冬敏,(1981.10―)女,辽宁,西安工业大学经济管理学院,助教,在读博士,研究方向:社会保障精算
【中图分类号】C92 【文献标识码】A 【文章编号】1004-7069(2009)-05-0119-02
一、人口迁移规模测定方法
人统计调查是测定人口迁移规模时最基础的,也是被广泛使用的研究方法。由于我国长期缺乏人口迁移的统计数据,在很大程度上阻碍了人口迁移研究。1990年进行的第四次人口普查,首次将省际人口迁移列为正式统计项目。2000年第五次人口普查中,将人口迁移统计项目进行了进一步细化,添加了对省、市、县内部的迁移流量和流向情况的统计。除全国普查外,1986年中国社科院人口研究所进行的74城镇人口迁移抽样调查 [2];1987年和1995年全国人口普查办公室进行的1%人口抽样调查[3];1988年[4]和1992年[5]国家计划生育委员会进行的全国生育、节育抽样调查中,内容也涉及了人口迁移的相关项目。
通过以上多次统计调查,已可以构建起过去二十年间我国的人口迁移数据库,进而为相关研究提供必要的数据准备,推进对人口迁移的定量研究。但值得注意的是,在利用统计数据进行人口分析时,必须认识到各次统计数据间,在对迁移者的定义、迁移者年龄范围、抽样标准等统计口径上,存在着较大差异。
由于对迁移人口的统计间隔较大,无统计数据年份的人口迁移规模需要通过构建人口迁移模型,测算得出。特定年份的区域总人口规模等于区域内原住人口规模与此时期内的净迁移人口规模之和。因此,在总人口规模已知时,只要测定出原住人口规模,即可计算出此时期内的净迁移人口规模。据此思路,徐国祥[7]提出了利用生命表对净迁移人口数进行估计的方法。
二、人口迁移方向判定方法
为准确描述人口迁移现状,除测定人口迁移规模外,还需判断人口迁移方向,对人口迁移进行动态描述。人口迁移方向判定可根据其研究范围的不同,分为宏观、微观两种判定方法。
人口迁移方向的宏观判定是以全国为研究范围,研究全国范围内人口迁移的主要流向,即判断出全国人口迁移的吸引中心及其主要吸引区域。其研究方法是通过统计各省份(或地区)的人口迁入/迁出规模,并比较各省份人口迁入/迁出规模占总人口迁移规模的比重,测定全国范围内的人口空间流向。丁金宏[8]总结了我国省际人口迁移的三类典型流场形态:以四川省为源地的辐散流场;以广东省为引力中心的辐合流场;山东与广东的对流流场。于弘文[9]将我国划分为东、中、西三大地区,指出近20年来,我国人口地域分布呈现东多西少的宏观格局没有改变,但人口分布进一步向东部聚集。王桂新[10]测定出我国形成的7个主要人口迁移吸引中心,包括北京、广东、上海3个强吸引中心;新疆、浙江、天津、福建4个次级吸引中心。
人口迁移方向的微观判定是以某一省份(或地区)为研究范围,研究此省份人口迁出的主要目的地,或人口迁入的主要来源,即判断出针对某一省份的人口迁移吸引中心及其吸引的迁入人口区域。屈琼斐[11]、章定福[12]、周一星[13]、伍理[14]等分别对广东省、广西省、北京市和上海市的人口迁移流向进行了判定。
以上两种方法的缺点是在判定人口迁移方向时,仅通过比较各个地区的迁移人口规模,判定人口迁移的吸引中心,而忽略了迁移距离对人口迁移的影响。经验表明,在其他条件一定时,迁移人口更倾向于选择距离较近的目的地。因此,周皓[15]提出在判定人口迁移吸引中心时,应考虑到距离因素,将人口迁移规模与迁移距离结合成一个数量指标。
三、人口迁移的影响因素分析方法
长期以来,影响因素分析是人口迁移研究领域内的热点问题,其通过分析迁移现象中的各种基本因素特征,判断哪些因素将会对人口迁移决策起到关键性的影响,及其影响力大小。
频数统计法是统计学中用以描述定类数据的频数分布的方法。魏星[16]利用频数统计法对我国东、中、西三大地带间人口迁移的个体基本属性特征的分析得出:2000年前迁移人口中男性居多,绝大多数长途迁移者为男性。但2000年后,迁移人口的性别差异逐步减少,截至2004年迁移人口的性别构成已较为均等。
回归模型是用以研究某几个因素间存在的影响关系的重要统计学方法。人口迁移决策的影响因素是多方面且复杂的,为了深入、准确地测定各种因素对人口迁移决策造成的影响,logistic回归、多层次logistic回归、嵌套logistic回归等模型被引入人口迁移研究领域。李树茁[17]应用logistic回归,分析社会经济发展与人口净迁移的关系,提出:导致人口迁移的最重要动因是经济水平,其次是社会结构,最后是生活质量。段成荣[18]利用logistic回归模型分析了影响我国人口迁移的个人特征,其中年龄、性别、受教育水平和婚姻状况等特征对人口迁移决策起着显著的影响作用。庞丽华[19]利用多层次logistic回归模型,从家庭、村和省级三个层次研究发现我国省际农村劳动力迁移的影响因素中家庭类型、家庭劳动力数量、劳动力平均受教育水平、家庭经营主业和家庭在收入分层中的位置等家庭层次变量,经济类型、交通条件和迁移传统等村级层次变量,以及投资强度、经济结构、农村社会保障等省级层次变量对农村家庭的劳动力迁移有显著影响。刘建波[20]采用嵌套logistic回归模型研究发现,无论是个人因素还是区域经济因素,都对个体迁移行为具有重要的影响。
空间相互作用模型,从地理学视角阐明了影响人口迁移的主要影响因素。王桂新[21]从区域经济发展的角度,应用空间相互作用模型,定量考察并分析发现我国80年代后,经济规模因素对人口迁移(量)的影响比较大,经济收入因素的影响相对比较小;经济规模因素主要是影响人口的迁出,经济收入因素主要是影响人口的迁入;经济规模因素对迁出人口的供给及迁移量的大小具有决定性影响,经济收入因素对人口迁移的流向选择及其分布模式具有重要的导引、定型作用。
众多关于人口迁移的影响因素分析模型,都以迁入地为主,或迁出地为主,这些模型常隐含着迁移者对目的地的信息和交通具有同等的使用权的假设,且这些使用权不因来源地不同而有所变化。这样的迁入或迁出模型可能会高估迁移者对目的地因素的响应强度,忽略了不同来源地和目的地的空间差异性[22]。
四、人口迁移的趋势预测方法
当前我国对人口迁移的研究多集中于上述三个方向,对人口迁移的预测研究较少。人口迁移的趋势预测是对未来一定时期内的人口迁移规模、方向等进行的测算。
对人口迁移的预测方法主要包括两种:一种是以某省份(或地区)过去一段时期内的净人口迁移规模为基础,通过预测未来的净迁移率变动趋势,达到预测今后人口迁移规模的目的。另一种是以某省份(或地区)人口迁移的关键性影响因素为基础,通过预测影响因素的变动趋势,进而分析人口迁移情况的方法。
五、结论
综上可以看出,学者们已对我国社会经济转型期的人口迁移新特征进行了较为充分的研究(见附录)。学者们应用多种研究方法,描述了近年来我国省际人口迁移规模、方向等特征,清晰地呈现出人口迁移现状。
目前,我国对省级人口迁移规模、方向的研究方法已较为成熟。漏报率估算模型、迁移规模测算模型、人口迁移力矩等研究方法的引入,使得以往对人口迁移规模、方向研究中存在的遗漏、忽略的问题已被逐渐解决。研究成果已较为全面的反映出我国的人口迁移形势。为了进一步完善本领域内的研究,就必须统一人口迁移统计口径,提供准确、规范的统计数据。
人口迁移影响因素的研究方法向多样化发展。影响因素研究是揭示人口迁移规律的重要步骤,其作为当前人口迁移研究的热点问题,被众多人口学家、社会学家、经济学家所重视。
人口迁移的趋势预测的研究方法较少。未来人口迁移的发展趋势是制定人口、经济等相关政策的重要依据。当前对人口迁移的趋势预测的研究方法包括基于人口自身发展规律的和基于人口迁移影响环境的两种,研究方法的局限,致使此领域内的相关研究较少。
参考文献:
[1] 杨杨,关于人口迁移调查设计问题的讨论――对一次人口迁移调查的几点认识[J] 人口研究,1997,(2)
[2] 同[1]
[3] 王谦.全国生育节育抽样调查报告集(迁移卷)[M].中国人口出版社,1993
[4] 周皓.从迁出地、家庭户的角度看迁出人口――对1992年38万人调查数据的深入分析[J]中国人口科学,2001,(3)
[5] 徐国祥.法赫德・尤素福.国内净迁移人口数估计方法研究.财经研究[J].1994(4)
[6] 丁金宏.中国人口省际迁移的原因别流场特征探析[J].人口研究,1994 (l)
[7] 于弘文.从2000年人口普查看我国人口状况的几个特点[J].2001(7)
[8] 王桂新.中国经济体制改革以来省际人口迁移区域模式及其变化[J].人口与经济,2000 (3)
[9] 屈琼斐等.广东省人口迁移区域性态势分析[J].人口研究,1997 (11).
[10] 章定富.江西省人口迁移与城市化[J].人口学刊,2000 (l)
[11] 周一星.北京千户新房迁居户问卷调查报告[J].规划师,2000 (3).
[12] ] 伍理,重视城市化过程中的人口分布变化―以上海市为例[J].人口与经济,2001 (5).
[13] 周皓.中国省区人口净迁移的两项数量分析[J].杭州大学学报.1997(10)
[14] 魏星,王桂新.中国东、中西三大地带人口迁移特征分析[J].市场与人口分析.2004(5)
[15] 李树茁,杨有社.我国的省间人口迁移与社会经济发展[J].人口与经济.1996(5)
[16] 段成荣.影响我国省际人口迁移的个体特征分析[J].人口研究.2000(4)
[17] 庞丽华.多层次分析方法在人口迁移研究中的应用―――省际劳动力迁移的多层次分析.中国农村观察[J].2001(2)
改革开放至今,中国就业人口素质发生了极http://大的变化,并深深地影响着中国经济的发展。本文立足于对就业人口素质和经济增长关系的研究得出其间有较强的正相关性。因此,政府在加快经济建设过程的同时要加大对教育的投入,使社会进入人口素质促进经济发展,经济发展提升人口素质的良性循环中。
二、研究现状
国内外对人口素质与经济增长关系的研究主要有两大方向。
第一,对人口素质定量分析的研究。屈云龙和许燕(2010)在借鉴“人口素质指数”(pqli)三大指标的基础上,将人口素质划分为身体素质、文化素质和劳动技能素质三大方面,并在每个方面中给出了具体的统计指标。然后用主成因分析法计算和分析了江苏省的人口素质,结果发现各省辖市人口素质发展状况存在明显差异。肖周燕(2007)将人口素质分为身体素质水平、文化素质水平、劳动技能素质水平和道德素质水平四个方面,并确定了各个方面的具体指标。在此基础上,用ahp(层次分析法)评价人口素质水平。张强和钱建明(1993)选用标准化总死亡率、婴儿死亡率、12岁以上人口的识字率及人均工农业总产值四个指标,用多维标度法评价了我国10个少数民族的人口素质。钱金平(2001)选取了平均寿命、维尔威克指数、智商、非残疾比重,6岁及以上人员大学、中学、非文盲比重等7个指标及其权值分配方案,运用灰色系统理论方法,综合定量评价了人口素质。张强,张霜红,钱建明和张菊英(2003)选取了出生时预期寿命、人均工农业产值、婴儿死亡率、生育率、15岁以上人口识字率等5个指标,利用灰关联聚类法对我国14个主要少数民族的人口素质进行了聚类分析和评价,并探讨了此方法的特点和效果。
第二,对人口素质与经济增长关系的研究。沈百福和杜晓利从人均受教育年限与经济发展的关系、各级教育的人口比例与经济发展水平两个角度考查了人口素质与经济发展的关系。张邦辉,谭伟和邓淼从人力资本角度,运用人均受教育年限法度量了中国各地区不同年份的劳动力受教育状况,并用聚类和线性回归法分析了近20多年来中国各地区人均受教育年限与经济增长的关系。宋光辉[通过关注研究教育与经济增长作用的重要文献,发现对教育与经济增长关系的认识经历了四个阶段,20世纪60年代的重视阶段,70年代的争论和置疑阶段,80年代的理性回归阶段和90年代以来的重拾信心阶段。程前昌依据1994年~2006年经济发展水平与人口文化素质的统计资料,选取人均gdp和接受过不同教育程度的人口比重作为经济发展水平和人口文化素质的衡量指标,对经济发展水平与人口文化素质进行相关分析。黄春燕运用spss软件对人口素质指数edi和gdp进行相关分析和回归分析,求得gdp增长的预测模型。
三、我国人口素质的实证分析
1.人口素质评价指标体系的构建。在本文中,笔者把人口素质划分为身体素质、文化素质与劳动技能素质三个方面,在每个方面中,选取了具体的统计指标,最终构建了我国人口素质的综合评价体系,如图1所示。
(1)身体素质评价指标体系。身体素质是人口素质的最基本方面,它严重影响着其他各方面素质的提高。在对人口身体素质的衡量中,笔者选取了婴儿死亡率(‰)(x1)、5岁以下儿童死亡率(‰)(x2)、劳动年龄人口比例(%)(x3)、传染病发病率(甲乙类法定报告传染病发病率)(1/10万)(x4)、患病死亡率(甲乙类法定报告传染病病死率)(%)(x5)这五个指标构建了身体素质评价指标体系。这5个指标的数据都来自于《中国卫生统计年鉴》。
(2)文化素质评价指标体系。笔者选取了大学毛入学率(%)(x6)、未上过小学的人数占总人口的百分比(%)(x7)、每十万人在校大学生人数(x8)和人均受教育年限(x9)这四个具体指标来综合评价人口文化素质。其中,x6的数据来自于《中国教育统计年鉴》,x7和x8的具体数据来自于《中国统计年鉴》,x9的数据由《中国统计年鉴》和《中国人口统计年鉴》的数据计算而得。
(3)劳动技能素质评价指标体系。劳动技能素质的高低决定了一个国家生产效率的高低,严重影响着这个国家的技术水平和综合竞争力。本文选取了每千人从事研究与发展的科学家和工程师数(单位:万人年)(x10)、每万人专利批准申请量(国内专利申请授权数)(x11)和从业中大中专及以上人口比例(%)(x12)来综合评价我国的劳动技能素质水平。其中,x10和x11的数据来源于《中国科技统计年鉴》,x12的数据来源于《中国人口统计年鉴》。
2.我国人口素质水平的主成分分析。本文选取的一些数据不是比率数据,首先利用spss17.0对数据进行标准化处理。接着对标准化的数据进行主成分分析,经过kmo与巴特利特球形检验得到,kmo为0.629,bartlett球形检验统计值为386.465,自由度为66,p值为0.000,这说明数据适合做因子分析。
运用spss17.0进行主成分分析,得到各主成分的方差贡献率和累计贡献率如表1所示。在此,根据以下两个标准提取公共因子:第一,特征值大于1;第二,累计方差贡献率大于80%。由表1可以看出,第一个公共因子的特征值为10.705,远大于1,且它的累计方差贡献率为89.212%,大于80%的标准。据此,可以认为第一个公共因子基本描述了所有变量的变化,因此提取的公共因子为1个。
表2为因子载荷矩阵,它能够说明提取的公共因子在各变量上的载荷。从表中可以看出,提取的公共因子对所有变量都有载荷,且载荷绝对值大多数都大于0.9,这说明提取的主成分从各个方面综合衡量了我国的人口素质,代表了我国的人口素质状况,因此将提取的主成分命名为“人口素质综合因子”。
因为提取的主成分只有一个,所以这个主成分的因子得分就是综合得分,综合得分如表3所示。
四、我国经济发展水平的实证分析
1.经济发展水平评价指标体系的构建
在本文中,选取人均gdp(y1)、货币供给量(y2)、中国历年人均收入水平(美元)(y3)、财政收入(万元)(y4)、进出口差额(亿美元)(y5)和全社会固定资产投资(亿元)(y6)来综合衡量我国的经济发展水平。其中,y1、y2、y4、y5和y6的数据来源于《中国统计年鉴》,y3的数据来源于《世界银行统计年鉴》。
2.我国经济发展水平的主成分分析
首先用spss17.0对原始数据进行标准化处理。接着对标准化后的数据进行主成分分析,经过kmo与巴特利特球形检验得到,kmo为0.659,bartlett球形检验统计值为260.088,自由度为15,p值为0.000,这说明数据适合做因子分析。
运用spss17.0进行主成分分析,以特征值大于1和累计方差贡献率大于80%为标准提取公共因子。得到各主成分的方差贡献率和累计贡献率如表4所示。从表中可以看出,第一个公共因子的特征值为5.784,远大于1,且它的累计方差贡献率为96.407%。据此,可以认为第一个公共因子基本描述了所有变量的变化,因此提取的公共因子为1个。
转贴于 http://
从表5的因子载荷矩阵中可以看出,提取的公共因子对所有变量都有载荷,且在六个变量上的载荷值都大于0.9,这说明提取的主成分综合反映了我http://国的经济发展水平,因此将提取的主成分命名为“经济发展水平综合因子”。
注:zscore(人均gdp)表示人均gdp的标准化值,其余类似。
同样,因为提取的主成分只有一个,所以这个主成分的因子得分就是综合得分,综合得分如表3所示。
五、我国人口素质水平与经济发展水平关系的实证分析
现在分析我国人口素质水平与经济发展水平的关系。从上面的分析可知,在对人口素质和经济发展水平的主成分分析中,我们都分别提取了一个主成分,且这个主成分综合评价了我国的人口素质水平和经济发展水平,因此在这里用“人口素质综合因子”和“经济发展水平综合因子”来代表我国的人口素质水平和经济发展水平。作出人口素质水平综合因子得分与经济发展水平综合因子得分的走势图,发现二者都具有明显的上升趋势。
运用spss17.0对人口素质综合因子和经济发展水平综合因子进行相关性分析,得出两者的pearson系数为0.956,双侧显著性水平为0.000,在时通过检验,具有统计学意义。因此可知,二者具有高度相关性,可以进行回归分析。
做出人口素质综合因子和经济发展水平综合因子的散点图,如图3所示。从图上可以看出,二者具有明显的线性关系,因此要对它们作线性回归分析。为了简便起见,用ecod表示经济发展水平综合因子,用pql表示人口素质综合因子。设二者的回归方程为
用eviews6.0进行回归分析,得出二者的回归方程式为
std. (0.0888) (0.0853)
在此回归方程中,, ,这说明回归方程的拟合程度较好,此回归模型是可信的。
通过分析以上回归模型可以得知,我国人口素质水平对国家经济发展水平起着非常重要的作用。其中,人口素质综合因子每增加一个单位,国家经济发展水平综合因子增加0.9557个单位。因此,我国应该大力提高人口素质,以促进国民经济又好又快发展。
六、政策建议
根据以上分析,我们可以得出人口素质的提高对经济增长有很大的促进作用。而人口素质又由身体素质、文化素质以及劳动技能素质构成,因此,我们可以从这三个方面为中国经济更好的发展提供以下几条政策建议。