論城鎮(zhèn)化因素對我國地區(qū)人口遷移選擇性的影響論文
一、研究背景
遷移者的個體特征會對遷移的決策行為產(chǎn)生重大影響。然而,由于遷移涉及遷移者在至少兩個時點和兩個地點上的變動,使得遷移研究變得更為復(fù)雜。因為研究對象的部分特征(年齡、婚姻狀態(tài)等)會隨著時間的變化而發(fā)生改變,忽略這種時變性因素容易在方法論上出現(xiàn)謬誤,從而影響研究結(jié)果的可靠性。國內(nèi)學(xué)者對此已有關(guān)注,一些文獻也指出應(yīng)當注意時變性變量對研究結(jié)果的影響。例如,段成榮(2000)指出,在國內(nèi)研究遷移決定因素的文獻中,在方法論上有一個共同的特點,就是用調(diào)查時點上的個人特征來研究人口遷移行為。他認為,這種處理忽略了時變性變量帶來的“同時性偏差”,有時會導(dǎo)致變量之間的虛假關(guān)系。而正確處理同時性偏差,將有助于消除這種虛假關(guān)系,同時還能夠增強統(tǒng)計模型的解釋力度。
從國內(nèi)研究來說,忽略時變性因素的主要原因是中國研究資料多為截面數(shù)據(jù),較少有調(diào)查對遷移者進行連續(xù)的長期追蹤,從而忽略時變性因素是一種不得已的選擇。盡管如此,筆者認為,在數(shù)據(jù)資料具備消除時變性特征影響的結(jié)構(gòu)時,應(yīng)當進行有關(guān)的數(shù)據(jù)處理,以充分反映遷移發(fā)生時被調(diào)查對象的真實特性。目前來看,1987年全國人口調(diào)查、1988年全國生育節(jié)育抽樣調(diào)查和2000年全國人口普查(簡稱“五普”數(shù)據(jù))中的遷移數(shù)據(jù)就具有這樣的結(jié)構(gòu),能夠反映出被調(diào)查者發(fā)生遷移的時點和時變性特征。
本文利用“五普”數(shù)據(jù),通過數(shù)據(jù)處理與模型分析結(jié)果的比較,希望明確遷移選擇性與時變性因素之間的關(guān)系,以及挖掘更深層次的信息。
二、資料來源
本文利用“五普”0.95‰的微觀數(shù)據(jù)來進行分析,其中蘊涵了本研究所需要的必要信息。由于“五普”0.95‰的樣本量非常大,為此筆者對其進行了10%的隨機抽樣,得到初步的樣本量為118 324個。為了討論的方便,在本研究中將主要對1998~2000年間15歲及以上人口發(fā)生的省際遷移行為進行分析,對在1998年前發(fā)生的跨省遷移行為將不視為遷移。同時,本文將只關(guān)注影響跨省遷移決策的4種個人因素,即年齡、性別、婚姻和教育水平,其中只有性別是非時變性變量,并在樣本中進一步剔除了年齡在15歲以下的人口,最終用于分析的樣本量為90 686個。
三、遷移數(shù)據(jù)中時變性因素的處理方法
根據(jù)筆者所了解的情況,處理截面遷移數(shù)據(jù)的方法有多種,下面主要就3種方法進行探討。第一種方法可以稱為調(diào)查時點法。這是國內(nèi)遷移研究文獻中使用較多的辦法,即按被調(diào)查者在調(diào)查時點的信息來確定變量的值。第二種方法可以稱為局部倒推法,僅僅將發(fā)生遷移行為的人還原到遷移發(fā)生時的狀態(tài),利用調(diào)查數(shù)據(jù)中的有關(guān)信息來倒推遷移者在遷移發(fā)生時的屬性。這樣能夠準確地把握遷移者在做出遷移決策時的人口經(jīng)濟特征。段成榮(2000)采用了這種方法。第三種方法可以稱為全面倒推法。這是由Ma等(1997)提出來的人年分解方法①。這種方法與段成榮所用方法的主要區(qū)別是:(1)全面倒推法不僅將遷移者隨時間而改變的人口經(jīng)濟特征恢復(fù)到遷移時點,還將未遷移者隨時間而改變的人口經(jīng)濟特征倒推到遷移發(fā)生年之初。(2)人年分解方法以年為分割界面,將每個人的信息分年倒推到每年初的狀態(tài),從而使每個觀測值在每個研究年份形成一套新的截面數(shù)據(jù)資料,樣本量以研究年數(shù)為基數(shù)增加,形成一套合成的人口數(shù)據(jù)。郭志剛(1999)在分析省際遷移的離散時間風險模型實例中也提到了類似的人年數(shù)據(jù)組處理方法,但他的方法對數(shù)據(jù)結(jié)構(gòu)的要求與“五普”資料不完全相同。
下面以兩個具體的觀察值為例,更直觀地展示3種數(shù)據(jù)處理方法。
例1:調(diào)查對象A,在調(diào)查時點上的信息是:年齡為30歲,男性,1999年結(jié)婚,1998年時發(fā)生了省際遷移,教育水平為研究生畢業(yè),數(shù)據(jù)處理結(jié)果如表1所示。
例2:調(diào)查對象B,調(diào)查時點上的信息是:年齡為18歲,男性,未婚,1999年時發(fā)生了省際遷移,教育水平為高中畢業(yè),處理結(jié)果如表2所示。
從上述例子可以看出,調(diào)查時點法的不當之處在于忽略了變量屬性隨時間的改變,局部倒推法對這一缺點進行了局部的修正,同時作出一個隱含的假定,即研究的時間范圍不是以單獨一年界定的。該方法考察的是多年內(nèi)的遷移行為,但設(shè)定的參照群體卻是調(diào)查時點上未遷移的人群。全面倒推法進一步將遷移考察的時間限定在單獨一年內(nèi),考察的是一年內(nèi)具有遷移風險的人群。當把連續(xù)多年的數(shù)據(jù)放到一起時,則是一個多年加權(quán)平均的遷移風險研究。因此,前兩種方法中樣本量不變,全面倒推法下樣本量會隨著研究年份的增加而倍增。
四、變量的描述性分析
。ㄒ唬⿲Ψ治鲎兞康恼f明
因變量是省際遷移:在研究范圍內(nèi)發(fā)生省際遷移為1,未發(fā)生為0。年齡:分為15~19歲、20~24歲、25~29歲、30~34歲、35~39歲、40~44歲、45歲及以上。45歲及以上為參照組。性別:女性為1,男性為0。受教育年限:按連續(xù)變量處理,設(shè)定文盲為0年,半文盲為1年,小學(xué)畢業(yè)為6年,初中畢業(yè)為9年,高中畢業(yè)為12年,中專畢業(yè)為13年,大專畢業(yè)為15年,大學(xué)畢業(yè)為16年,研究生畢業(yè)為19年。當然,各種受教育程度還存在著畢業(yè)與在校、輟學(xué)等狀態(tài)的`區(qū)分,為了簡化,本文不再細分;橐鰻顟B(tài):未婚為1,曾婚為0。曾婚指有過婚姻經(jīng)歷的人,與未婚者對應(yīng)。
(二)描述性分析與方法比較
在前面設(shè)定的方法下,得到了所要研究對象在年齡、性別、受教育年限、婚姻狀態(tài)方面的描述性結(jié)果(見表3)。可以看到,樣本量方面調(diào)查時點法和局部倒推法相同,全面倒推法是前兩種方法的3倍,但3種方法下遷移者的數(shù)量沒有變化。
1.年齡②。年齡是影響遷移決策的重要時變性變量。調(diào)查時點法下,對包括遷移者和非遷移者的樣本全體而言,人口的平均年齡為39.67歲。而局部倒推法由于將遷移者的年齡倒推回到遷移發(fā)生年年初時的年齡,其平均年齡下降到39.65歲。對遷移者的平均年齡來說,這兩種方法得到的遷移者平均年齡也不一致,局部倒推法下平均年齡為26.77歲,略低于調(diào)查時點法的27.51歲,更是遠低于整個分析樣本的平均年齡39.67歲,差值為12.9歲。這印證了遷移的年齡選擇性,而且局部倒推法處理后遷移人口的年齡進一步下降了。在全面倒推法下,得到樣本的平均年齡為38.67歲。這與局部倒推法的結(jié)果一致,說明我們的數(shù)據(jù)處理是正確的。比較分析表明說明兩點:(1)遷移人口具有明顯的年齡選擇性,年輕人更容易遷移,(2)但全面倒推法能更準確地把握年齡與遷移行為之間的關(guān)系。
2.性別。性別是唯一不隨時間改變的變量,3種處理方法下結(jié)果一致。數(shù)據(jù)表明,樣本中男女比例基本一致,但遷移者中女性的比例要低近4個百分點?梢姡缘倪w移風險總體上要略低于男性,即遷移的性別選擇偏向于男性。
3.受教育年限。3種方法下,樣本全體的平均受教育年限分別為7.829年、7.827年和7.794年,遷移者的平均受教育年限則分別為9.216年、9.146年和9.146年,數(shù)值依次降低或不變。局部倒推法使全體樣本、遷移者的受教育年限降低了,與遷移實際發(fā)生時的真實受教育水平更加貼近。全面倒推法樣本的平均受教育年限被“攤薄”,全體樣本的均值下降,遷移者的均值下降(這與局部倒推法相同)。
4.婚姻狀態(tài)。在3種方法下,樣本全體的未婚比例略有不同,分別為20.38%、20.43%、21.65%,遷移者的未婚比例也呈大幅上升的趨勢,分別為46.78%、48.46%、48.46%。在局部倒推法下,未婚者的比例提高了,因為已婚者被倒推還原成了未婚。全面倒推法下,樣本中未遷移者的婚姻狀態(tài)也進行了逐年的修正,因此,未婚比例要高出前兩種方法很多。數(shù)據(jù)同時也表明,未婚者更容易發(fā)生遷移行為。
比較分析表明,我們的處理方法識別了時變性的影響,年齡、教育、婚姻等時變性因素的均值和方差發(fā)生了明顯變化,忽略這些因素將帶來分析上的風險。
五、時變性影響的Logistic模型分析與比較
上述分析表明,時變性變量的均值及均方差隨著時間而變化。進一步還需要確定不同處理方法下變量間關(guān)系是否穩(wěn)定,是否具有統(tǒng)計上的顯著意義。下面利用Logistic模型的結(jié)果來審視這些問題。Logistic模型是處理二分變量的標準方法,也是遷移研究中的常用工具,表4列出了3種處理方法下Logistic回歸分析的結(jié)果。通過模型設(shè)定選擇了參照組,年齡的參照組為45歲及以上組,性別的參照組為男性,婚姻的參照組為曾婚。
。ㄒ唬┠P蛿M合優(yōu)度
首先看一下模型的總體擬合效果。王濟川、郭志剛(2001)指出,Hosmer和Lemeshow的擬合優(yōu)度檢驗是估價Logistic回歸模型的擬合優(yōu)度最為廣泛應(yīng)用的指標,可以據(jù)此探討模型對數(shù)據(jù)的擬合情況。根據(jù)該檢驗,在自由度為8的情況下,調(diào)查時點法下的卡方值為13.10,P值為0.108,局部倒推法下的卡方值為6.93,P值為0.544,全面倒推法下的卡方值為10.90,P值為0.143,卡方統(tǒng)計結(jié)果均不顯著。因此,不能拒絕3個模型對數(shù)據(jù)都擬合得很好的假設(shè)。
如果利用類確定系數(shù)偽R進行比較,3個模型中得到的偽R分別為0.0905、0.0944、0.0674。由此看來,前兩種方法具有更高的解釋力度,局部倒推法較之調(diào)查時點法提升了模型的解釋能力,而全面倒推法的解釋力度最低③。段成榮(2000)認為,考慮了時變性因素后的模型對遷移風險的類解釋系數(shù)會上升。本研究證實了他的推斷。
筆者認為,模型擬合優(yōu)度考察的是模型對數(shù)據(jù)的擬合能力,并不能對數(shù)據(jù)處理方法的優(yōu)劣進行有效的判別。就本研究而言亦是如此,因為3個模型各自的樣本量不同;其數(shù)據(jù)結(jié)構(gòu)發(fā)生了變化。在此情況下,從回歸系數(shù)大小的變化及變量影響的統(tǒng)計顯著性角度來考察分析方法差異對遷移選擇性的影響是可行的選擇。
(二)回歸系數(shù)的差異
總體來看,3種處理方法下各變量對遷移選擇性的影響基本一致,盡管變量的回歸系數(shù)beta值差異明顯,而且部分變量的作用在統(tǒng)計顯著性上發(fā)生了變化,但自變量作用的方向改變。為了分析時變性的影響,下面分別就回歸系數(shù)的變化和標準誤差的變化進行說明(見表4)。
1.年齡。各個模型均顯示,與45歲及以上人口相比,其他年齡段人口的遷移風險都較高,其中20~24歲組遷移風險最高,25~29歲組(局部倒推法)、15~19歲組(調(diào)查時點法和全面倒推法)遷移風險次之,然后依次是30~34、35~39、40~44歲組人口。即隨著年齡增加遷移風險先上升,然后達到峰值,最后遷移風險隨年齡增加而下降。這基本反映了遷移的年齡選擇性模式,與眾多學(xué)者的研究一致。
然而,不同模型中相同年齡組的回歸系數(shù)beta盡管都在1‰的統(tǒng)計水平上顯著,但大小明顯不同。與調(diào)查時點法相比,局部倒推法下所有年齡組的beta偏高,全面倒推法下都偏低。這可能是由于局部倒推法下遷移者的參照組(未遷移者)年齡相對上升,而全面倒推法下遷移者的參照組的年齡平均值下降。
2.性別。性別不是隨時間而改變的變量,但不同處理方法下性別對遷移的影響有了一定的變化,而且3種情況下與描述性分析中的結(jié)果并不一致。在調(diào)查時點法下,beta等于-0.0556,Z值為-1.32。這說明女性比男性遷移風險略低,但這種差異在統(tǒng)計上并不顯著。在局部倒推法下,beta值下降為-0.0803,Z值為下降為-1.91,女性比男性遷移風險進一步下降,而且接近了5%的統(tǒng)計顯著水平。在全面倒推法下,beta值和Z值與調(diào)查時點法基本一致。
3.受教育年限。遷移具有較強的教育選擇性這一點,在調(diào)查時點法下和全面倒推法下得到了證實,而且全面倒推法下,隨著受教育年限增加,遷移風險也不斷增加,體現(xiàn)出人口遷移具有較強的教育選擇性。然而,局部倒推法下顯示,盡管受教育年限增加對遷移的影響有著正向的影響,但這種影響力(beta)并不如其他模型中大,并且在統(tǒng)計上只是接近于5%的顯著水平。
4.婚姻狀態(tài)。調(diào)查時點法、局部倒推法、全面倒推法一致表明,單身者的遷移風險遠高于有過婚姻經(jīng)歷的人,而且這種差異在統(tǒng)計上顯著。但3種方法的beta值有差異,與調(diào)查時點法(0.3956)相比,局部倒推法(0.2081)大大低估了單身者的遷移風險,全面倒推法(0.3515)估計值偏低。
可見,不同的處理方法對因變量與自變量間的關(guān)系產(chǎn)生了重大的影響。時變性因素不僅對時變性變量本身有影響,而且對非時變性變量(如性別)在回歸分析中的統(tǒng)計顯著性和回歸系數(shù)的大小產(chǎn)生影響。
六、結(jié)論與討論
從方法論角度看,遷移研究中的同時性偏差是值得關(guān)注的重要問題。正如艾爾·巴比(2005)指出,因果關(guān)系成立的基本原則之一就是原因必須先于結(jié)果發(fā)生,忽略變量隨時間而改變的屬性就不能構(gòu)建正確的因果關(guān)系。本研究對此進行了數(shù)據(jù)處理方法和模型模擬的演繹,結(jié)果表明,不同數(shù)據(jù)處理方法使得時變性因素對遷移選擇性有明顯影響,甚至改變變量作用的方向。從而忽略遷移過程前后個體的人口經(jīng)濟特征的變化,將可能導(dǎo)致我們對遷移過程中的年齡、教育、婚姻等時變性因素的選擇性做出錯誤的結(jié)論。因此,對于調(diào)查時點法,除非數(shù)據(jù)結(jié)構(gòu)不許可,不應(yīng)當選擇該方法。局部倒推法本質(zhì)上是將各年的遷移者假想為2000年時發(fā)生的遷移,假借2000年初時人群的年齡、婚姻、性別、教育水平等特征為參照對象,在方法上有一定的合理性,但忽略了不同遷移年份間決策背景的差異。全面倒推法將所有被調(diào)查者的人口經(jīng)濟特征按年倒推回到了每年初時的狀態(tài),從而使得以年為基準的遷移者與參照群體及其特征之間具備了可比性,有著獨特的優(yōu)點。
如果對全面倒推法下的分年數(shù)據(jù)進一步分析,這種優(yōu)點更加明朗。筆者的初步嘗試發(fā)現(xiàn),當僅僅選取2000年為研究年份進行分析時,教育對遷移風險的影響不顯著,而以1999年和1998年為研究年份進行分析時,則不存在這種情況。事實上,這從數(shù)據(jù)構(gòu)成本身和中國遷移的特點可以得到解釋。“五普”統(tǒng)計時點截止到當年11月1日零時,距離中國傳統(tǒng)節(jié)日春節(jié)還比較遠。當以2000年為研究年份時,大量的外出務(wù)工者還沒有返回老家。這些務(wù)工者大部分是農(nóng)村人,他們平均受教育程度較低是一個不爭的事實,因此2000年的截面數(shù)據(jù)出現(xiàn)遷移的教育選擇性不顯著是可以理解的。而在普查數(shù)據(jù)中保留下來的1999和1998年中遷移人口,與未遷移人口比,很可能有著較高的平均受教育水平。因此,全面倒推法能夠發(fā)現(xiàn)教育選擇性的中國特色,厘清選擇性與時變性之間的辯證關(guān)系,有助于發(fā)現(xiàn)更有價值的信息。
但對于全面倒推法的應(yīng)用需要進行更深入的思考。例如,能否將人年分解法下3年的數(shù)據(jù)合并用于描述性分析和回歸分析。因為這種合并處理需要警惕3個統(tǒng)計事實:
(1)合并之后觀察值在跨年間存在著序列相關(guān);
(2)合并后的樣本存在著參照組混同的問題,這相當于一個面板數(shù)據(jù);
(3)合并后的數(shù)據(jù)使得樣本量成倍增加。這三點對統(tǒng)計方法應(yīng)用和統(tǒng)計結(jié)果的可信性提出了挑戰(zhàn)。究竟影響如何,有待于進一步探討。
注釋:
、龠@一方法曾在筆者的碩士論文(Tang,2005)和唐家龍、馬忠東(2007)的文章中使用過,這里主要從方法論的角度進行的闡釋與思考。
②在局部倒推和全面倒推中,沒有將年齡低于15歲的觀測值剔除,主要是為了便于說明數(shù)據(jù)處理方法的可靠性。同樣,后面的統(tǒng)計模型中也保留了那些年齡小于15歲的觀測值。
、跠eMaris(1992)認為,Logistic回歸中采用的是似然比方法,不應(yīng)該將偽R作為被解釋的比例R。
【論城鎮(zhèn)化因素對我國地區(qū)人口遷移選擇性的影響論文】相關(guān)文章:
我國城鎮(zhèn)居民醫(yī)療保險對居民醫(yī)療消費影響論文08-10
加入WTO對我國注冊會計師行業(yè)的影響及對策論文05-09
影響面試成績的因素02-22
信息技術(shù)對我國注冊會計師審計影響畢業(yè)論文07-24
影響?zhàn)B老金水平的因素10-24
新西蘭留學(xué)獎學(xué)金申請的影響因素09-10
影響員工歸屬感因素05-16
柳袁照寫作講評課教學(xué)的文化的因素影響的論文06-14
PM2.5對運動的影響論文開題報告01-10