农业经济学刊(2019年第1期/总第7期)
上QQ阅读APP看书,第一时间看更新

二 数据来源与模型设定

(一)数据来源

数据来源于国家卫生健康委2016年全国流动人口动态调查数据。调查以31个省(区、市)和新疆生产建设兵团流动人口年报数据为基本抽样框,采取分层、多阶段、与规模成比例的PPS方法进行抽样。首先,对省级单位进行分层以确保省级单位的代表性。其次,对各省城市进行二级分层,二级分层内为等比例抽样,各二级分层之间为不等比例抽样。再次,按PPS法抽取乡镇(街道),再在抽中的乡镇(街道)内按PPS法抽选村(居)委会。最后在抽中的村(居)委会内随机抽取个人进行调查。

本文主要研究新型城镇化进程中的农业转移人口的二孩生育意愿。一般而言,居住5年及以上的农业转移人口生育意愿具有较强稳定性,其生育意愿的促进与转化可作为政府促进落户的手段之一。因而,本文调查对象为处在18~49岁育龄期、在流入地居住5年及以上、有偶且已有一个孩子的农业转移人口。根据流动目的,剔除家属随迁、婚姻嫁娶等非务工的农业转移人口群体,共获得有留居意愿的农业转移人口样本14067份,有返乡意愿的农业转移人口样本1989份。

(二)模型设定

农业转移人口生育意愿具体包括愿意和不愿意,将愿意赋值为1,不愿意赋值为0,即y=1或者y=0,考虑y的两点分布概率:

Fx,β)为连接函数,若连接函数为标准正态的累计分布函数,则P(y=1|x)=F(x,β)=Φ(x′β),此模型为“PROBIT”,若连接函数为逻辑分布的累计分布函数,则P(y=1|x)=F(x,β)=Λ(x′β)=,其中Λ(·)的定义为Λz)=,此模型为“Logit”。

Probit模型和Logit模型都常用作二值估计,但Logit模型的回归系数更容易解释其经济意义,其回归系数表示解释变量增加一个单位引起的对数概率比的边际变化,而Probit模型的回归系数无法进行类似解释。因此,本文主要使用Logit模型进行估计和分析。

为排除解释变量多重共线性以及保证得到的解释变量集是最优的,本文使用逐步回归方法筛选解释变量。逐步回归法的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当先引入的解释变量由于后引入的解释变量的引入变得不再显著时,则将其删除。常用逐步回归方法有向前法和向后法,本文采取向后法筛选解释变量,先将全部自变量选入回归模型,然后逐个剔除对残差平方和贡献较小的自变量。本文数据为截面数据,为解决异方差的问题,在使用Logit模型估计中,使用稳健标准误估计。