暨南大学陈光慧主持完成的国家社会科学基金项目《超总体模型辅助条件下抽样估计方法及其应用研究》(项目批准号为:14CTJ014),最终成果为同名论文集。课题组成员有:马志华、容越彦、曹伟伟、闫单单、杨槟羽。
一 研究的目的和意义
在整个抽样调查过程中,抽样设计和抽样估计是影响抽样精度最主要,也是最具技术性的两个环节。抽样设计研究如何从总体中抽出一个随机样本以更好地代表总体,在实际调查中一般使用复杂抽样设计。国内外对此研究非常成熟,理论也相当完善。抽样估计是在抽样设计环节之后,基于样本信息研究应用什么样的抽样估计方法对总体未知参数进行推断估计。相对来说,抽样估计方面的研究还远不够充分和完善。
1.研究目的
在既定的调查经费和样本信息下,通过改进抽样估计方法得出更优的估计结果,这对于提高数据质量的贡献是潜在和巨大的。本项目理论研究目的在于,寻找现有抽样估计中难以解决的关键技术问题,通过构建一套现代抽样回归估计方法的基础理论体系,改进抽样估计效率,为提高调查数据质量奠定方法论基础。
近年来,我国政府统计部门在抽样框、联网直报、“一套表”和复杂抽样设计等方面做了大量工作,但在抽样估计方面考虑得并不多。本项目应用研究目的在于,在当前形势下针对产生统计数据的最大源头,即政府抽样调查体系进行研究,重点解决抽样估计问题,构建适应我国统计管理体制的抽样估计体系,潜在地提高数据质量。
2.研究意义
(1)在理论方面,本项目拓宽了传统抽样估计方法的研究范畴,在超总体模型辅助条件下研究一套抽样估计方法,将传统的回归理论与抽样估计结合起来,在两者的交叉领域进行研究,使得在既定的样本信息下产生更加准确的估计结果。(2)在应用方面,本项目成果可为政府统计部门改革和完善抽样方法提供借鉴和参考。比如基于复杂抽样设计的广义回归估计方法、连续月度调查下的校准组合估计方法,这些必将有效指导我国开展统计调查工作,产生更加准确的调查数据。
二 成果的主要内容、重要观点及创新之处
1.主要内容
本项目以超总体模型为基础,围绕如何产生更加准确的抽样估计问题展开研究,将模型辅助下的广义回归估计与模型误差设定、复杂抽样设计、多水平模型、连续性样本轮换调查结合起来得出精度更高的估计结果,并与我国实际抽样调查结合起来,构建一套适应国情的抽样回归估计方法体系。
(1)为了改进模型识别的效果,在模型形式方面,根据辅助变量与研究变量之间的关系,将现行的线性回归模型扩展到非线性、半参数和非参数模型。本部分在现有研究的基础上,借鉴数理统计的最新研究成果,利用前沿的建模方法,研究建立一套模型体系,涵盖各种模型形式,为后续回归估计提供模型基础。
(2)为了增强估计方法的推广价值,在上述一般性模型体系下进行系统性的模型辅助抽样估计研究。包括:将目前的比率估计、线性回归估计、非参数估计等各种方法统一在广义回归估计体系下进行研究;根据样本信息识别出恰当的模型形式,并通过上述广义回归估计体系得出具体的回归估计量,如在非参数模型下应用局部多项式回归估计,不需太多的模型假定,更接近实际调查情况。
(3)为了提高模型估计效果,在上述广义回归估计体系下,对估计方法进行改进研究。在模型设定方面,改变超总体模型误差项的方差结构,从理论上对现行方法进行扩展;在误差项方差函数中考虑各种复杂抽样设计的影响,将抽样设计引入估计量中;利用校准估计思想,对回归系数和权重系数进行最优化校准,得出广义校准回归(组合)估计方法。
(4)针对复杂抽样下的估计难题,引入多水平模型(Multilevel)进行广义多水平回归估计。本部分在现行的组回归模型和单因素方差分析基础上,考虑各阶抽样单元的水平差异和各群单元的类别差异,建立综合的多水平模型,通过度量多层次样本中的各层、各群和各阶的影响,分层次开展广义回归估计,提高复杂抽样下的整体估计精度。
(5)基于轮换样本调查研究广义回归组合估计方法。首先,对于常见的轮换样本调查,基于已有的平衡轮换模式研究广义组合估计方法,利用各期信息更准确度量轮换样本间的相关关系,得出有效性更高的估计量;其次,在广义组合估计基础上,利用各期辅助信息构建回归模型,进行广义回归组合估计。另外,还与校准估计方法结合,提出校准组合估计方法,进一步提高估计精度。
(6)针对我国抽样调查在估计环节存在的不足,建立适应政府管理体制的模型辅助抽样估计方法体系。利用上述研究的理论方法,并借鉴发达国家建设抽样估计系统的成功经验,研究内容有:面对大数据时代的机遇与挑战,提出现代政府统计调查体系改革的思路和建议;结合我国各类调查使用的复杂设计、轮换模式,构建具体的超总体模型,确定具体的模型辅助广义回归估计的程序和步骤。
2.重要观点
(1)利用辅助信息进行模型识别,构建恰当的超总体回归模型进行辅助估计;(2)放宽模型假定条件,将现行的线性回归估计拓展到半参数、非参数估计的研究范畴,引入校准估计等方法改进广义回归估计;(3)将传统的一阶抽样估计扩展到复杂抽样下的多阶估计;(4)研究近似模型无偏和一致的方差估计量,提高方差估计效果;(5)在各类实际调查中应用这一套模型辅助抽样估计体系,实现连续各期协调运作,提高估计效率,全面、准确地提供抽样调查数据。
3.创新之处
(1)关于模型回归系数的样本估计问题。本项目在估计回归系数时,在主流的加权最小二乘估计法的基础上,综合利用复杂抽样设计的包含概率、模型误差项方差函数的信息,并校准样本权重,得出更加准确的模型回归系数估计量,以解决这一重点问题。(2)在连续性抽样设计下构建超总体模型进行广义回归组合估计。在连续抽样估计方面,以往主要是应用组合估计法,未考虑建立模型。本项目通过校准估计方法,使用现期和过去各期的辅助信息,研究模型辅助下的广义校准组合估计方法,并根据实际情况应用到各类连续性样本轮换调查中。(3)结合我国政府调查的实际需要,应用模型辅助抽样估计方法。本项目结合大数据时代的特征,将这一套估计方法与现行政府抽样调查的组织机构、调查制度、调查内容、调查指标等方面改革相结合,综合考虑各方面的制约因素和阻力,在多方博弈中寻求调查制度与方法的更优平衡点,提高这套理论方法的实际应用价值。
三 成果的价值
该成果的学术价值在于:在借鉴西方国家前沿的抽样估计方法研究成果基础上,进行系统性的改进和创新,最终形成了一系列较为科学、合理的模型辅助抽样估计方法体系,这套估计方法体系为我国政府统计的应用研究奠定了扎实的理论基础。
该成果的应用价值在于:针对我国当前政府统计数据质量问题,该成果从抽样估计的角度进行研究,给出一系列模型辅助抽样估计方法,在不增加调查经费的情况下提高估计精度和调查数据质量,为前沿的模型辅助抽样估计方法在我国政府统计部门的应用铺平道路。