如虎添翼!数据处理的SPSS和SAS EG实现(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4 数据来源

从使用者的角度来说,数据来源分为两种:一种是直接来源,即通过使用者的调查或实验活动直接获得;二是间接来源,数据由别人通过调查或实验的方式搜集,使用者只能找到他们并加以使用。

2.4.1 直接来源

直接来源,又称为一手数据。

通过实验获取的数据称为实验数据,实验大多是对于自然现象而言的,如通过控制不同的施肥量和温度,观察土豆产量的变化等。

一般把通过调查获得的数据称为调查数据,调查通常是针对社会现象而言,如搜集经济现象的数据来分析经济的发展趋势,调查数据通常来自有限总体:

● 若调查总体中的所有个体则称为普查,普查能够掌握较全面、完整的信息,但当总体较多时,成本会非常高。如我们国家每10年做两次经济普查(年末数逢3、逢8,如2013年、2018年),每10年进行一次农业普查(年末数逢6),每10年进行一次人口普查(年末数逢0,如2000年、2010年)。

● 若抽取总体中部分样本就称为抽样,抽样又分为概率抽样和非概率抽样。

概率抽样指遵循随机源进行的抽样,总体中每个个体都有一定的几率会被选入样本,主要有三个特点,一是抽样时按一定的概率以随机的原则抽取样本;二是每个样本被抽中的概率是已知或是可计算的;三是当用样本对总体目标量进行估计时要考虑到每个样本被抽中的概率。需要注意的是,概率抽样与等概率抽样不是同一个概念。具体的概率抽样方法将会在4.3节有详细的论述。

非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求。如方便抽样,由调研员依据方便的原则,比如在商城入口处进行拦截调查;判断抽样,根据调查员经验、判断有目的的选择样本;滚雪球抽样,适用于对稀少群体的调查,首先选择一组调查单位,对其实施调查后再请他们提供线索继续进行调查。

相比较而言,概率抽样依据随机原则,可以用样本推断总体,但需要对总体较为熟悉,调查成本较高。非概率抽样优点为操作简便,时效快,成本低,适用于探索性研究,为更深入的数量分析做准备。缺点是由于不是依据随机原则抽取,无法使用样本的结果对总体参数进行推断。

2.4.2 间接来源

间接来源,通过间接来源获取的数据又称为二手数据,二手数据来源广泛,主要有如下几种:

● 统计部门和政府部门公布的有关资料、各类统计年鉴;

● 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据;

● 各商业联合会或行业协会公布的数据;

● 从互联网或图书馆查阅到的相关资料;

● 数据库,如WIND数据库、CEIC中国经济数据库/全球经济数据库、CNKI年鉴库、国泰安数据库、BLOOMBERG彭博、数据汇(http://www.shujuhui.com/database/)、数据堂(http://www.datatang.com/)、经管之家数据交流版块等。

二手数据的特点如下:

● 收集容易,采集成本低;

● 作用广泛,可以提供研究问题的背景、帮助研究者更好地定义问题、寻找研究问题的思路和途径。

使用二手数据时一定要注意,需要对数据进行评估,即3W1H。

● 数据是谁收集的(WHO)?分析搜集者的实力和可信度;

● 为什么目的而收集的(WHY)?分析是否与现有的分析目的相吻合;

● 什么时候收集的(WHEN)?分析数据的时效性,过时的数据作用也就有限了;

● 数据是怎样收集的(HOW)?了解数据的生产过程,分析数据的质量。

相比来说二手数据容易获取,一手数据由于针对分析目标而采集可用性更强。