常用单音节手部动作动词研究
上QQ阅读APP看书,第一时间看更新

第三节 语料抽样方法的确定

本研究是基于北京大学汉语言研究中心的现代汉语语料库开展的。运用语料库进行研究可以提供丰富真实的语言材料,增加研究的可信度。但是检索得到的大规模语料如何处理就成了语料库使用者需要面对的问题。

以本研究选取的北大现汉语料库为例,该语料库的语料总量达5.82亿字之多。由于我们的研究对象是常用词,检索得到的语料少则几千条,多则几十万条。限于本研究的时间和研究者的精力,对全部语料逐一进行考察和分析是不可能完成的,因此,必须采取合适的方法对这批语料进行抽样,同时又要保证抽样结果的真实可信度。

教育统计学中的抽样方法为我们提供了一种思路。在教育统计学的研究中,研究者经常需要对大规模的群体进行调查和分析,以保证调查结果的真实可信度。但是初步调查后所得到的巨大的数据量成为研究者经常面临的问题。对此,最常用的方法就是从总体中抽取一定数量的样本,通过对样本特征的分析来推断总体的特征。

要想保证局部抽样结果的真实性和可靠性,选择合适的抽样方法尤为重要。在教育统计学中常见的抽样方法有简单随机抽样、等距抽样和分层抽样。从这三种抽样方法的信度来看,一般情况下,等距抽样和分层抽样的误差比简单随机抽样要小一些。其中分层抽样的方法有其特定的适用条件,即所抽取的样本必须具有几个不同的鲜明特征,能在不同特征中进行抽样。从本研究检索得到的语料来看,我们并不能对这些语料区分出有层次的特征,不具备分层抽样的条件。考虑到本研究的实际情况,我们决定采取等距抽样的方法。

通过初步检索,我们发现常用单音节手部动作动词在北大现汉语料库中出现的数量并不均等。以常用单音节“敲击类”手部动作动词为例,“打”在语料库中出现了212570条,“敲”出现了10893条,“揍”出现了1073条。同为“敲击类”动词,检索所得的语料数量却相差十倍,甚至百倍。

本研究根据语料数量的多少来确定抽样的间距。对于语料数量超过100000条的,采取隔100抽1的方法;对于语料数量在10000~100000条之间的,采取隔10抽1的方法;对于语料数量在1000条以下的,不进行抽样,全部作为分析对象。在此基础上我们对样本语料进行穷尽分析,这样既使抽样所得数据在可操作的范围内,同时又保证了分析结果的可信度。

对于抽样方法在语言学研究中的可靠性,一些学者曾有过论述。步延新、张和生(2006)曾以“白”为例,分别选取10%、50%、100%的样本对“白”的不同义项的分布进行了考察,结果发现,抽取不同比例样本的分析结果基本相同。这也为我们通过等距抽样确定语料的做法提供了支持。

接下来,我们就以“打”为例来简述抽样的具体方法和步骤。在北大现汉语料库中,我们以“打”为检索条件,就得到212570条含有“打”的语料。为了保证语料的完整性以及实现研究过程的可追溯性,我们对检索得到的212570条语料进行了编号。用数字加“#”的形式标示。例如,“打”的第98条语料的编号为“98#”[3]。由于“打”的语料数量超过10万条,根据抽样距离确定的原则,我们把语料抽样的间距确定为100,即每隔100条抽取1条作为研究的样本。运用软件,我们完成了语料的抽取,得到了2125条语料。这些语料是我们下一步进行穷尽分析的对象。